发布于: Oct 22, 2020

Amazon Batch 现在允许用户根据定义的退出代码配置重试策略。客户现在可以根据指定的事件(例如基础设施故障或应用程序故障)来确定其 Amazon Batch 作业是否应该重试。这使客户可以严格控制因作业出现故障而采取的措施,仅在必要时重试,从而降低成本并提高吞吐量。 

批处理作业可能需要重试的原因有很多,其中包括应用程序可能在实例上占用过多内存,或者作业可能无法访问成功执行其代码所需的特定文件。不管出现故障的原因是什么,通常都需要允许重试,特别是对于希望通过使用可中断的 Spot 实例以节省成本的客户而言。 

从今天开始,Amazon Batch 允许用户根据一系列故障代码指定作业是否应该重试。这使客户可以设置简单的重试策略:例如,如果某个作业因在 Spo 回收的实例上而出现故障,则应重试。如果该作业因占用太多内存而出现故障,则该作业将失败而不会重试,并且相关用户会收到通知。