Luigi

Luigi

Luigi的目的是解决通常与长时间运行的批处理过程相关的所有管道问题。您希望将许多任务链接起来,使其自动化,否则将发生故障。这些任务可以是任何事情,但通常都是长期运行的任务,例如Hadoop作业,向数据库转储数据或从数据库转储数据,运行机器学习算法或其他任何事情。还有其他一些软件包专注于数据处理的较低方面,例如Hive,Pig或Cascading。Luigi并不是替代这些框架。相反,它可以帮助您将许多任务组合在一起,其中每个任务可以是Hive查询,Java中的Hadoop作业,Scala或Python中的Spark作业,Python代码段,从数据库中转储表或其他任何内容。建立包含数千个任务且需要几天或几周才能完成的长期运行的管道很容易。Luigi负责许多工作流程管理,因此您可以专注于任务本身及其依赖性。...您可以构建几乎任何所需的任务,但是Luigi还附带了一个包含几个常用任务模板的工具箱。采用。它包括对在Hadoop中运行Python mapreduce作业以及Hive和Pig作业的支持。它还带有HDFS的文件系统抽象和本地文件,以确保所有文件系统操作都是原子的。这很重要,因为这意味着您的数据管道不会在包含部分数据的状态下崩溃。
luigi

分类目录

具有任何许可的所有平台的Luigi替代品

Zenaton

Zenaton

开发人员的工作流生成器。在几天而不是几个月内构建事件驱动的流程。
StackStorm

StackStorm

StackStorm是一个功能强大的开源自动化平台,可将您所有的应用程序,服务和工作流程连接在一起。它可扩展,灵活,并且对DevOps和ChatOps充满爱。
ProActive Workflows & Scheduling

ProActive Workflows & Scheduling

通过ProActive工作流和计划,您可以轻松地执行公司的所有工作和业务应用程序,监视活动并快速访问工作结果。
Apache Airflow

Apache Airflow

Airflow是一个以编程方式编写,计划和监视数据管道的平台。