Luigi

Luigi

Luigi的目的是解决通常与长时间运行的批处理过程相关的所有管道问题。您希望将许多任务链接起来,使其自动化,否则将发生故障。这些任务可以是任何事情,但通常都是长期运行的任务,例如Hadoop作业,向数据库转储数据或从数据库转储数据,运行机器学习算法或其他任何事情。还有其他一些软件包专注于数据处理的较低方面,例如Hive,Pig或Cascading。Luigi并不是替代这些框架。相反,它可以帮助您将许多任务组合在一起,其中每个任务可以是Hive查询,Java中的Hadoop作业,Scala或Python中的Spark作业,Python代码段,从数据库中转储表或其他任何内容。建立包含数千个任务且需要几天或几周才能完成的长期运行的管道很容易。Luigi负责许多工作流程管理,因此您可以专注于任务本身及其依赖性。...您可以构建几乎任何所需的任务,但是Luigi还附带了一个包含几个常用任务模板的工具箱。采用。它包括对在Hadoop中运行Python mapreduce作业以及Hive和Pig作业的支持。它还带有HDFS的文件系统抽象和本地文件,以确保所有文件系统操作都是原子的。这很重要,因为这意味着您的数据管道不会在包含部分数据的状态下崩溃。
luigi

分类目录

具有开源许可证的Clever Cloud版Luigi的替代方案