Apache Spark

Apache Spark

Apache Spark™是用于大规模数据处理的快速通用引擎。SpeedRun程序在内存中的运行速度比Hadoop MapReduce快100倍,在磁盘上快10倍。
Apache Spark™是用于大规模数据处理的快速通用引擎。快速运行程序在内存中的运行速度比Hadoop MapReduce快100倍,在磁盘上快10倍。Spark具有先进的DAG执行引擎,该引擎支持循环数据流和内存中计算。
apache-spark

分类目录

Linux版Apache Spark的替代品

Apache Hadoop

Apache Hadoop

Apache Hadoop是一个开源软件框架,支持根据Apache v2许可获得许可的数据密集型分布式应用程序。
Disco MapReduce

Disco MapReduce

Disco是一个轻量级的开放源代码框架,用于基于MapReduce范例并用Python编写的分布式计算。