Apache Nutch

Apache Nutch

Apache Nutch是一个高度可扩展和可扩展的开源Web爬网程序软件项目。Nutch完全使用Java编程语言进行编码,但是数据以与语言无关的格式编写。它具有高度模块化的体系结构,允许开发人员创建用于媒体类型分析,数据检索,查询和群集的插件。提取程序(“机器人”或“网络爬网程序”)是专为该项目从头开始编写的。
apache-nutch

分类目录

具有开源许可证的BSD版Apache Nutch的替代方案