StormCrawler

StormCrawler

StormCrawler是一个开源SDK,用于使用Apache Storm构建分布式Web搜寻器。该项目受Apache许可v2的约束,由可重复使用的资源和组件的集合组成,这些资源和组件主要使用Java编写。StormCrawler的目的是帮助构建Web爬虫,这些爬虫是:可伸缩的,低延迟,易于扩展,礼貌而又高效的StormCrawler是开发人员可以用来构建自己的爬虫的库和资源集合。好消息是这样做非常简单。通常,您要做的就是将Storm Crawler声明为Maven依赖项,编写自己的Topology类(提示:您可以扩展ConfigurableTopology),重用项目提供的组件,也许编写一些自定义组件为你自己的秘密调味料。稍微调整一下配置即可使用!...除了核心组件之外,我们还提供了一些可在项目中重用的外部资源,例如我们用于ElasticSearch的喷嘴和螺栓或使用Apache Tika的ParserBolt解析各种文档格式。StormCrawler非常适合要获取和解析的URL作为流出现的情况,但它也是大规模递归爬网的合适解决方案,尤其是在要求低延迟的情况下。该项目已被多家公司用于生产,并得到了积极的开发和维护。

分类目录

具有免费许可证的Linux版StormCrawler的替代品