StormCrawler

StormCrawler是一个开源SDK，用于使用Apache Storm构建分布式Web搜寻器。该项目受Apache许可v2的约束，由可重复使用的资源和组件的集合组成，这些资源和组件主要使用Java编写。StormCrawler的目的是帮助构建Web爬虫，这些爬虫是：可伸缩的，低延迟，易于扩展，礼貌而又高效的StormCrawler是开发人员可以用来构建自己的爬虫的库和资源集合。好消息是这样做非常简单。通常，您要做的就是将Storm Crawler声明为Maven依赖项，编写自己的Topology类（提示：您可以扩展ConfigurableTopology），重用项目提供的组件，也许编写一些自定义组件为你自己的秘密调味料。稍微调整一下配置即可使用！...除了核心组件之外，我们还提供了一些可在项目中重用的外部资源，例如我们用于ElasticSearch的喷嘴和螺栓或使用Apache Tika的ParserBolt解析各种文档格式。StormCrawler非常适合要获取和解析的URL作为流出现的情况，但它也是大规模递归爬网的合适解决方案，尤其是在要求低延迟的情况下。该项目已被多家公司用于生产，并得到了积极的开发和维护。

stormcrawler

网站:

http://stormcrawler.net

分类目录

具有免费许可证的Linux版StormCrawler的替代品