30
Gigablast是功能强大的开源新搜索引擎,可进行实时索引编制!功能可扩展到数千台服务器。已在200多个服务器上扩展到超过120亿个网页。运行8个Gigablast实例的具有32GB内存的双四核和两个160GB的Intel SSD,可以在1000万页的索引上实现约8 qps(每秒查询)的速度。驱动器将接近最大存储容量。索引大小加倍将使qps速率减半。(性能指标可以提高大约十倍,但我还没有解决。驱动器空间的使用可能会保持不变,因为它已经非常高效了。)一百万个网页需要28.6GB的驱动器空间。其中包括所有网页的索引,元信息和压缩的HTML。蜘蛛速率约为每个核心每秒1页。因此,双四核可以每秒抓取并索引8页,即每天691,200页。每个Gigablast实例需要4GB RAM。(实例=流程)使用C / C ++编写的实时演示,以获得最佳性能。超过500,000行C / C ++。100%定制。单个二进制文件。Web服务器,数据库和其他所有内容都以高效的方式包含在此源代码中。使管理和故障排除更加容易。可靠。自2002年以来,已经在超过120亿个唯一网页的索引上进行了数十亿次查询的实时生产测试,其中有240亿个镜像。超级快速,高效。少数搜索引擎中排名如此之高的之一。唯一拥有的开源搜索引擎。支持所有语言。可以在查询时使指定语言的结果优于其他语言。内部使用UTF-8表示形式。跟踪记录。已被许多客户使用。已成功用于分布式企业软件中。带有查询词突出显示的缓存网页。
分类目录
具有商业许可证的Web版Gigablast的替代方案
1