ArchiveBox

ArchiveBox

🗃开源自托管Web存档。记录浏览器的历史记录/书签/口袋式/ Pinboard /等,保存HTML,JS,PDF,媒体等。
  • 免费应用
由于现代网站非常复杂,并且通常依赖于动态内容,因此ArchiveBox以几种不同的格式对网站进行存档,而Archive.org和Archive.com等公共存档服务无法保存这些格式。ArchiveBox会从标准输入,远程URL或文件中导入URL列表,然后使用wget将页面添加到本地归档文件夹中,以创建可浏览的html克隆,使用youtube-dl提取媒体,并使用完整的Chrome浏览器(无PDF)实例,屏幕截图和DOM转储,等等。使用多种方法和以市场为主导的浏览器执行JS,可以确保我们甚至可以使用至少几种高质量的长期数据格式来保存最复杂,挑剔的网站。###可以导入以下链接:-Pocket,Pinboard,Instapaper-RSS,XML,JSON或纯文本列表-浏览器历史记录或书签(Chrome,Firefox,Safari,IE,Opera等)-Shaarli,Delicious,Reddit已保存的帖子,Wallabag,Unmark.it以及其中包含链接的任何其他文本!###可以为每个网站保存以下内容:-网站的favicon.ico图标-网站的example.com/page-name.html wget克隆,如果不存在,则附加.html-输出。pdf`使用无头镀铬的网站的印刷PDF-`screenshot.png` 1440x900使用无头镀铬的网站的屏幕快照-`output.html`使用无头镀铬渲染后的DOM HTML HTML转储-`archive.org.txt`的链接保存在archive.org上的网站-`warc /`,用于html + gzip压缩warc文件.gz-使用youtube-dl找到的“媒体/”任何mp4,mp3,字幕和元数据-github,bitbucket或gitlab链接的任何存储库的“ git /”克隆-“ index.html”和“ index.json”包含元数据和详细信息的HTML和JSON索引文件归档是附加的,因此您可以安排`。/ archive`使其定期运行并将新链接拉入索引。所有保存的内容都是静态的,并使用JSON文件建立索引,因此它可以永久保存并且易于解析,并且不需要始终运行的后端。

分类目录

具有开源许可证的GTK+版ArchiveBox的替代方案