问使用哪个网络爬虫将网站中的新闻文章保存为.txt文件？
EN

Stack Overflow用户

提问于 2010-02-19 23:46:10

回答 2查看 1.7K关注 0票数 1

我现在非常需要新闻文章来测试LSI实现(它是一门外语，所以没有常用的文件包)。

所以我需要一个爬虫，它给定一个起始url，假设http://news.bbc.co.uk/遵循所有包含的链接，并将它们的内容保存到.txt文件中，如果我们可以指定格式为UTF8，我会在天堂。

我没有这方面的专业知识，所以我恳求你一些建议，其中爬虫用于这项任务。

发布于 2010-02-19 23:48:18

你要找的是一个“刮板”，你必须要写一个。此外，你可能违反了BBC's Terms of Use，就像任何人关心的那样。

票数 1

发布于 2010-02-19 23:57:32

你可以用wget抓取这个网站。然后通过一些HTML渲染器(使用--dump-html选项，Lynx文本浏览器就可以完成这项工作)来运行它，以将HTML转换为TXT。您需要自己编写脚本来对每个下载的文件调用Lynx，但这应该很简单。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2297527

复制

相似问题

问使用哪个网络爬虫将网站中的新闻文章保存为.txt文件？EN