我现在非常需要新闻文章来测试LSI实现(它是一门外语,所以没有常用的文件包)。
所以我需要一个爬虫,它给定一个起始url,假设http://news.bbc.co.uk/遵循所有包含的链接,并将它们的内容保存到.txt文件中,如果我们可以指定格式为UTF8,我会在天堂。
我没有这方面的专业知识,所以我恳求你一些建议,其中爬虫用于这项任务。
发布于 2010-02-19 23:48:18
你要找的是一个“刮板”,你必须要写一个。此外,你可能违反了BBC's Terms of Use,就像任何人关心的那样。
发布于 2010-02-19 23:57:32
你可以用wget抓取这个网站。然后通过一些HTML渲染器(使用--dump-html选项,Lynx文本浏览器就可以完成这项工作)来运行它,以将HTML转换为TXT。您需要自己编写脚本来对每个下载的文件调用Lynx,但这应该很简单。
https://stackoverflow.com/questions/2297527
复制相似问题