首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用哪个网络爬虫将网站中的新闻文章保存为.txt文件?

使用哪个网络爬虫将网站中的新闻文章保存为.txt文件?
EN

Stack Overflow用户
提问于 2010-02-19 23:46:10
回答 2查看 1.7K关注 0票数 1

我现在非常需要新闻文章来测试LSI实现(它是一门外语,所以没有常用的文件包)。

所以我需要一个爬虫,它给定一个起始url,假设http://news.bbc.co.uk/遵循所有包含的链接,并将它们的内容保存到.txt文件中,如果我们可以指定格式为UTF8,我会在天堂。

我没有这方面的专业知识,所以我恳求你一些建议,其中爬虫用于这项任务。

EN

回答 2

Stack Overflow用户

发布于 2010-02-19 23:48:18

你要找的是一个“刮板”,你必须要写一个。此外,你可能违反了BBC's Terms of Use,就像任何人关心的那样。

票数 1
EN

Stack Overflow用户

发布于 2010-02-19 23:57:32

你可以用wget抓取这个网站。然后通过一些HTML渲染器(使用--dump-html选项,Lynx文本浏览器就可以完成这项工作)来运行它,以将HTML转换为TXT。您需要自己编写脚本来对每个下载的文件调用Lynx,但这应该很简单。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2297527

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档