我正在尝试查找5到10 GB范围内的纯英语文本文件(txt),以执行索引和搜索任务。有没有开放源码可以让我下载这样的数据集?
谢谢
Wajih
发布于 2012-03-19 13:47:44
几年前,我在为我的硕士做研究时,也需要同样的东西。我所做的就是把这个网站上的多本书结合起来:
http://www.gutenberg.org/
发布于 2012-03-19 13:47:07
我推荐使用BitTorrent下载一个DVD of Project Gutenberg。他们有几GB的公共领域文本,主要是ASCII格式的。
发布于 2012-03-19 13:44:27
在亚马逊S3 http://aws.amazon.com/datasets/2320?_encoding=UTF8&jiveRedirect=1上查看此freebase.com数据转储
https://stackoverflow.com/questions/9765499
复制相似问题