首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Cloud9和hadoop提取维基百科文章文本

使用Cloud9和hadoop提取维基百科文章文本
EN

Stack Overflow用户
提问于 2016-03-03 07:59:53
回答 1查看 279关注 0票数 0

首先:我使用的是新的Mac Book,运行的是El Capitan 10.11.3,我刚刚下载了最新的Hadoop (2.6.0)。

我正在尝试使用Cloud9从维基百科转储中的一堆页面中提取主要文章文本。基本上,他们告诉您如何做到这一点,这是他们在文档页面上的第二个“快速而肮脏”的示例:http://lintool.github.io/Cloud9/docs/content/wikipedia.html

我下载了所有内容,并在我的终端中输入了相同的命令:

代码语言:javascript
复制
hadoop jar target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /wiki-sample.xml -wiki_language en -output wiki-sample-output.txt

旁注:我创建了一个示例.xml,其中包含大量维基转储的前1500行,然后是维基转储末尾的最后几页。我只是想在真正运行它之前让它正常工作。

无论如何,我运行该命令,它似乎正在做一些事情,然后在命令行上打印出一堆准文档:

代码语言:javascript
复制
usage: edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText
 -input <path>                              XML dump file
 -output <path>                             output path
 -wiki_language <en|sv|de|cs|es|zh|ar|tr>   two-letter language code
Generic options supported are
-conf <configuration file>     specify an application configuration file
-D <property=value>            use value for given property
-fs <local|namenode:port>      specify a namenode
-jt <local|resourcemanager:port>    specify a ResourceManager
-files <comma separated list of files>    specify comma separated files to be copied to the map reduce cluster
-libjars <comma separated list of jars>    specify comma separated jar files to include in the classpath.
-archives <comma separated list of archives>    specify comma separated    archives to be unarchived on the compute machines.

The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]

所有这些似乎都不是特别有帮助,最重要的是,它不会创建包含文章文本的输出文件。我还尝试创建一个具有正确名称的(空白)输出文件,看看它是否可以填充它,但也不起作用。

任何关于我可能做错了什么的想法都将不胜感激。我刚开始使用hadoop,所以我希望它是我遗漏的一些简单的东西。Cloud9页面指出,“截至2015年12月,这个库不再积极开发或维护”,所以我真心希望这里有人能帮助我。非常感谢。赛斯

简要补充:我还尝试返回到根目录,并在开始时使用完整路径和bin/hadoop运行所有内容,但这也是一样的。下面是我从根目录发出的(不成功的)命令:

代码语言:javascript
复制
bin/hadoop jar /Users/Seth/Documents/Cloud9/target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /Users/Seth/Documents/Cloud9/wiki-sample.xml -wiki_language en -output /Users/Seth/Documents/Cloud9/wiki-sample-output.txt
EN

回答 1

Stack Overflow用户

发布于 2016-03-03 20:03:21

不是你特定问题的答案。

但是,如果您想要从维基百科转储中获得一个简单、可用的语料库,我建议您使用:https://github.com/idio/json-wikipedia

并行模式使用了你机器上的所有资源,在一台大约有16G内存和8个内核的macbook pro上,用不了30/45分钟就能读完英文维基百科

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35760657

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档