我有一个巨大的(GB的) twitter数据提要,JSON格式的analysed.Each tweet被表示为一个json对象。
答:从这些提要中提取对话。b:查找统计数据
记录https://gist.github.com/hrp/900964的示例格式
1.请建议提取所需信息的一般方法。2.要使用的最佳语言( java或任何其他语言)3.过程概述(如果它是用java完成的)(如文件处理等)4.与此问题相关的任何有用的参考链接。
注意:数据由数百万个JSON对象组成。
发布于 2014-09-09 17:22:05
在我看来,运行数据分析的最佳语言是R。在您的例子中,您已经有了twitter数据,但是如果您想要查询twitter数据,您可以使用R包,这些包可以随时使用并且非常方便:
-twitteR:您可以连接到Twitter API并进行查询http://cran.r-project.org/web/packages/twitteR/index.html
-streamR:它连接到Twitter Streaming API,以获得实时http://cran.r-project.org/web/packages/streamR/index.html的推文
然后用谷歌搜索如何用R挖掘Twitter数据,有很多文章,有关于如何做到这一点的好方法,创建良好的可视化,等等,将给你非常好的洞察力。它们中的大多数都基于一个名为"tm“的包,这是R:http://cran.r-project.org/web/packages/tm/index.html最流行的文本挖掘包
这里有几个有趣的链接可以开始:
http://www.r-bloggers.com/analyze-twitter-data-using-r/
http://www.rdatamining.com/examples/text-mining
希望它能帮上忙!
发布于 2014-08-14 01:23:39
看一看Big Insights。有大量的文档和示例可供您快速入门。它是一个分析平台,专门用于处理海量数据
http://www-01.ibm.com/software/data/infosphere/biginsights/
https://stackoverflow.com/questions/25291972
复制相似问题