我们在HDFS中有超过5TB的压缩web服务器日志,我们经常使用Hadoop进行分析。
在5TB的数据上运行map减少是很痛苦的,最重要的是,很少有开发人员熟悉它。
我正在考虑是否应该将这些数据存储在列数据库中,比如格林梅或其他MySQL列存储,其目的是以高效的方式存储分析数据,但能够支持raipid查询,这是最近非常重要的。
你推荐的基地是什么?搬家前我该考虑些什么吗?(无论如何,我会自己做测试)
发布于 2013-01-14 22:48:57
我推荐Vertica。
您可以获得免费的社区版本,允许高达1TB的数据。如果您在加载web日志时将其规范化,它们很可能会压缩,并且可能适合1TB,因为Vertica本身有一个非常强大的数据压缩引擎。
如果没有,我仍然建议试用这个平台,但是许可证费并不是世界上最便宜的。
https://dba.stackexchange.com/questions/32893
复制相似问题