我有x GB (x从25-40 GB不等)的日常数据,它驻留在cassandra中,我想将其导出到一个文件中。所以,我遇到了这个SO link。使用它可以导出查询的数据,格式如下:
select column1, column2 from table where condition = xy因此,我在cron作业中调度了相同的方法。但是由于大量的数据处理在写入文本文件的过程中被杀死。那么,在给定查询格式的情况下,导出海量数据的其他选择是什么呢?
发布于 2016-03-08 03:40:18
是否考虑过使用Spark来检索和处理您的数据?如果您正在使用Datastax,您可以将其作为您的安装(DSE Analytics)的一部分。使用Spark,您应该能够从C*实例读取数据并将其写入文本文件,而不受直接CQL语句的限制。
发布于 2016-03-18 16:55:44
看看下面的python脚本,你可以使用scralling从cassandra获取巨大的数据,而不会超时。query = "SELECT * FROM table_name",statement = SimpleStatement(query,fetch_size=100),results=session.execute(statement),for user_row in session.execute(statement):,for rw in user_row:,这对我来说是非常有效的。我没有提到cassandra连接,我想我们可以easley得到cassandra连接的python代码。
https://stackoverflow.com/questions/35850538
复制相似问题