在从一个巨大的csv文件中读取数据后,我正在尝试使用panda.ExcelWriter编写一个数据格式以进行excel操作。
此代码更新excel工作表,但它没有将数据附加到我想要的excel中
import pandas as pd
reader = pd.read_csv("H:/ram/temp/1.csv", delimiter = '\t' ,chunksize = 10000, names = ['neo_user_id',
'gender',
'age_range',
'main_geolocation', # (user identifier of the client)
'interest_category_1',
'interest_category_2',
'interest_category_3',
'first_day_identifier'
], encoding="utf-8")
ew = pd.ExcelWriter('H:/ram/Formatted/SynthExport.xlsx', engine='xlsxwriter', options={'encoding':'utf-8'})
for chunks in reader:
chunks.to_excel(ew, 'Sheet1' , encoding = 'utf-8')
print len(chunks)
ew.save()我还尝试使用data.append()和data.to_excel,这样做的结果是内存错误。由于我是在大块地读取数据,有什么方法可以将这些数据写入excel
我让它按照这个代码工作
import pandas as pd
import xlsxwriter
reader = pd.read_csv("H:/ram/user_action_export.2014.01.csv", delimiter = '\t', chunksize = 1000, names = ['day_identifier',
'user_id',
'site_id',
'device', # (user identifier of the client)
'geolocation',
'referrer',
'pageviews',
], encoding="utf-8")
startrows = 0
ew = pd.ExcelWriter('H:/ram/Formatted/ActionExport.xlsx', engine='xlsxwriter', options={'encoding':'utf-8'})
for chunks in reader:
chunks.to_excel(ew, 'Sheet1' , encoding = 'utf-8', startrow = startrows)
startrows = startrows + len(chunks)
print startrows
ew.save()但还是要花那么多时间
发布于 2014-09-20 21:45:05
我不知道这是否导致了主要问题,但是您不应该在块之间调用save(),因为对save()的单个调用关闭了一个xlsxwriter文件。
https://stackoverflow.com/questions/25952429
复制相似问题