我有一个由制表符分隔的文件,文件的行如下:
foo bar bar <tab>x y z<tab>a foo foo
...想象一下1,000,000行,每行最多200字。每个单词平均有5-6个字符.
在第二和第三栏,我可以这样做:
with open('test.txt','r') as infile:
column23 = [i.split('\t')[1:3] for i in infile]或者我可以使用unix,How can i get 2nd and third column in tab delim file in bash?
import os
column23 = [i.split('\t') os.popen('cut -f 2-3 test.txt').readlines()]哪个更快?还有其他方法提取第二和第三列吗?
发布于 2014-04-22 14:45:46
两样都不用。除非证明它太慢,否则使用csv模块,它的可读性要高得多。
import csv
with open('test.txt','r') as infile:
column23 = [ cols[1:3] for cols in csv.reader(infile, delimiter="\t") ]发布于 2014-04-22 14:25:43
如果每行可以有数百个以制表符分隔的条目,并且只需要第二个和第三个条目,那么就不需要将它们全部split;有一个可以使用的maxsplit参数,可以加快速度:
with open('test.txt','r') as infile:
column23 = [i.split('\t', 3)[1:3] for i in infile]谁知道呢,也许聪明的裁判会更快些:
import re
regex = re.compile("^[^\t\n]*\t([^\t\n]*)\t([^\t\n]*)", re.MULTILINE)
with open('test.txt','r') as infile:
columns23 = regex.findall(infile.read())https://stackoverflow.com/questions/23222267
复制相似问题