文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从文本文件中删除第二和第三列？python

问如何从文本文件中删除第二和第三列？python
EN

Stack Overflow用户

提问于 2014-04-22 14:21:04

回答 2查看 2K关注 0票数 0

我有一个由制表符分隔的文件，文件的行如下：

foo bar bar <tab>x y z<tab>a foo foo
...

想象一下1,000,000行，每行最多200字。每个单词平均有5-6个字符.

在第二和第三栏，我可以这样做：

with open('test.txt','r') as infile:
  column23 = [i.split('\t')[1:3] for i in infile]

或者我可以使用unix，How can i get 2nd and third column in tab delim file in bash?

import os
column23 = [i.split('\t') os.popen('cut -f 2-3 test.txt').readlines()]

哪个更快？还有其他方法提取第二和第三列吗？

python

bash

cut

csv

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-04-22 14:45:46

两样都不用。除非证明它太慢，否则使用csv模块，它的可读性要高得多。

import csv
with open('test.txt','r') as infile:
    column23 = [ cols[1:3] for cols in csv.reader(infile, delimiter="\t") ]

票数 3

Stack Overflow用户

发布于 2014-04-22 14:25:43

如果每行可以有数百个以制表符分隔的条目，并且只需要第二个和第三个条目，那么就不需要将它们全部split；有一个可以使用的maxsplit参数，可以加快速度：

with open('test.txt','r') as infile:
    column23 = [i.split('\t', 3)[1:3] for i in infile]

谁知道呢，也许聪明的裁判会更快些：

import re
regex = re.compile("^[^\t\n]*\t([^\t\n]*)\t([^\t\n]*)", re.MULTILINE)
with open('test.txt','r') as infile:
    columns23 = regex.findall(infile.read())

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23222267

复制

相似问题

问如何从文本文件中删除第二和第三列？python
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从文本文件中删除第二和第三列？pythonEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从文本文件中删除第二和第三列？python
EN