我的数据分析一再回到一个简单但不确定的主题上,即“除了”之外的所有东西。以这个多索引示例为例,df
accuracy velocity
name condition trial
john a 1 -1.403105 0.419850
2 -0.879487 0.141615
b 1 0.880945 1.951347
2 0.103741 0.015548
hans a 1 1.425816 2.556959
2 -0.117703 0.595807
b 1 -1.136137 0.001417
2 0.082444 -1.184703例如,我现在想做的是,在所有可用的试验中平均处理,同时保留关于姓名和条件的信息。这很容易实现:
average = df.groupby(level=('name', 'condition')).mean()然而,在现实世界中,多索引中存储的元数据要多得多。索引很容易跨越每行8-10列。因此,上面的模式变得相当笨重。最终,我要寻找一个“丢弃”操作;我希望执行一个抛出或减少单个索引列的操作。在上述案件中,这是审判号。
我是应该咬紧牙关呢,还是有一种更惯用的方式去做这件事?这可能是一种反模式!当谈到“真正的熊猫之路”时,我想建立一个正派的直觉.提前谢谢。
发布于 2014-09-01 13:13:09
您可以为此定义一个助手函数:
def allbut(*names):
names = set(names)
return [item for item in levels if item not in names]演示:
import pandas as pd
levels = ('name', 'condition', 'trial')
names = ('john', 'hans')
conditions = list('ab')
trials = range(1, 3)
idx = pd.MultiIndex.from_product(
[names, conditions, trials], names=levels)
df = pd.DataFrame(np.random.randn(len(idx), 2),
index=idx, columns=('accuracy', 'velocity'))
def allbut(*names):
names = set(names)
return [item for item in levels if item not in names]In [40]: df.groupby(level=allbut('condition')).mean()
Out[40]:
accuracy velocity
trial name
1 hans 0.086303 0.131395
john 0.454824 -0.259495
2 hans -0.234961 -0.626495
john 0.614730 -0.144183您也可以删除多个级别:
In [53]: df.groupby(level=allbut('name', 'trial')).mean()
Out[53]:
accuracy velocity
condition
a -0.597178 -0.370377
b -0.126996 -0.037003https://stackoverflow.com/questions/25606478
复制相似问题