我有一个包含3列的文件,年份:'HRYEAR4',月份:'HRMONTH',以及当时的雇佣状态:'PEMPLR_1‘。雇佣状态是一个虚拟取值,如果被雇用,则为1,否则为0。
我想要计算在给定月份内,在一年中就业的个人的百分比。
我有jan的数据。2018 -4月2020在数据帧df_CPS中:
HRMONTH HRYEAR4 PEMLR_1
0 1 2018 1
1 1 2018 1
2 1 2018 1
3 1 2018 0
4 1 2018 0
... ... ... ...
1498116 4 2020 1
1498117 4 2020 1
1498118 4 2020 0
1498119 4 2020 1
1498120 4 2020 1我可以得到按年和月分组的就业人数,以及按年和月分组的数据集中的总人数:
# Individuals who have answered PEMLR = 1 (employed) in a given month, year
df_CPS.groupby(['HRYEAR4', 'HRMONTH']).agg({'PEMLR_1': 'sum'})
# Individuals in total in a given month, year
df_CPS.groupby(['HRYEAR4', 'HRMONTH']).size()但是,我如何计算按月和年分组的就业人员的百分比?并将其添加到原始数据集中?
我想以以下方式结束:
HRMONTH HRYEAR4 PEMLR_1 PEMLR_PCT
0 1 2018 1 90.1
1 1 2018 1 90.1
2 1 2018 1 90.1
3 1 2018 0 90.1
4 1 2018 0 90.1
... ... ... ... ...
1498116 4 2020 1 73.8
1498117 4 2020 1 73.8
1498118 4 2020 0 73.8
1498119 4 2020 1 73.8
1498120 4 2020 1 73.8发布于 2021-10-19 08:47:19
df_CPS.groupby(['HRYEAR4', 'HRMONTH']).agg({'PEMLR_1': 'mean'})应该能起到作用
https://stackoverflow.com/questions/69627266
复制相似问题