分隔的字符串中具有多个值。
。
导入熊猫为pd df = pd.DataFrame({'institute':‘学免费学院’,‘免费代码学院’,'Avon IT学校‘,’语言‘:'Java,JavaScript:Python’;HTML\CSS','HTML/CSS\JavaScript',‘C:C#’}#打印(Df)#研究所语言#0学习免费学院Java,JavaScript:Python;HTML\CSS #1免费代码学院HTML/CSS\JavaScript #2雅芳IT学校C:C#
当我拆分“语言”列时,我得到以下结果:
print( df['languages'].str.get_dummies(r';|:|\\|\/|,') )
# C C# CSS HTML Java JavaScript Python |
# 0 0 0 0 0 0 0 0 0
# 1 0 0 0 0 0 0 0 0
# 2 0 0 0 0 0 0 0 0我如何得到跟踪结果?
# Java Javascript Python HTML CSS C C#
# 0 1 1 1 1 1 0 0
# 1 0 1 0 1 1 0 0
# 2 0 0 0 0 0 1 1 发布于 2020-12-18 07:44:36
使用Series.str.replace表示|,因为默认分隔符在Series.str.get_dummies中
print (df['languages'].str.replace(r';|:|\\|\/|,','|'))
0 Java|JavaScript|Python|HTML|CSS
1 HTML|CSS|JavaScript
2 C|C#
Name: languages, dtype: object
df1 = df['languages'].str.replace(r';|:|\\|\/|,','|').str.get_dummies()
print(df1)
C C# CSS HTML Java JavaScript Python
0 0 0 1 1 1 1 1
1 0 0 1 1 0 1 0
2 1 1 0 0 0 0 0https://stackoverflow.com/questions/65337444
复制相似问题