文章/答案/技术大牛

发布

社区首页 >问答首页 >在句子标记化之前删除python中的多个\n

问在句子标记化之前删除python中的多个\n
EN

Stack Overflow用户

提问于 2014-10-31 03:00:58

回答 2查看 952关注 0票数 1

我是一个全新的编程新手，我正在从一本书和Stack Overflow中自学。我正在尝试删除聊天语料库中\n的多个实例，然后对句子进行标记化。如果不删除\n，字符串将如下所示：

['answers for 10-19-20sUser139 ... hi 10-19-20sUser101 ;)\n\n\n\n\n\n\n\n\n\nI like it when you do it, 10-19-20sUser83\n\n\n\n\n\n\n\n\n\n\n\niamahotnipwithpics\n\n\n\n10-19-20sUser20 go plan the wedding!']

我尝试了几种不同的方法，如chomps、line、rstrip等，但似乎都不起作用。可能是我用错了。整个代码如下所示：

import nltk, re, pprint
from nltk.corpus import nps_chat
chat= nltk.Text(nps_chat.words())
from nltk.corpus import NPSChatCorpusReader
from bs4 import BeautifulSoup
chat=nltk.corpus.nps_chat.raw()
soup= BeautifulSoup(chat)
soup.get_text()
text =soup.get_text()
print(text[:40])
print(len(text))
from nltk.tokenize import sent_tokenize
sent_chat = sent_tokenize(text)
len(sent_chat)
text[:] = [line.rstrip('\n') for line in text]
print(len(sent_chat))
print(sent_chat[:40])

当我使用line方法时，我得到这个错误：

Traceback (most recent call last):
File "C:\Python34\Lib\idlelib\testsubjects\sentencelen.py", line 57, in <module>
text[:] = [line.rstrip('\n') for line in text]
TypeError: 'str' object does not support item assignment

帮助?

nlp

nltk

data-cleaning

python

web-scraping

回答 2

Stack Overflow用户

发布于 2014-10-31 17:01:09

>>> x = 'answers for 10-19-20sUser139 ... hi 10-19-20sUser101 ;)\n\n\n\n\n\n\n\n\n\nI like it when you do it, 10-19-20sUser83\n\n\n\n\n\n\n\n\n\n\n\niamahotnipwithpics\n\n\n\n10-19-20sUser20 go plan the wedding!'
>>> y = "".join([i if i !="\n" else "\t" for i in x])
>>> z = [i for i in y.split('\t') if i]
>>> z
['answers for 10-19-20sUser139 ... hi 10-19-20sUser101 ;)', 'I like it when you do it, 10-19-20sUser83', 'iamahotnipwithpics', '10-19-20sUser20 go plan the wedding!']

票数 2

Stack Overflow用户

发布于 2014-11-11 00:20:33

实际上，我偶然发现，如果你首先将文本标记化为单词，然后是句子，\n就消失了！谢谢你的帮忙!

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26661256

复制

相似问题

问在句子标记化之前删除python中的多个\n
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在句子标记化之前删除python中的多个\nEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在句子标记化之前删除python中的多个\n
EN