我想用正则表达式标记器对下面的句子进行标记化
MOST INTERESTED IN NUT BUTTERS当我将记号赋予器定义为
tokenizer = RegexpTokenizer(r'\w+') 我得到的输出是
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']我想要的输出是
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']我希望NUT what是一个元素,我不知道该用什么正则表达式来代替,或者使用\w+
发布于 2017-12-19 14:56:09
如果您想使用正则表达式解决方案,则必须列出包含必须作为一个空格提取的空格的单词列表,并像这样构建您的正则表达式:
word space1|word space2|word space3|...|word spaceN|\w+对于您的示例,它变成:
NUT BUTTERS|\w+发布于 2017-12-19 14:53:40
请尝试使用split()。
>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']https://stackoverflow.com/questions/47881392
复制相似问题