首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Regex Tokenizer进行标记

使用Regex Tokenizer进行标记
EN

Stack Overflow用户
提问于 2017-12-19 14:46:57
回答 2查看 253关注 0票数 1

我想用正则表达式标记器对下面的句子进行标记化

代码语言:javascript
复制
MOST INTERESTED IN NUT BUTTERS

当我将记号赋予器定义为

代码语言:javascript
复制
tokenizer = RegexpTokenizer(r'\w+')          

我得到的输出是

代码语言:javascript
复制
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']

我想要的输出是

代码语言:javascript
复制
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

我希望NUT what是一个元素,我不知道该用什么正则表达式来代替,或者使用\w+

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-12-19 14:56:09

如果您想使用正则表达式解决方案,则必须列出包含必须作为一个空格提取的空格的单词列表,并像这样构建您的正则表达式:

代码语言:javascript
复制
word space1|word space2|word space3|...|word spaceN|\w+

对于您的示例,它变成:

代码语言:javascript
复制
NUT BUTTERS|\w+
票数 0
EN

Stack Overflow用户

发布于 2017-12-19 14:53:40

请尝试使用split()

代码语言:javascript
复制
>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47881392

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档