问如何从NLTK语料库中提取大文档
EN

Stack Overflow用户

提问于 2021-11-18 00:07:53

回答 1查看 71关注 0票数 0

我已经从NLTK库下载了路透社语料库，并希望在一个新变量中存储10个随机文档，其中包含50多个元素。

我已经下载了该语料库并编写了以下代码，但它不间断地连续运行：

import nltk
nltk.download('reuters')
nltk.download('punkt')
from nltk.corpus import reuters

sample_data = []

for i in range(len(reuters.sents())):
  sent = random.choice(reuters.sents())
  if len(sent) <= 50:     # Skips the sentence if it contains less than 50 elements
    pass
  else:
    sample_data.append(sent)
  while len(sample_data) == 10:
    break

是否有一种更有效的方式来编写这个程序来完成我的命令？

nltk

corpus

python

回答 1

Stack Overflow用户

发布于 2022-02-15 04:20:53

尝试使用if而不是while：

if len(sample_data) == 10:
    break

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70013064

复制

相似问题

问如何从NLTK语料库中提取大文档
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从NLTK语料库中提取大文档EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从NLTK语料库中提取大文档
EN