文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从大型数据集中删除不相关的文本数据

问如何从大型数据集中删除不相关的文本数据
EN

Data Science用户

提问于 2021-02-01 04:29:59

回答 1查看 226关注 0票数 0

我正在做一个ML项目，其中的数据来自一个社交媒体，关于数据的话题应该是新冠肺炎下的抑郁。然而，当我阅读检索到的一些数据时，我注意到尽管文本(约1%-5 %)提到了一些与贪食相关的关键词，但这些文本的上下文实际上并不是关于大流行的，而是讲述了一个生活故事(从5岁到27岁)，而不是口交如何影响他们的生活。

我想使用和正在寻找的数据是一些信息，告诉人们贪欲如何使抑郁更糟，什么不是。

是否有一种通用的方法来清理那些上下文与贪婪无关(或离群点)的无关数据？

或者可以将它们保存在dataset中，因为它们只占1-5%？

machine-learning

nlp

data-cleaning

text

回答 1

Data Science用户

发布于 2021-02-26 23:24:54

您可以使用BERT创建向量，以捕获整个tweet的上下文。一旦，您这样做，尝试集群(K-均值或GMM)。然后，您可以查看找到的集群，并分离出这些不需要的数据。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/88779

复制

相似问题

问如何从大型数据集中删除不相关的文本数据
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从大型数据集中删除不相关的文本数据EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从大型数据集中删除不相关的文本数据
EN