我正在做一个ML项目,其中的数据来自一个社交媒体,关于数据的话题应该是新冠肺炎下的抑郁。然而,当我阅读检索到的一些数据时,我注意到尽管文本(约1%-5 %)提到了一些与贪食相关的关键词,但这些文本的上下文实际上并不是关于大流行的,而是讲述了一个生活故事(从5岁到27岁),而不是口交如何影响他们的生活。
我想使用和正在寻找的数据是一些信息,告诉人们贪欲如何使抑郁更糟,什么不是。
是否有一种通用的方法来清理那些上下文与贪婪无关(或离群点)的无关数据?
或者可以将它们保存在dataset中,因为它们只占1-5%?
发布于 2021-02-26 23:24:54
您可以使用BERT创建向量,以捕获整个tweet的上下文。一旦,您这样做,尝试集群(K-均值或GMM)。然后,您可以查看找到的集群,并分离出这些不需要的数据。
https://datascience.stackexchange.com/questions/88779
复制相似问题