我正在做简历(简历)的分类工作,我已经使用了LDA。通过设置(N=3),我在3个不同的CV (营销,计算机,沟通)概念上的结果是好的。现在的问题是,我如何为具有金融概念(或其他概念)的新简历创建新主题(当然是通过将其添加到现有主题中)?
事实上,我的目标是每次都生成新的主题,以获得新的概念。
我每天都会用不同的概念得到不同的简历,我对选择哪种算法(HDP,On_Line LDA)进行自动分类有疑问。
发布于 2014-01-27 19:59:10
LDA或其他主题模型不是分类方法。它们应该被视为监督学习上下文中的降维/预处理/同义词发现方法:不是将文档表示为分类器的一袋单词,而是将其表示为主题上的后验。不要假设因为你的分类任务中有3个类,你就为LDA选择了3个主题。主题模型参数应该被设置为对文档进行最佳建模(通过困惑或主题模型的其他质量度量来衡量,请查看David Mimno最近的工作以了解其他可能性),然后将主题概率/后验参数的向量(或任何您认为有用的)提供给有监督的学习方法。
你会看到这正是Blei等人在LDA原始论文中遵循的实验设置。
https://stackoverflow.com/questions/21376309
复制相似问题