利用大语言模型辨别常识关系,可将下游任务性能提升高达60%。
作者:Changlong Yu, Zheng Li,2024年5月10日,阅读时间5分钟
SIGMOD/PODS 2024
COSMO:某机构的大规模电子商务常识知识生成与服务系统
在某电商平台,致力于提供与客户查询最相关的产品推荐。这通常需要常识推理。例如,客户提交“孕妇鞋”查询时,推荐引擎应能推断孕妇可能需要防滑鞋。
从客户行为中挖掘隐式常识知识。
为帮助该平台的推荐引擎进行此类常识推理,正在构建一个知识图谱,该图谱编码了平台中产品与其所起作用的人类上下文(如功能、受众、使用地点等)之间的关系。例如,该知识图谱可能使用 used_for_audience 关系来关联防滑鞋和孕妇。
在2024年6月于计算机协会年度数据管理会议(SIGMOD)上展示的论文中,描述了一个名为COSMO的框架,该框架使用大语言模型(LLM)从电商平台的客户交互数据中辨别隐式的常识关系。
COSMO涉及一个递归过程:LLM根据查询-购买和共同购买数据生成关于常识含义的假设;结合人工标注和机器学习模型过滤掉低质量假设;人工评审者从高质量假设中提取指导原则;基于这些原则的指令用于提示LLM。
COSMO框架。
为了评估COSMO,使用了为KDD Cup 2022(2022年知识发现与数据挖掘会议上的竞赛)创建的Shopping Queries数据集。该数据集包含查询和产品列表,产品根据其与每个查询的相关性进行了评级。
在实验中,三个模型——双编码器(双塔模型)、交叉编码器(统一模型)以及一个用COSMO知识图谱关系信息增强的交叉编码器——被要求找出与每个查询最相关的产品。使用两种不同的F1分数衡量性能:宏观F1是不同类别F1分数的平均值,微观F1是忽略类别的总体F1分数。
当模型的编码器固定时(即两个交叉编码器的唯一区别在于一个将COSMO关系作为输入而另一个没有),基于COSMO的模型显著优于最佳基线,宏观F1分数提升了60%。当编码器在测试数据集子集上进行微调时,所有三个模型的性能都显著提升,但基于COSMO的模型在宏观F1上仍比最佳基线高出28%,在微观F1上高出22%。
COSMO的知识图谱构建过程从两类数据开始:查询-购买对(将查询与固定时间或点击次数内的购买相结合)和共同购买对(将同一购物会话中的购买相结合)。对数据集进行初步剪除以减少噪音——例如,移除购买产品类别在平台产品图谱中相距过远的共同购买对。
然后将数据对输入LLM,要求其使用四种关系之一描述输入之间的关系:usedFor, capableOf, isA, cause。从结果中筛选出一组更细粒度的频繁出现的关系,并使用规范形式进行编码,如 used_for_function, used_for_event, used_for_audience。然后重复该过程,要求LLM使用新的、更大的关系集来构建描述。
LLM在执行此类任务时倾向于生成空洞的理由,例如“客户把它们放在一起购买是因为他们喜欢它们”。因此,在LLM生成一组候选关系后,应用各种启发式方法进行筛选。例如,如果LLM对问题的回答在语义上与问题本身过于相似,则过滤掉该问答对,假设LLM只是在转述问题。
从通过过滤过程的候选项中,选择一个有代表性的子集,发送给人工标注员根据两个标准进行评估:合理性(推断的关系是否合理)和典型性(目标产品是否通常与查询或源产品相关联)。
使用标注数据训练一个基于机器学习的分类器,为其余候选者分配合理性和典型性分数,只保留超过特定阈值的候选者。从这些候选项中提取语法和语义关系,这些关系可以编码为对LLM的指令,例如“使用 capableOf 关系为领域d中的搜索-购买行为生成解释”。然后使用适用的指令提示LLM,重新评估所有候选对。
结果是一组实体-关系-实体三元组,例如 <相机壳和屏幕保护膜的共同购买, capableOf, 保护相机>,从中构建知识图谱。
实验中使用的双编码器模型有两个独立的编码器,一个用于客户查询,一个用于产品。两个编码器的输出被连接起来并馈送到一个神经网络模块,该模块产生相关性分数。
在交叉编码器中,查询和产品描述的所有相关特征都传递给同一个编码器。通常,交叉编码器比双编码器工作得更好,因此使用这种架构来测试COSMO数据的有效性。
在第一阶段实验(编码器冻结)中,基线模型接收查询-产品对;第二个交叉编码器接收查询-产品对以及COSMO知识图谱中的相关三元组,例如 <相机壳和屏幕保护膜的共同购买, capableOf, 保护相机>。在这种情况下,基于COSMO的模型在两个F1指标上均显著优于交叉编码器基线,而交叉编码器基线又优于双编码器基线。
在第二阶段实验中,对基线模型在Shopping Queries数据集的子集上进行微调,并对第二个交叉编码器在同一子集和COSMO数据上进行微调。所有三个模型的性能都大幅提升,但基于COSMO的模型在两个F1指标上仍保持超过20%的优势。
搜索与信息检索
知识图谱, 大语言模型 (LLM), 推荐系统
SIGMOD/PODS 2024
COSMO:某机构的大规模电子商务常识知识生成与服务系统FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。