首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基于Transformer和自监督学习的食谱检索技术

基于Transformer和自监督学习的食谱检索技术

原创
作者头像
用户11764306
发布2026-06-05 15:13:10
发布2026-06-05 15:13:10
60
举报

利用食物图像寻找烹饪食谱

一种基于Transformer并使用自监督学习训练的新方法,实现了最先进的性能。

作者:Amaia Salvador

2021年6月23日

3分钟阅读

在寻找烹饪创意时,人们常常从社交媒体和餐厅中获得灵感,保存喜欢的食物截图或照片。某机构已经构建了一项技术,让人们能够利用这些图像来查找对应的烹饪食谱。在2021年计算机视觉与模式识别会议(CVPR)上,团队展示了一种用于执行跨模态图像到食谱检索的新方法,该方法通过使用基于Transformer的架构和自监督学习,实现了最先进的性能。

自监督学习是一种范式,通过对未标注数据进行自动处理,为机器学习模型提供补充训练示例。在本研究中,除了使用标注了对应食谱的图像进行监督训练外,还仅使用食谱数据进行自监督学习。

该方法使用了两个独立的编码器函数,一个用于食谱文本,一个用于图像(如下图所示,分别位于左和右)。这些函数提取的表征将在推理时用于索引和搜索。为编码食谱组件,使用了基于Transformer的架构:对于多句输入(如配料和操作步骤)采用分层架构,对于单句输入(食谱标题)采用非分层架构。对于图像输入,使用了成熟的图像编码器ResNet和Vision Transformers。

研究人员使用两种不同的损失函数训练食谱检索模型:自监督损失函数L_rec和监督损失函数L_pair,后者测量共享空间中食谱文本表征与食物图像表征之间的距离。

模型使用两个损失函数L_pair和L_rec进行训练。监督损失L_pair计算自食谱提取的表征与图像表征之间。该损失确保文本和图像表征在共同的高维空间中,如果它们属于同一训练样本(例如,巧克力曲奇饼的图像及其对应的食谱文本)则彼此接近,否则(例如,同一巧克力曲奇饼图像与千层面食谱的文本)则彼此远离。

训练过程中,匹配的图像和食谱作为正样本,不匹配的图像和食谱作为负样本。

新颖的自监督损失L_rec计算自单个食谱组件的表征之间。该损失确保食谱组件(如标题和配料)的表征在表征空间中,如果属于同一食谱则彼此接近,否则彼此远离(见下图)。直观上,奶酪通心粉食谱的标题与其配料名称共享语义线索,能够使模型学习到更好的食谱表征。由于该损失不需要图像作为输入,因此可以在没有图像的训练样本上进行计算,这在网络食谱数据中非常常见;实际上,训练集中66%是纯文本的食谱样本。实验表明,新的自监督损失项(即使仅应用于图像-食谱训练对)和额外的训练数据都有助于提高检索性能。

研究人员提出的自监督损失函数将同一食谱各组件的表征推近,将不同食谱组件的表征拉远。

实验中,在两个方向上执行了跨模态检索:查找匹配图像的食谱和匹配食谱的图像。该方法在Recipe1M数据库(该领域的常用基准)上展现了最先进的性能。在图像到食谱的检索任务中,当在1000个元素的食谱数据库上进行搜索时,该方法达到了92.9%的Recall@10。这意味着,给定1000个食谱和1000个食物图像查询,该方法能够对92.9%的图像查询在前10个检索结果中找到正确的食谱。

下图展示了部分定性结果,表明该方法能够对图像和食谱表征中的语义进行编码,并能在细粒度的配料级别上找到匹配查询的食谱(例如第一行中的"面包"、"大蒜"和"面包条",或第六行中的"三文鱼"和"芦笋")。

结果显示为图像到食谱(奇数行)和食谱到图像(偶数行)的检索模式。查询的图像/食谱以蓝色高亮显示,后跟前五个检索项。正确的项以绿色高亮显示。食谱以词云形式展示(词的大小与食谱中该词的频率成正比)。

查阅论文了解详细信息。代码和模型权重也已公开可用。

研究领域

计算机视觉 | 搜索与信息检索

标签

自监督学习 | CVPRFINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 利用食物图像寻找烹饪食谱
    • 研究领域
    • 标签
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档