基于Transformer和自监督学习的食谱检索技术

原创

用户11764306

发布于 2026-06-05 15:13:10

利用食物图像寻找烹饪食谱

一种基于Transformer并使用自监督学习训练的新方法，实现了最先进的性能。

作者：Amaia Salvador

2021年6月23日

3分钟阅读

在寻找烹饪创意时，人们常常从社交媒体和餐厅中获得灵感，保存喜欢的食物截图或照片。某机构已经构建了一项技术，让人们能够利用这些图像来查找对应的烹饪食谱。在2021年计算机视觉与模式识别会议(CVPR)上，团队展示了一种用于执行跨模态图像到食谱检索的新方法，该方法通过使用基于Transformer的架构和自监督学习，实现了最先进的性能。

自监督学习是一种范式，通过对未标注数据进行自动处理，为机器学习模型提供补充训练示例。在本研究中，除了使用标注了对应食谱的图像进行监督训练外，还仅使用食谱数据进行自监督学习。

该方法使用了两个独立的编码器函数，一个用于食谱文本，一个用于图像（如下图所示，分别位于左和右）。这些函数提取的表征将在推理时用于索引和搜索。为编码食谱组件，使用了基于Transformer的架构：对于多句输入（如配料和操作步骤）采用分层架构，对于单句输入（食谱标题）采用非分层架构。对于图像输入，使用了成熟的图像编码器ResNet和Vision Transformers。

研究人员使用两种不同的损失函数训练食谱检索模型：自监督损失函数L_rec和监督损失函数L_pair，后者测量共享空间中食谱文本表征与食物图像表征之间的距离。

模型使用两个损失函数L_pair和L_rec进行训练。监督损失L_pair计算自食谱提取的表征与图像表征之间。该损失确保文本和图像表征在共同的高维空间中，如果它们属于同一训练样本（例如，巧克力曲奇饼的图像及其对应的食谱文本）则彼此接近，否则（例如，同一巧克力曲奇饼图像与千层面食谱的文本）则彼此远离。

训练过程中，匹配的图像和食谱作为正样本，不匹配的图像和食谱作为负样本。

新颖的自监督损失L_rec计算自单个食谱组件的表征之间。该损失确保食谱组件（如标题和配料）的表征在表征空间中，如果属于同一食谱则彼此接近，否则彼此远离（见下图）。直观上，奶酪通心粉食谱的标题与其配料名称共享语义线索，能够使模型学习到更好的食谱表征。由于该损失不需要图像作为输入，因此可以在没有图像的训练样本上进行计算，这在网络食谱数据中非常常见；实际上，训练集中66%是纯文本的食谱样本。实验表明，新的自监督损失项（即使仅应用于图像-食谱训练对）和额外的训练数据都有助于提高检索性能。

研究人员提出的自监督损失函数将同一食谱各组件的表征推近，将不同食谱组件的表征拉远。

实验中，在两个方向上执行了跨模态检索：查找匹配图像的食谱和匹配食谱的图像。该方法在Recipe1M数据库（该领域的常用基准）上展现了最先进的性能。在图像到食谱的检索任务中，当在1000个元素的食谱数据库上进行搜索时，该方法达到了92.9%的Recall@10。这意味着，给定1000个食谱和1000个食物图像查询，该方法能够对92.9%的图像查询在前10个检索结果中找到正确的食谱。

下图展示了部分定性结果，表明该方法能够对图像和食谱表征中的语义进行编码，并能在细粒度的配料级别上找到匹配查询的食谱（例如第一行中的"面包"、"大蒜"和"面包条"，或第六行中的"三文鱼"和"芦笋"）。

结果显示为图像到食谱（奇数行）和食谱到图像（偶数行）的检索模式。查询的图像/食谱以蓝色高亮显示，后跟前五个检索项。正确的项以绿色高亮显示。食谱以词云形式展示（词的大小与食谱中该词的频率成正比）。

查阅论文了解详细信息。代码和模型权重也已公开可用。

研究领域

计算机视觉 | 搜索与信息检索