首页
学习
活动
专区
圈层
工具
发布
首页标签embedding

#embedding

大模型-代数基础知识(向量,矩阵,点积)

码农戏码

只有大小概念,没有方向的概念。通过一个具体的数值就能表达完整。比如:重量、温度、长度、提及、时间、热量等都数据标量

2200

如何判断“啥时候睡觉”和“几点休息”是同一个问题?一文搞懂向量搜索实战

全栈开发日记

你和你朋友的口味相似度有多高,通过肉眼就可以分辨,这只是二维向量,在计算机中判断两句话的相似度有很多维度,主流开源的模型大多数是1024维,商用的OpenAI的...

3410

VLM2Vec-V2:打破模态壁垒,迈向视频与文档理解的统一Embedding新纪元

唐国梁Tommy

今天,我们要深入探讨一篇引人注目的新研究——来自Salesforce Research、UC Santa Barbara等机构的《VLM2Vec-V2: Adv...

5100

深度解读 Qwen3 Embedding:从基础模型到SOTA文本Embedding与Reranker

唐国梁Tommy

对比了当前主流的开源文本嵌入模型(如GTE系列、E5系列、BGE系列、NV-Embed-v2、GritLM-7B)和商业API(如OpenAI的text-emb...

12810

RAG面试必问:Embedding模型到底怎么选?

王中阳AI编程

“为什么不用 BGE?中文场景下怎么评估?维度越高是不是越好?模型升级后历史向量怎么办?”

9200

Day9 学习日志:Embedding 与向量数据库

小小猪排画中游

📅 日期:2026-03-25 📌 定位:在「三国演义」语料上跑通 本地 Word2Vec 与 DashScope 文本向量 API 两条链路,理解 词级 vs...

10710

Day8 学习日志:CO-STAR 与「Embedding 课前知识储备」——Prompt、工具链与可观测性

小小猪排画中游

📅 日期:2026-03-24 📌 定位:向量与检索正式开课前,把 输出可控、工具调用闭环、本地知识 mock、长文 Map-Reduce 和 运行日志 打牢。

9210

大模型视频理解(Video Understanding)技术详解:从多模态 Embedding 到场景语义

gavin1024

摘要 视频理解正从标签识别跨越到场景语义。本文系统拆解多模态大模型如何对视频进行时序采样、跨模态对齐与场景推理,覆盖Embedding空间、注意力机制、时序建模...

64110

换了 Embedding 模型向量全废了?Go 实战大规模数据平滑重构

技术圈

在 AI 应用的生命周期中,向量数据库(Vector DB)的迁移往往比传统数据库更令人头疼。与关系型数据库只需导出 SQL 或同步 Binlog 不同,向量数...

13110

无 Embedding、无向量数据库的 RAG 方法:PageIndex 技术解析

deephub

PageIndex 是一种无向量、基于推理的检索增强生成(RAG)方法,无需 Embedding、分块或向量数据库即可从长文档中检索答案。

44510

ESM3蛋白质语言模型cookbook(2)

Tom2Code

使用ESM-C模型获取蛋白质的特征表达(embedding),进行一个简单蛋白质序列分类的任务。

22210

多 Aspect Embedding:将上下文信号编入向量相似性计算的检索架构

deephub

向量数据库的核心任务是对文本或其他非结构化数据生成的 Embedding 做相似性搜索。时间戳、文档类型、所有权一类的上下文约束,一般以外部过滤器的形式在向量搜...

12710

言必称Embedding,Transformer的Embedding与RAG的Embedding是什么关系?傻傻搞不清。。。干货满满,专治各种懵懵懂懂!!!

烟雨平生

先讲结论:Transformer的Embedding是模型的输入层,RAG的Embedding是一个完整的编码模型(如BERT),用于语义检索。

13710

Transformer灵魂1问:Embedding层的嵌入矩阵权重为什么要乘以sqrt(d_model)进行缩放?

烟雨平生

简单来说,这个缩放的核心目的是为了维持数值稳定性,保持梯度稳定、防止数值爆炸或消失,从而提升训练稳定性。

17810

为什么ChatGPT能听懂你说的话?Embedding 技术揭秘

用户9574405

ChatGPT、Claude这些AI助手能理解我们说的话,还能给出像样的回答。做到这点,靠的是Embedding技术。

24510

第04期·Embedding向量化

巫山老妖

计算机只认识数字,不认识汉字或英文。所以在 AI 处理文本之前,需要把文字转换成数字——这个过程就叫 Embedding(向量化)。

25410

openclaw v2026.3.24 版本发布:从OpenAI模型与Embedding到Teams与Slack交互 全链路体验与稳定性一次补齐

福大大架构师每日一题

openclaw于2026年3月25日正式发布v2026.3.24版本,本次更新聚焦OpenAI生态兼容、智能体工具能力、多平台交互体验、技能安装与管理、CLI...

60310

详解BERT模型的向量(Embedding)生成过程

索旭东

嵌入模型的终极目标,可以用一句话概括:让语义相似的输入,在向量空间中距离相近;让语义不同的输入,距离相远。

66410

向量嵌入(Embedding)概念及原理解析

索旭东

想象你有一堆朋友,你想向一个外国人介绍他们。你不能直接说“这是张三,他喜欢打篮球,性格开朗”,因为语言不通。你怎么办?你会给每个朋友 画一幅简笔画 ,画中包含了...

1.5K10

大模型中的嵌入向量

江南一点雨

前面文章和小伙伴们聊了 Tokenizer,经过 Tokenizer 之后,自然语言变为 Token,那么大模型就可以直接训练 Token 了嘛?还不行!

25410
领券