首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek-V4出来了,今天你用了吗?(架构重大升级,一个字,干就完了)

DeepSeek-V4出来了,今天你用了吗?(架构重大升级,一个字,干就完了)

作者头像
架构师之路
发布2026-06-15 15:12:48
发布2026-06-15 15:12:48
240
举报
文章被收录于专栏:架构师之路架构师之路

就在今天, DeepSeek-V4腾空出世,宣告着AI正式迈入百万上下文普惠时代:DeepSeek-V4拥有100W超长上下文,在Agent能力世界知识推理性能上均有重大突破。

deepseek延续他一贯以来低调内敛的风格,没有说自己遥遥领先,而是说其性能“比肩”世界顶级闭源模型

可以看到:

1. Agent编码评测中:V4体验已经优于Sonnet4.5,交付质量接近Opus4.6非思考模式,但仍与Opus4.6 思考模式存在一定差距;

2. 世界知识测评中:V4大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1;

3. 在数学、STEM、竞赛型代码的测评中,DeepSeek-V4超越当前所有已公开评测的开源模型。

DeepSeek-V4为什么能够做到?

DeepSeek从来都不靠营销,而是他他实实的做架构优化。

混合注意力机制(CSA/HCA)核心架构图

在系统架构上,DeepSeek-V4开创了一种全新的混合注意力机制(Hybrid Attention),在token维度进行压缩,实现了超长上下文能力,并且相比于传统方法大幅降低了硬件的需求。

画外音:没办法,人家根本就不卖卡给咱们。

混合注意力机制,主要由两部分构成:

CSA(Compressed Sparse Attention)稀疏压缩注意力

HCA(Heavily Compressed Attention) 超级压缩注意力

DeepSeek采用它们交错配置的混合架构,大幅降低了长文本场景中的注意力计算成本。

CSA(稀疏压缩注意力)架构图

CSA集成了压缩和稀疏注意力策略:首先将m个token的KV缓存压缩为k个条目,每个查询token只关注k个压缩后的KV条目即可。

HCA(超级压缩注意力)架构图

HCA则旨在实现极端压缩,将m个token的KV缓存合并为一个条目。CSA和HCA的混合架构显著提高了DeepSeek-V4系列的长上下文效率,使百万token上下文在实践中成为可能。

初步看下来,DeepSeek-V4在:

1. 整体架构;

2. 基础设施(通信计算优化,内核开发,批量计算,量化感知训练,推理框架);

3. 预训练;

4. 后训练;

等多个模块进行了系统性优化。

由于资料今天才发布,其中的架构细节还没有深究,在未来的3个月内,我将对这些架构细节进行深究,感兴趣的同学敬请期待。

等不及的同学,可以先自行查阅英文原版:

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

当然,对于只想体验DeepSeek-V4的同学,即日起登录其官网进行对话,使用的就是100W超长上下文的模型啦。

DeepSeek-V4发布推文里最后四句话:不诱于誉,不恐于诽,率道而行,端然正己。和一直搞技术,做架构的我们一样,他他实实搞技术,做架构的人和公司,结果总不会太差。

未来3个月,一起冲,干!共勉!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 架构师之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档