DeepSeek-V4出来了，今天你用了吗？（架构重大升级，一个字，干就完了）

架构师之路

发布于 2026-06-15 15:12:48

240

文章被收录于专栏：架构师之路架构师之路

就在今天， DeepSeek-V4腾空出世，宣告着AI正式迈入百万上下文普惠时代：DeepSeek-V4拥有100W超长上下文，在Agent能力、世界知识和推理性能上均有重大突破。

deepseek延续他一贯以来低调内敛的风格，没有说自己遥遥领先，而是说其性能“比肩”世界顶级闭源模型。

可以看到：

1. Agent编码评测中：V4体验已经优于Sonnet4.5，交付质量接近Opus4.6非思考模式，但仍与Opus4.6 思考模式存在一定差距；

2. 世界知识测评中：V4大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1；

3. 在数学、STEM、竞赛型代码的测评中，DeepSeek-V4超越当前所有已公开评测的开源模型。

DeepSeek-V4为什么能够做到？

DeepSeek从来都不靠营销，而是他他实实的做架构优化。

混合注意力机制（CSA/HCA）核心架构图

在系统架构上，DeepSeek-V4开创了一种全新的混合注意力机制（Hybrid Attention），在token维度进行压缩，实现了超长上下文能力，并且相比于传统方法大幅降低了硬件的需求。

画外音：没办法，人家根本就不卖卡给咱们。

混合注意力机制，主要由两部分构成：

CSA(Compressed Sparse Attention)稀疏压缩注意力

HCA(Heavily Compressed Attention) 超级压缩注意力

DeepSeek采用它们交错配置的混合架构，大幅降低了长文本场景中的注意力计算成本。

CSA（稀疏压缩注意力）架构图

CSA集成了压缩和稀疏注意力策略：首先将m个token的KV缓存压缩为k个条目，每个查询token只关注k个压缩后的KV条目即可。

HCA（超级压缩注意力）架构图

HCA则旨在实现极端压缩，将m个token的KV缓存合并为一个条目。CSA和HCA的混合架构显著提高了DeepSeek-V4系列的长上下文效率，使百万token上下文在实践中成为可能。

初步看下来，DeepSeek-V4在：

1. 整体架构；

2. 基础设施（通信计算优化，内核开发，批量计算，量化感知训练，推理框架）；

3. 预训练；

4. 后训练；

等多个模块进行了系统性优化。

由于资料今天才发布，其中的架构细节还没有深究，在未来的3个月内，我将对这些架构细节进行深究，感兴趣的同学敬请期待。

等不及的同学，可以先自行查阅英文原版：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

当然，对于只想体验DeepSeek-V4的同学，即日起登录其官网进行对话，使用的就是100W超长上下文的模型啦。

DeepSeek-V4发布推文里最后四句话：不诱于誉，不恐于诽，率道而行，端然正己。和一直搞技术，做架构的我们一样，他他实实搞技术，做架构的人和公司，结果总不会太差。

未来3个月，一起冲，干！共勉！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-24，如有侵权请联系 cloudcommunity@tencent.com 删除

DeepSeek

本文分享自架构师之路微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

DeepSeek-V4出来了，今天你用了吗？（架构重大升级，一个字，干就完了）

DeepSeek-V4出来了，今天你用了吗？（架构重大升级，一个字，干就完了）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐