DeepSeek V4 刚刚发布：API 定价、配置与最佳实践完全指南

阿特拉斯

发布于 2026-06-15 18:08:33

190

从 OpenAI 迁移只需改两行代码，成本却只有 1/90。

新一代模型发布

DeepSeek V4 正式发布并开源，带来两个版本：

模型	参数规模	定位
DeepSeek-V4-Pro	1.6T 总参数 / 49B 激活参数	性能对标顶级闭源模型
DeepSeek-V4-Flash	284B 总参数 / 13B 激活参数	快速、高效、经济

核心亮点

特性	说明
100 万上下文	1M context 成为默认配置，最大输出 384K
双模式支持	Thinking / Non-Thinking 模式自由切换
架构创新	Token-wise 压缩 + DSA（DeepSeek 稀疏注意力）
Agent 优化	已集成 Claude Code、OpenClaw、OpenCode

性能表现

DeepSeek-V4-Pro： - Agent 编程能力：开源 SOTA - 世界知识：开源模型第一，仅次于 Gemini-3.1-Pro - 推理能力：数学/STEM/编程全面领先，对标顶级闭源模型

DeepSeek-V4-Flash： - 推理能力接近 V4-Pro - 简单 Agent 任务表现相当 - 更快响应、更经济定价

Thinking 模式

两个模型都支持双模式切换：

response = client.chat.completions.create(

model="deepseek-v4-pro",

messages=[{"role": "user", "content": "解释 Python 装饰器"}]

)

response = client.chat.completions.create(

model="deepseek-v4-pro",

messages=[{"role": "user", "content": "证明根号 2 是无理数"}],

thinking={"type": "enabled"}

)

print(response.choices[0].message.reasoning_content)

print(response.choices[0].message.content)

注意：旧模型名称 deepseek-chat 和 deepseek-reasoner 将于 2026/07/24 废弃。

新账户可获得 500 万免费 token，无需绑定信用卡。

定价详解

DeepSeek V4 定价

模型	输入（缓存命中）	输入（缓存未命中）	输出
deepseek-v4-flash	$0.028/M	$0.14/M	$0.28/M
deepseek-v4-pro	$0.145/M	$1.74/M	$3.48/M

限时优惠：deepseek-v4-pro 当前享受 75% 折扣，优惠截至 2026/05/05 15:59 UTC。

与竞品对比

提供商 / 模型	输入（每百万）	输出（每百万）
DeepSeek V4-Flash（缓存命中）	$0.028	$0.28
OpenAI GPT-5.4	$2.50	$10.00
Anthropic Claude Opus 4.6	$15.00	$75.00

Flash 版本缓存命中时，输入价格是 OpenAI 的 1/89。

快速开始

1. 创建账户

前往 platform.deepseek.com 注册，新账户获得 500 万免费 token。

2. 生成 API Key

控制面板 → API Keys → Create new API key

export DEEPSEEK_API_KEY="sk-your-key-here"

3. 开始调用

DeepSeek 兼容 OpenAI 和 Anthropic API 格式：

https://api.deepseek.com

代码示例

curl

curl https://api.deepseek.com/chat/completions \

-H "Content-Type: application/json" \

-H "Authorization: Bearer $DEEPSEEK_API_KEY" \

-d '{

"model": "deepseek-v4-pro",

"messages": [

{"role": "system", "content": "You are a helpful assistant."},

{"role": "user", "content": "Hello!"}

]

Python：基本调用

from openai import OpenAI

client = OpenAI(

api_key=os.getenv("DEEPSEEK_API_KEY"),

base_url="https://api.deepseek.com"

)

response = client.chat.completions.create(

model="deepseek-v4-flash",

messages=[{"role": "user", "content": "Hello"}]

)

print(response.choices[0].message.content)

Python：流式输出

stream = client.chat.completions.create(

model="deepseek-v4-flash",

messages=[

{"role": "system", "content": "你是资深软件工程师。"},

{"role": "user", "content": "审查这段代码：\n\ndef fib(n):\n if n <= 1: return n\n return fib(n-1) + fib(n-2)"}

stream=True

)

for chunk in stream:

if chunk.choices[0].delta.content:

print(chunk.choices[0].delta.content, end="", flush=True)

Python：监控 Token 使用

response = client.chat.completions.create(

model="deepseek-v4-pro",

messages=[{"role": "user", "content": "Hello"}]

)

print(f"输入 tokens: {response.usage.prompt_tokens}")

print(f"输出 tokens: {response.usage.completion_tokens}")

print(f"缓存命中: {response.usage.prompt_cache_hit_tokens}")

JavaScript

import OpenAI from "openai";

const client = new OpenAI({

apiKey: process.env.DEEPSEEK_API_KEY,

baseURL: "https://api.deepseek.com",

});

const response = await client.chat.completions.create({

model: "deepseek-v4-flash",

messages: [{ role: "user", content: "解释 JavaScript 闭包。" }],

});

console.log(response.choices[0].message.content);

从 OpenAI 迁移

只需改两行代码：

client = OpenAI(api_key="sk-openai-key")

response = client.chat.completions.create(

model="gpt-4o",

messages=[{"role": "user", "content": "Hello"}]

)

client = OpenAI(

api_key="sk-deepseek-key",

base_url="https://api.deepseek.com" # 改这一行

)

response = client.chat.completions.create(

model="deepseek-v4-flash", # 改这一行

messages=[{"role": "user", "content": "Hello"}]

)

消息格式、流式输出、函数调用、JSON 模式——全部兼容。

上下文缓存：节省 90% 成本

完全自动，无需改代码。

发送请求时，DeepSeek 检查提示开头是否与缓存的前缀匹配。如果匹配，这些 token 以优惠价格提供。

缓存何时生效

• 跨请求使用相同系统提示：每个请求都以相同内容开头

• 共享对话历史：多轮对话中，之前的历史会被缓存

• 批量处理相同模板：只有变化部分产生全额费用

最大化缓存命中率

建议	说明
静态内容放前面	系统提示和固定指令放在可变内容之前
保持系统提示一致	一个字符差异也会破坏缓存匹配
批量发送相似请求	快速连续发送，保持缓存活跃

100 万 Token 上下文窗口

一个 5 万行代码的中型项目约 50 万 token。100 万上下文窗口可以：

• 架构审查：识别循环依赖、缺失抽象、不一致模式

• 跨文件重构：一次性生成协调的多文件修改

• 安全审计：扫描整个代码库的漏洞

实用技巧

让模型理解项目布局

成本优化最佳实践

1. 构建提示以最大化缓存命中率：最长、最稳定的内容放消息数组开头

2. 选择合适的模型：Flash 用于大多数任务，Pro 用于复杂推理

3. 设置适当的 max_tokens：防止过长输出

4. 批量处理相似请求：保持缓存活跃

5. 长输出使用流式传输：改善用户体验

总结

DeepSeek V4 刚刚发布，带来五个关键优势：

1. 双模型选择：Pro 对标顶级闭源模型，Flash 快速经济

2. 激进定价：缓存命中时输入 $0.028/M，比 OpenAI 便宜 90 倍

3. 无缝迁移：OpenAI SDK 兼容，改两行代码即可切换

4. 100 万上下文：整个代码库放入单个提示

5. Thinking 模式：两个模型都支持思维链推理

建议：从 500 万免费 token 开始，与你当前的提供商做基准测试，让数据指导决策。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-25，如有侵权请联系 cloudcommunity@tencent.com 删除

配置

本文分享自超级AI技术微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度