搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大模型系列
微调实战：DeepSeek V4领域适配完全指南
第一章：引言——为何需要微调DeepSeekV4？尽管DeepSeekV4在通用任务上表现出色，但其知识库截止于2025年12月，且训练数据主要来源于公开网络。 2.1硬件与环境选型硬件需求全参数微调(FullFine-tuning)：对于V4-Flash（284B总参数），即使是INT4量化后，也需要多张顶级GPU（如8xA10080GB）或大规模昇腾集群。第四章：实战演练——使用Unsloth框架进行LoRA微调Unsloth是一个新兴的、针对LoRA微调高度优化的框架，声称能将训练速度提升2倍，内存消耗降低70%。我们将以此为例进行演示。，我们必须使用4-bit量化来加载。 =True#使用4-bit量化#加载基础模型model,tokenizer=FastLanguageModel.from_pretrained(model_name="deepseek-ai/DeepSeek-V4
8310编辑于 2026-05-15
来自专栏前端必修课
DeepSeek 文生图实战指南
我是程序员 NEO 让我们开始今天的技术分享~ 想让 DeepSeek 生成精美图片吗？本文将为您揭示一个简单而强大的解决方案，让您轻松实现 AI 创意的可视化呈现。突破 DeepSeek 的限制 DeepSeek 作为新晋的 AI 助手，虽然在对话能力上表现出色，但并不直接支持图像生成功能。不过，通过本文介绍的方法，我们可以轻松突破这一限制，让 DeepSeek 秒变"画家"。核心解决方案关键在于利用 Pollinations.ai 提供的图像生成 API。 =100&model=flux&nologo=true 参数说明： width/height：控制图片尺寸 seed：随机种子，保证图片的可重复性 nologo=true：去除水印，获得清晰原图实战指南
1K11编辑于 2025-03-07
来自专栏老张的求知思考世界
DeepSeek原理与项目实战
今天，小异带来一本新书《DeepSeek 原理与项目实战》，这本书还未正式出版，便已引发广泛关注，其中文繁体版和英文版版权更是抢先售出，收获了读者们如潮的好评。当技术爆炸遇见知识鸿沟，《DeepSeek 原理与项目实战》这本兼顾理论深度、技术广度和实践经验的好书，便为读者打开了通向DeepSeek世界的大门。第二部分（第 4~9 章）不仅详述了 DeepSeek-V3在对话生成、数学推理、代码补全等领域的能力，还通过详细的代码案例展示了如何利用模型实现任务的精准解决。实战与高级集成应用理论和工具都学会后，就要动手实战了，第三部分（第 10~12章）详细讲解了从函数回调、缓存机制到实际应用开发的全流程。集成实战1：基于LLM的Chat类客户端开发集成实战2：AI 智能助理开发集成实战3：基于VS Code的辅助编程插件开发 Part.3 结语在当下大模型技术快速迭代的浪潮中，本书以技术前瞻性、实战系统性和应用普适性形成显著特色
87610编辑于 2025-03-10
DeepSeek免费超越GPT-4？
核心性能提升性能表现优异，直逼国际一流数学、编程、逻辑推理测试中，成绩国内领先整体表现已接近 GPT-4 和谷歌最新模型 AIME 数学竞赛准确率从 70% 大幅提升至87.5% 思考过程更加深入总结展望国产 AI 的重要突破 DeepSeek-R1 这次升级展现了国产 AI 在推理能力上的重大进步：性能达到国际先进水平：多项测试接近 GPT-4 表现完全免费开源：对开发者和研究者友好实用性强 //huggingface.co/deepseek-ai/DeepSeek-R1-0528 与之前的 DeepSeek-R1 版本一致，此次开源仓库（包括模型权重）统一采用 MIT License，允许用户利用模型输出数据库点击阅读 2.AI知识库的真相点击阅读 3.Cherry Studio 本地知识库搭建教程点击阅读 4.RAG知识库痛点与优化点击阅读 5.数据库接入大模型实战点击阅读 6.免费域名 dpdns速领点击阅读 7.超长上下文模型知识库实战点击阅读 8.域名接入Cloudflare 点击阅读
19510编辑于 2026-04-29
来自专栏AI工程落地
DeepSeek V4模型原理
CompressedSparseAttention（CSA）这个Attention有三块功能构成：1.KVCompressor负责把N个token的KV压缩成1个，在DeepSeekV4系列模型里，N= 4。 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算，DeepSeekV4Flash模型的k=512，Pro模型的k=1024。默认hc_mult=4模型入口处会把embedding复制成4条流：展开代码语言：PythonAI代码解释hidden_states=inputs_embeds.unsqueeze(2).expand( 4.comb：对原来的多条residualstream做动态混合，作为残差路径。5.最后post*Y+comb@X得到新的多流hidden。
12110编辑于 2026-05-09
DeepSeek-V4 实战——我用国产大模型重写了3个项目
： 10万 token 上下文，DeepSeek-V4 完全没问题推理能力：复杂逻辑题，DeepSeek-V4-Pro 和 GPT-5.5 差距在 5% 以内结论：对我的场景（代码生成 + 文本处理），DeepSeek-V4 完全够用。 ▪ 切到 DeepSeek-V4 后 DeepSeek-V4 的上下文缓存机制，把重复的系统提示和数据结构缓存起来，后续请求直接命中缓存。成本降了 85%。 ▪ 我踩过的坑坑4：模型名字写错。原因： DeepSeek-V4 的模型名是 deepseek-v4-pro 和 deepseek-v4-flash，不是 deepseek-v4。如果你是成本敏感型开发者，强烈建议试试 DeepSeek-V4。
24011编辑于 2026-05-09
来自专栏后端架构师
Claude Code 接入 DeepSeek V4 实战：400 万 Tokens 从 26 降到 2
然后 2026 年 4 月 24 日，DeepSeek 发布了 V4，并在三天后（今天，4 月 27 日）宣布 V4-Pro 限时降价 75%。 DeepSeek V4 分两个版本：V4-Flash 和 V4-Pro。 V4-Pro 是这次的主角。原价（正式定价）：模型输入（每百万 tokens）输出（每百万 tokens） DeepSeek V4-Flash $0.14 $0.28 DeepSeek V4-Pro $1.74 $3.48 排查了半天才想起来：DeepSeek V4-Pro 目前不支持图片输入。这是最大的坑。如果你的工作流里经常需要上传截图、UI 设计稿、日志截图，DeepSeek V4 目前是做不了的。 Q: 折扣结束后还有必要用 DeepSeek V4 吗？ A: 有。
1.7K10编辑于 2026-05-08
来自专栏大模型成长之路
【大模型学习 | RAG & DeepSeek 实战】
Deepseek & RAG 实战编者常常有许多材料需要阅读查阅，但自己又比较懒，为此，想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来，加快自身的效率。在本次的项目设计，需要达成以下目标：开源大模型的本地部署及使用（以Deepseek为例）； PDF文本分析 ➕ 相似prompt检索提取（关键）；将检索到的信息与原prompt结合作为输入，得到结果参考2 第三章赛事分类与级别认定第七条根据学科竞赛的组织机构、专业度、社会影响和获 - 4 - 奖难度等方面综合考虑，将竞赛分为国家级、省部级、地厅级和校级赛事。参考3 4.奖金发放：学校归口管理职能部门根据最终确定的奖励情况，按要求报送相关奖励方案，由财务处发放奖金。模型部署mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer =
1.1K31编辑于 2025-07-19
来自专栏Java面试教程
DeepSeek-V4，终于发布，很强！
之前说过很多次的狼来了，这次狼是真的来了，推迟了 N 多次的 DeepSeek-V4 在经历过过程芯片适配，上线又回滚等多次事件后，终于如约而至。刚刚，DeepSeek 官方公众号发文：DeepSeek-V4 预览版：迈入百万上下文普惠时代。全新 DeepSeek-V4 的预览版本正式上线。 DeepSeek-V4-Flash，极致性价比，适合高频、简单任务，提供快速响应。简单推理和Agent能力媲美Pro版 DeepSeek-V4-Pro，极致性能，面向复杂逻辑、深度思考和高性能场景。现在登录官网什么，就已经是 V4了。根据官方的报道，DeepSeek-V4-Pro：性能比肩顶级闭源模型，什么叫做比肩顶级闭源模型。大家看看下面的对比图。 DeepSeek-V4 和 DeepSeek-V3.2 的 2、Agent 能力专项优化针对Claude Code、OpenCode、CodeBuddy等主流Agent产品进行了深度优化，在代码任务
74030编辑于 2026-04-27
来自专栏Java面试教程
DeepSeek V4 真要来了！
大家可能听说过很多次，DeepSeek V4就要爱了，这一次可能是最靠谱的时间点了。就在上周，多位知情人士透露，DeepSeek创始人梁文锋在内部已经明确了节奏：下一代旗舰大模型V4，计划于4月下旬正式与公众见面。但这一次，DeepSeek V4干了一件牛逼的事情：完全运行在华为昇腾950PR芯片之上，底层代码从CUDA全面转向华为自研的CANN框架。这意味着什么？但其实我觉得 DeepSeek V4 虽然会比 V3 更好，但一定没有大家像之前期待的那么炸裂。我们应该用正常的眼光来看待更多“平凡、也会犯错的 DeepSeek"，哪怕崩溃了，V4 不那么惊艳，也并不影响 DeepSeek 的历史地位，已经它仍然是一家巨牛逼的公司。
35220编辑于 2026-04-20
来自专栏大模型成长之路
【大模型学习 | RAG & DeepSeek 实战（二）】
Deepseek & RAG 实战（二）在【大模型学习 | RAG & DeepSeek 实战】-腾讯云开发者社区-腾讯云文章中，已经实现了基于RAG建立了本地知识库，通过检索相似度最高的知识来辅助大模型的问答系统
92221编辑于 2025-07-20
来自专栏大模型系列
0.2元百万Token 的万亿AI：DeepSeek-V4 开源，开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash
2026年4月24日，国产大模型领域的领军者深度求索（DeepSeek）正式发布并开源其划时代的DeepSeek-V4Preview系列模型。此次发布不仅是技术上的重大突破，更是一场深刻的商业革命。本文将全面、深入地剖析DeepSeek-V4的技术内核、成本结构、应用场景及其对全球AI格局的深远影响。就在这一天，DeepSeek-V4的开源与发布，如同一声惊雷，打破了由硅谷巨头长期主导的高成本、高门槛AI生态。 1.3V4的核心价值主张DeepSeek-V4的价值主张清晰而有力：超长上下文普惠化：1MToken不再是实验室里的炫技，而是每个开发者和企业都能用得起的标准配置。 DeepSeek-V4正是这条道路上的一次重要实践。结论DeepSeek-V4的发布，是一场静悄悄却影响深远的革命。
99740编辑于 2026-04-24
LLM 系列（二十）：解读 DeepSeek-V4
如果回头来看社区对于 DeepSeek-V4 的期待，我觉得可以把这句诗句颠倒一下：犹抱琵琶半遮面，千呼万唤始出来..... 关于 DeepSeek-V4 的使用和切换，这两天已经有相当多的技术博客做了实践和对比。一方面参数确实相较于之前的 671B 来看更大了，这是变化的，另一个方面 V4 继续沿用 MoE 的路线，这是不没变的，在有线算力的成本下，DeepSeek-V4 还是在成本控制方面保持了克制。 DeepSeek-V4 支持这一格式后，开发者通常只需要替换 base_url、api_key 和模型名，就能把已有系统平滑切换到 V4 上。 DeepSeek-V4 支持 Anthropic 风格接口，实际上是在主动适配这类执行环境。
47420编辑于 2026-04-27
来自专栏技术人生黄勇
DeepSeek-V4 技术报告深度解析
摘要两个模型定位： DeepSeek-V4-Pro DeepSeek-V4-Flash 总参数 1.6T 284B 激活参数 49B 13B 定位旗舰版，追求最强性能轻量版，追求性价比概念： DeepSeek-V4 的基础设施工作有两个特点：全栈自研和软硬件协同设计。 FP4 量化感知训练量化感知训练（QAT）：在训练过程中模拟量化带来的精度损失，让模型提前适应，这样部署时用低精度权重不会掉精度。 DeepSeek-V4 对两部分做 FP4 量化： 1. DeepSeek-V4 的异构 KV 缓存管理更复杂，但这是混合注意力架构的必然代价。弹性计算沙箱平台论文地址： https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf -END-
60110编辑于 2026-04-28
来自专栏前端加油站
angular4实战（4）ngrx
ngrx主要有四个模块，分别是 ngrx/store， ngrx/effects， ngrx/router-store， ngrx/store-devtools 本次实例用的是ngrx 4. 比如{name:j_bleach}=>{name:bleach} 或者输入属性为一个数组的时候[1,2,3]=>[1,2,3].push(4) 以上这两种方式都不会引发angular的检查策略如Object.assign({}, {name:j_bleach}, {name:bleach}); 或者[…[1,2,3],4]这样返回一个新的对象。项目地址：https://github.com/jiwenjiang/angular4-material2
2.4K30发布于 2019-07-02
来自专栏大模型系列
华为昇腾950+DeepSeek V4王炸组合！雷军式定价屠夫登场，小米模式席卷AI界—DeepSeek-V4-Pro|DeepSeek-V4
DeepSeek-V4的横空出世，不仅在技术上实现了全面越级，更在定价策略上投下了一枚震撼弹！128K上下文？那已经是上个时代的标配。V4直接把1M超长上下文拉满，让百万字级别的文档处理变得轻而易举。就在刚刚，DeepSeek官方公布了V4的API价格表。我拿到数据后，足足愣了半分钟，心里只有一个念头：这哪是定价，这简直是掀桌子！ DeepSeek这是要学当年的小米，用极致性价比，把大模型市场里那些虚高的溢价，彻底打回原形！但DeepSeek此举，等于向全世界宣告：V4不仅能在昇腾芯片上完美运行，而且即将构建起基于国产硬件的超大规模算力集群！从模型到芯片，软硬一体的全栈国产化闭环正在形成。当友商还在为如何优化成本焦头烂额时，DeepSeek已经手握一张能让价格再打对折的王牌。这仗，还怎么打？
38040编辑于 2026-04-24
来自专栏C++系列
满血版Q4大模型落地实战：4张22G显卡跑通DeepSeek671B全流程
【视频演示过程】挑战4张2080Ti22G纯本地部署Deepseek-R1 671B满血版大模型速度可达2.53tokens/s 1. 硬件配置服务器：技嘉X99 CPU：单路E5-2673v4 显卡：2080Ti 22G*4 内存：512G 机箱：工作站全塔机箱电源：1200W 2. 调优配置如果按默认安装Ollama会报内存溢出错误，这里配置了几个调优参数，可以使得显卡不再内存溢出，会使用内存当显存，同时因为是4张显卡启动，所以在开机初始化时，加了延迟10秒启动Ollama，这样会让 4张显卡启动正常后，再加载Ollama。 ExecStartPre=sleep 10 Environment="OLLAMA_HOST=0.0.0.0" Environment="GGML_CUDA_ENABLE_UNIFIED_MEMORY=1" 4.
1.3K10编辑于 2025-03-24
腾讯云 DeepSeek 系列模型部署HAI实战
在这一技术浪潮中，国内头部云厂商加速布局AI基础设施与工具链建设，其中腾讯云凭借其Deepseek系列大模型与**高性能AI计算实例（HAI）**的深度整合，为开发者提供了从模型训练到应用落地的全栈解决方案操作过程：第一步：跳转链接https://cloud.tencent.com/act/pro/deepseek2025#HAI-CPU购买一个体验版的HAI，用于本次部署HAI的必要条件；第二步：点击立即购买选择一个可以购买的资源所以说要选择一个可以购买的进行支付即可；第三步：进行支付支付成功：选择已成功支付即可；第四步：登录cnb.cool地址登录成功：第五步：跳转这个地址https://cnb.cool/ai-awesome/deepseek 但是如果只是根据视频进行搭建还是会存在一定的问题，只有实际搭建的时候，才会发现一些问题，当然了搭建好了模型之后只是第一步，如何根据搭建的服务进行调用，才是最重要的，这个点后续会继续更新对应的文章进行介绍，毕竟现在搭建deepseek
57321编辑于 2025-03-23
来自专栏技术热文
DeepSeek R1 集成难题完美解决：DeepSeek4j来帮你解决
DeepSeek R1 集成难题完美解决：DeepSeek4j来帮你解决在人工智能技术飞速发展的今天，DeepSeek R1 凭借其强大的思维链能力和高效的性能，成为开发者们关注的焦点。幸运的是，DeepSeek4j 的开源为这一难题提供了完美的解决方案。为什么需要 DeepSeek4j？ DeepSeek4j 的优势DeepSeek4j 是专为 Java 生态打造的 DeepSeek R1 集成框架，其核心优势如下：完整保留思维链和账单：完美支持 DeepSeek R1 的思维链能力，确保推理过程完整保留如何在 Spring Boot 项目中快速集成 DeepSeek4j环境准备在集成 DeepSeek4j 之前，确保开发环境满足以下条件：Java 版本：DeepSeek4j 支持 Java 8 及以上版本来使用 DeepSeek4j 提供的 API。
40510编辑于 2025-03-31
DeepSeek V4是什么？能做什么？
DeepSeek V4不只是聊天机器人，它是能真正干活的AI助手。一、DeepSeek V4是什么？ 2026年4月24日，DeepSeek发布V4预览版，两个版本： V4-Pro：完整版，Agent能力强，推理性能顶级 V4-Flash：轻量版，速度快，成本低核心能力：百万字上下文：一次能读1M " ) response = client.chat.completions.create( model="deepseek-v4-pro", # 或 deepseek-v4-flash 4 代码能力： V4-Pro接近Claude 4 Sonnet 长文本处理： V4（1M）> Claude（200K）成本： V4更低中文优化： V4更好 ▪ 5.3 vs DeepSeek V3 需要更高级功能，升级到Pro版一句话带走： DeepSeek V4不是聊天机器人，是你的AI工作伙伴。
1.1K10编辑于 2026-04-28

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

微调实战：DeepSeek V4领域适配完全指南

DeepSeek 文生图实战指南

DeepSeek原理与项目实战

DeepSeek免费超越GPT-4？

DeepSeek V4模型原理

DeepSeek-V4 实战——我用国产大模型重写了3个项目

Claude Code 接入 DeepSeek V4 实战：400 万 Tokens 从 26 降到 2

【大模型学习 | RAG & DeepSeek 实战】

DeepSeek-V4，终于发布，很强！

DeepSeek V4 真要来了！

【大模型学习 | RAG & DeepSeek 实战（二）】

0.2元百万Token 的万亿AI：DeepSeek-V4 开源，开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash

LLM 系列（二十）：解读 DeepSeek-V4

DeepSeek-V4 技术报告深度解析

angular4实战（4）ngrx

华为昇腾950+DeepSeek V4王炸组合！雷军式定价屠夫登场，小米模式席卷AI界—DeepSeek-V4-Pro|DeepSeek-V4

满血版Q4大模型落地实战：4张22G显卡跑通DeepSeek671B全流程

腾讯云 DeepSeek 系列模型部署HAI实战

DeepSeek R1 集成难题完美解决：DeepSeek4j来帮你解决

DeepSeek V4是什么？能做什么？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐