首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型系列

    微调实战DeepSeek V4领域适配完全指南

    第一章:引言——为何需要微调DeepSeekV4?尽管DeepSeekV4在通用任务上表现出色,但其知识库截止于2025年12月,且训练数据主要来源于公开网络。 2.1硬件与环境选型硬件需求全参数微调(FullFine-tuning):对于V4-Flash(284B总参数),即使是INT4量化后,也需要多张顶级GPU(如8xA10080GB)或大规模昇腾集群。 第四章:实战演练——使用Unsloth框架进行LoRA微调Unsloth是一个新兴的、针对LoRA微调高度优化的框架,声称能将训练速度提升2倍,内存消耗降低70%。我们将以此为例进行演示。 ,我们必须使用4-bit量化来加载。 =True#使用4-bit量化#加载基础模型model,tokenizer=FastLanguageModel.from_pretrained(model_name="deepseek-ai/DeepSeek-V4

    8310编辑于 2026-05-15
  • 来自专栏前端必修课

    DeepSeek 文生图实战指南

    我是程序员 NEO 让我们开始今天的技术分享~ 想让 DeepSeek 生成精美图片吗?本文将为您揭示一个简单而强大的解决方案,让您轻松实现 AI 创意的可视化呈现。 突破 DeepSeek 的限制 DeepSeek 作为新晋的 AI 助手,虽然在对话能力上表现出色,但并不直接支持图像生成功能。 不过,通过本文介绍的方法,我们可以轻松突破这一限制,让 DeepSeek 秒变"画家"。 核心解决方案 关键在于利用 Pollinations.ai 提供的图像生成 API。 =100&model=flux&nologo=true 参数说明: width/height:控制图片尺寸 seed:随机种子,保证图片的可重复性 nologo=true:去除水印,获得清晰原图 实战指南

    1K11编辑于 2025-03-07
  • 来自专栏老张的求知思考世界

    DeepSeek原理与项目实战

    今天,小异带来一本新书《DeepSeek 原理与项目实战》,这本书还未正式出版,便已引发广泛关注,其中文繁体版和英文版版权更是抢先售出,收获了读者们如潮的好评。 当技术爆炸遇见知识鸿沟,《DeepSeek 原理与项目实战》这本兼顾理论深度、技术广度和实践经验的好书,便为读者打开了通向DeepSeek世界的大门。 第二部分(第 4~9 章)不仅详述了 DeepSeek-V3在对话生成、数学推理、代码补全等领域的能力,还通过详细的代码案例展示了如何利用模型实现任务的精准解决。 实战与高级集成应用 理论和工具都学会后,就要动手实战了,第三部分(第 10~12章)详细讲解了从函数回调、缓存机制到实际应用开发的全流程。 集成实战1:基于LLM的Chat类客户端开发 集成实战2:AI 智能助理开发 集成实战3:基于VS Code的辅助编程插件开发 Part.3 结语 在当下大模型技术快速迭代的浪潮中,本书以技术前瞻性、实战系统性和应用普适性形成显著特色

    87610编辑于 2025-03-10
  • DeepSeek免费超越GPT-4

    核心性能提升 性能表现优异,直逼国际一流 数学、编程、逻辑推理测试中,成绩国内领先 整体表现已接近 GPT-4 和谷歌最新模型 AIME 数学竞赛准确率从 70% 大幅提升至87.5% 思考过程更加深入 总结展望 国产 AI 的重要突破 DeepSeek-R1 这次升级展现了国产 AI 在推理能力上的重大进步: 性能达到国际先进水平:多项测试接近 GPT-4 表现 完全免费开源:对开发者和研究者友好 实用性强 //huggingface.co/deepseek-ai/DeepSeek-R1-0528 与之前的 DeepSeek-R1 版本一致,此次开源仓库(包括模型权重)统一采用 MIT License,允许用户利用模型输出 数据库 点击阅读 2.AI知识库的真相 点击阅读 3.Cherry Studio 本地知识库搭建教程 点击阅读 4.RAG知识库痛点与优化 点击阅读 5.数据库接入大模型实战 点击阅读 6.免费域名 dpdns速领 点击阅读 7.超长上下文模型知识库实战 点击阅读 8.域名接入Cloudflare 点击阅读

    19510编辑于 2026-04-29
  • 来自专栏AI工程落地

    DeepSeek V4模型原理

    CompressedSparseAttention(CSA)这个Attention有三块功能构成:1.KVCompressor负责把N个token的KV压缩成1个,在DeepSeekV4系列模型里,N= 4。 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算,DeepSeekV4Flash模型的k=512,Pro模型的k=1024。 默认hc_mult=4模型入口处会把embedding复制成4条流:展开代码语言:PythonAI代码解释hidden_states=inputs_embeds.unsqueeze(2).expand( 4.comb:对原来的多条residualstream做动态混合,作为残差路径。5.最后post*Y+comb@X得到新的多流hidden。

    12110编辑于 2026-05-09
  • DeepSeek-V4 实战——我用国产大模型重写了3个项目

    : 10万 token 上下文,DeepSeek-V4 完全没问题 推理能力: 复杂逻辑题,DeepSeek-V4-Pro 和 GPT-5.5 差距在 5% 以内 结论: 对我的场景(代码生成 + 文本处理 ),DeepSeek-V4 完全够用。 ▪ 切到 DeepSeek-V4DeepSeek-V4 的上下文缓存机制,把重复的系统提示和数据结构缓存起来,后续请求直接命中缓存。 成本降了 85%。 ▪ 我踩过的坑 坑4: 模型名字写错。 原因: DeepSeek-V4 的模型名是 deepseek-v4-pro 和 deepseek-v4-flash,不是 deepseek-v4。 如果你是成本敏感型开发者,强烈建议试试 DeepSeek-V4

    24011编辑于 2026-05-09
  • 来自专栏后端架构师

    Claude Code 接入 DeepSeek V4 实战:400 万 Tokens 从 26 降到 2

    然后 2026 年 4 月 24 日,DeepSeek 发布了 V4,并在三天后(今天,4 月 27 日)宣布 V4-Pro 限时降价 75%。 DeepSeek V4 分两个版本:V4-Flash 和 V4-Pro。 V4-Pro 是这次的主角。 原价(正式定价): 模型 输入(每百万 tokens) 输出(每百万 tokens) DeepSeek V4-Flash $0.14 $0.28 DeepSeek V4-Pro $1.74 $3.48 排查了半天才想起来:DeepSeek V4-Pro 目前不支持图片输入。 这是最大的坑。如果你的工作流里经常需要上传截图、UI 设计稿、日志截图,DeepSeek V4 目前是做不了的。 Q: 折扣结束后还有必要用 DeepSeek V4 吗? A: 有。

    1.7K10编辑于 2026-05-08
  • 来自专栏大模型成长之路

    【大模型学习 | RAG & DeepSeek 实战

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源大模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 参考2 第三章 赛事分类与级别认定 第七条 根据学科竞赛的组织机构、专业度、社会影响和获 - 4 - 奖难度等方面综合考虑,将竞赛分为国家级、省部级、地厅级和 校级赛事。 参考3 4.奖金发放:学校归口管理职能部门根据最终确定的奖励情 况,按要求报送相关奖励方案,由财务处发放奖金。 模型部署mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer =

    1.1K31编辑于 2025-07-19
  • 来自专栏Java面试教程

    DeepSeek-V4,终于发布,很强!

    之前说过很多次的狼来了,这次狼是真的来了,推迟了 N 多次的 DeepSeek-V4 在经历过过程芯片适配,上线又回滚等多次事件后,终于如约而至。 刚刚,DeepSeek 官方公众号发文:DeepSeek-V4 预览版:迈入百万上下文普惠时代。 全新 DeepSeek-V4 的预览版本正式上线。 DeepSeek-V4-Flash,极致性价比,适合高频、简单任务,提供快速响应。简单推理和Agent能力媲美Pro版 DeepSeek-V4-Pro,极致性能,面向复杂逻辑、深度思考和高性能场景。 现在登录官网什么,就已经是 V4了。 根据官方的报道,DeepSeek-V4-Pro:性能比肩顶级闭源模型,什么叫做比肩顶级闭源模型。 大家看看下面的对比图。 DeepSeek-V4DeepSeek-V3.2 的 2、Agent 能力专项优化 针对Claude Code、OpenCode、CodeBuddy等主流Agent产品进行了深度优化,在代码任务

    74030编辑于 2026-04-27
  • 来自专栏Java面试教程

    DeepSeek V4 真要来了!

    大家可能听说过很多次,DeepSeek V4就要爱了,这一次可能是最靠谱的时间点了。 就在上周,多位知情人士透露,DeepSeek创始人梁文锋在内部已经明确了节奏:下一代旗舰大模型V4,计划于4月下旬正式与公众见面 。 但这一次,DeepSeek V4干了一件牛逼的事情:完全运行在华为昇腾950PR芯片之上,底层代码从CUDA全面转向华为自研的CANN框架 。 这意味着什么? 但其实我觉得 DeepSeek V4 虽然会比 V3 更好,但一定没有大家像之前期待的那么炸裂。 我们应该用正常的眼光来看待更多“平凡、也会犯错的 DeepSeek",哪怕崩溃了,V4 不那么惊艳,也并不影响 DeepSeek 的历史地位,已经它仍然是一家巨牛逼的公司。

    35220编辑于 2026-04-20
  • 来自专栏大模型成长之路

    【大模型学习 | RAG & DeepSeek 实战(二)】

    Deepseek & RAG 实战(二)在【大模型学习 | RAG & DeepSeek 实战】-腾讯云开发者社区-腾讯云文章中,已经实现了基于RAG建立了本地知识库,通过检索相似度最高的知识来辅助大模型的问答系统

    92221编辑于 2025-07-20
  • 来自专栏大模型系列

    0.2元百万Token 的万亿AI:DeepSeek-V4 开源,开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash

    2026年4月24日,国产大模型领域的领军者深度求索(DeepSeek)正式发布并开源其划时代的DeepSeek-V4Preview系列模型。此次发布不仅是技术上的重大突破,更是一场深刻的商业革命。 本文将全面、深入地剖析DeepSeek-V4的技术内核、成本结构、应用场景及其对全球AI格局的深远影响。 就在这一天,DeepSeek-V4的开源与发布,如同一声惊雷,打破了由硅谷巨头长期主导的高成本、高门槛AI生态。 1.3V4的核心价值主张DeepSeek-V4的价值主张清晰而有力:超长上下文普惠化:1MToken不再是实验室里的炫技,而是每个开发者和企业都能用得起的标准配置。 DeepSeek-V4正是这条道路上的一次重要实践。结论DeepSeek-V4的发布,是一场静悄悄却影响深远的革命。

    99740编辑于 2026-04-24
  • LLM 系列(二十):解读 DeepSeek-V4

    如果回头来看社区对于 DeepSeek-V4 的期待,我觉得可以把这句诗句颠倒一下:犹抱琵琶半遮面,千呼万唤始出来..... 关于 DeepSeek-V4 的使用和切换,这两天已经有相当多的技术博客做了实践和对比。 一方面参数确实相较于之前的 671B 来看更大了,这是变化的,另一个方面 V4 继续沿用 MoE 的路线,这是不没变的,在有线算力的成本下,DeepSeek-V4 还是在成本控制方面保持了克制。 DeepSeek-V4 支持这一格式后,开发者通常只需要替换 base_url、api_key 和模型名,就能把已有系统平滑切换到 V4 上。 DeepSeek-V4 支持 Anthropic 风格接口,实际上是在主动适配这类执行环境。

    47420编辑于 2026-04-27
  • 来自专栏技术人生黄勇

    DeepSeek-V4 技术报告深度解析

    摘要 两个模型定位: DeepSeek-V4-Pro DeepSeek-V4-Flash 总参数 1.6T 284B 激活参数 49B 13B 定位 旗舰版,追求最强性能 轻量版,追求性价比 概念: DeepSeek-V4 的基础设施工作有两个特点:全栈自研和软硬件协同设计。 FP4 量化感知训练 量化感知训练(QAT):在训练过程中模拟量化带来的精度损失,让模型提前适应,这样部署时用低精度权重不会掉精度。 DeepSeek-V4 对两部分做 FP4 量化: 1. DeepSeek-V4 的异构 KV 缓存管理更复杂,但这是混合注意力架构的必然代价。 弹性计算沙箱平台 论文地址: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf -END-

    60110编辑于 2026-04-28
  • 来自专栏前端加油站

    angular4实战4)ngrx

    ngrx主要有四个模块,分别是 ngrx/store, ngrx/effects, ngrx/router-store, ngrx/store-devtools 本次实例用的是ngrx 4. 比如{name:j_bleach}=>{name:bleach} 或者输入属性为一个数组的时候[1,2,3]=>[1,2,3].push(4) 以上这两种方式都不会引发angular的检查策略 如Object.assign({}, {name:j_bleach}, {name:bleach}); 或者[…[1,2,3],4]这样返回一个新的对象。 项目地址:https://github.com/jiwenjiang/angular4-material2

    2.4K30发布于 2019-07-02
  • 来自专栏大模型系列

    华为昇腾950+DeepSeek V4王炸组合!雷军式定价屠夫登场,小米模式席卷AI界—DeepSeek-V4-Pro|DeepSeek-V4

    DeepSeek-V4的横空出世,不仅在技术上实现了全面越级,更在定价策略上投下了一枚震撼弹!128K上下文?那已经是上个时代的标配。V4直接把1M超长上下文拉满,让百万字级别的文档处理变得轻而易举。 就在刚刚,DeepSeek官方公布了V4的API价格表。我拿到数据后,足足愣了半分钟,心里只有一个念头:这哪是定价,这简直是掀桌子! DeepSeek这是要学当年的小米,用极致性价比,把大模型市场里那些虚高的溢价,彻底打回原形! 但DeepSeek此举,等于向全世界宣告:V4不仅能在昇腾芯片上完美运行,而且即将构建起基于国产硬件的超大规模算力集群!从模型到芯片,软硬一体的全栈国产化闭环正在形成。 当友商还在为如何优化成本焦头烂额时,DeepSeek已经手握一张能让价格再打对折的王牌。这仗,还怎么打?

    38040编辑于 2026-04-24
  • 来自专栏C++系列

    满血版Q4大模型落地实战4张22G显卡跑通DeepSeek671B全流程

    【视频演示过程】 挑战4张2080Ti22G纯本地部署Deepseek-R1 671B满血版大模型速度可达2.53tokens/s 1. 硬件配置 服务器:技嘉X99 CPU:单路E5-2673v4 显卡:2080Ti 22G*4 内存:512G 机箱:工作站全塔机箱 电源:1200W 2. 调优配置 如果按默认安装Ollama会报内存溢出错误,这里配置了几个调优参数,可以使得显卡不再内存溢出,会使用内存当显存,同时因为是4张显卡启动,所以在开机初始化时,加了延迟10秒启动Ollama,这样会让 4张显卡启动正常后,再加载Ollama。 ExecStartPre=sleep 10 Environment="OLLAMA_HOST=0.0.0.0" Environment="GGML_CUDA_ENABLE_UNIFIED_MEMORY=1" 4.

    1.3K10编辑于 2025-03-24
  • 腾讯云 DeepSeek 系列模型部署HAI实战

    在这一技术浪潮中,国内头部云厂商加速布局AI基础设施与工具链建设,其中腾讯云凭借其Deepseek系列大模型与**高性能AI计算实例(HAI)**的深度整合,为开发者提供了从模型训练到应用落地的全栈解决方案 操作过程:第一步:跳转链接https://cloud.tencent.com/act/pro/deepseek2025#HAI-CPU购买一个体验版的HAI,用于本次部署HAI的必要条件;第二步:点击立即购买选择一个可以购买的资源 所以说要选择一个可以购买的进行支付即可;第三步:进行支付支付成功:选择已成功支付即可;第四步:登录cnb.cool地址登录成功:第五步:跳转这个地址https://cnb.cool/ai-awesome/deepseek 但是如果只是根据视频进行搭建还是会存在一定的问题,只有实际搭建的时候,才会发现一些问题,当然了搭建好了模型之后只是第一步,如何根据搭建的服务进行调用,才是最重要的,这个点后续会继续更新对应的文章进行介绍,毕竟现在搭建deepseek

    57321编辑于 2025-03-23
  • 来自专栏技术热文

    DeepSeek R1 集成难题完美解决:DeepSeek4j来帮你解决

    DeepSeek R1 集成难题完美解决:DeepSeek4j来帮你解决在人工智能技术飞速发展的今天,DeepSeek R1 凭借其强大的思维链能力和高效的性能,成为开发者们关注的焦点。 幸运的是,DeepSeek4j 的开源为这一难题提供了完美的解决方案。为什么需要 DeepSeek4j? DeepSeek4j 的优势DeepSeek4j 是专为 Java 生态打造的 DeepSeek R1 集成框架,其核心优势如下:完整保留思维链和账单:完美支持 DeepSeek R1 的思维链能力,确保推理过程完整保留 如何在 Spring Boot 项目中快速集成 DeepSeek4j环境准备在集成 DeepSeek4j 之前,确保开发环境满足以下条件:Java 版本:DeepSeek4j 支持 Java 8 及以上版本 来使用 DeepSeek4j 提供的 API。

    40510编辑于 2025-03-31
  • DeepSeek V4是什么?能做什么?

    DeepSeek V4不只是聊天机器人,它是能真正干活的AI助手。 一、DeepSeek V4是什么? 2026年4月24日,DeepSeek发布V4预览版,两个版本: V4-Pro:完整版,Agent能力强,推理性能顶级 V4-Flash:轻量版,速度快,成本低 核心能力: 百万字上下文:一次能读1M " ) response = client.chat.completions.create( model="deepseek-v4-pro", # 或 deepseek-v4-flash 4 代码能力: V4-Pro接近Claude 4 Sonnet 长文本处理: V4(1M)> Claude(200K) 成本: V4更低 中文优化: V4更好 ▪ 5.3 vs DeepSeek V3 需要更高级功能,升级到Pro版 一句话带走: DeepSeek V4不是聊天机器人,是你的AI工作伙伴。

    1.1K10编辑于 2026-04-28
领券