本文整理自网易有道研发总监程桥 6 月在 AICon 2025 北京 的分享 “LLM 技术在有道词典笔上的应用实践”。本次分享将聚焦端侧大模型,深入探讨其落地过程中的挑战与实践。 端侧大模型落地面临算力、内存、功耗、成本、算法质量、多应用部署等挑战,需平衡各项指标。以有道子曰大模型为例,分享云侧、云端结合、端侧 LLM 三种落地模式。 ,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。 然而,主流开源框架如 llama.cpp 或 mnn-llm 的推理速度均无法满足我们的需求。 为此,我们对推理过程进行了优化。 我们将代码、模型以及实践过程中遇到的问题和优化方法整理成论文,并已开源。感兴趣的朋友可以扫描二维码关注。
随着,对于 LLM 应用于架构领域探索的进一步深入,以及 ArchGuard Co-mate 开发进入深入区,我们发现越来越多的通用模式。 开始之前,可以先看看 ArchGuard Co-mate 的演示视频: LLM 应用参考架构 结合我们在一些 LLM PoC 项目的经验,以及网上的公开资料,我重新汇制了一个 LLM 应用的参考架构图: LLM 应用参考架构示例:ArchGuard Co-mate ArchGuard Co-mate 是一个 LLM + 架构设计与治理的探索性项目,旨在探索 LLM 作为架构师助手的可能性,并围绕 LLM 小结 最后由 Notion AI 帮我们做一个小结: 本文介绍了一个 LLM 应用参考架构:ArchGuard Co-mate 实践示例。 架构包括 UI 层、会话处理层、操作编排层、LLM 增强层和 LLM 层。文章详细介绍了每个层级的设计理念和技术实践,并提供了示例代码。
一、引言:为什么LLM性能测试至关重要? 二、EvalScope工具简介 EvalScope 是由魔搭社区官方推出的全栈评测框架,支持 LLM、多模态模型及 RAG 系统的端到端评测。 选择 EvalScope 进行 LLM 性能测试的核心优势在于其 全栈评测能力 与 工业级性能优化设计。 1. 通过与 ms-swift 训练框架 的无缝集成,开发者可在训练后直接发起性能评测,形成“训练-评测-优化”闭环 三、EvalScope性能测试实践指南 环境搭建 EvalScope 工具的运行需要 Python 标准 OpenAI 格式 对话接口测试 如果 LLM 接口的格式是标准的 OpenAI 格式,则EvalScope通过简单的命令或者脚本就可以快速测试。
事实上, LLM 正在迅速成为应用程序栈的一个组成部分。 该应用程序可以在每一步为您提供帮助,就像一个有用的助手,让您到达您想去的地方。 在您的应用程序中使用 LLM 很难,对吧? 这不是科幻小说。 事实上,构建基于 LLM 的应用程序只需要一个可以进行数据库调用和 API 调用的开发人员。 这就是为什么将代理连接到数据库对于希望在 LLM 上构建基于代理的应用程序的公司如此重要的原因。但是数据库必须以 LLM 理解的方式存储信息:作为向量。 所有应用程序都将成为 AI 应用程序。 LLM 和 ChatGPT 插件等功能的兴起使这个未来更容易获得。
引言 随着大语言模型(LLM)技术的飞速发展,越来越多的开发者开始探索如何将这些强大的模型应用到实际项目中。然而,从理论到实践往往存在着巨大的鸿沟。 在这个背景下,Awesome LLM Apps 项目应运而生,为开发者提供了一个全面的 LLM 应用示例库。 这个项目不仅仅是一个简单的代码集合,更像是一本活生生的 LLM 应用开发教科书。 结论与展望 Awesome LLM Apps 项目为 LLM 应用开发者提供了一个宝贵的学习和参考资源。 它不仅展示了当前 LLM 技术的应用边界,更为开发者提供了从零到一构建 LLM 应用的完整路径。 对于想要入门 LLM 应用开发的开发者来说,这个项目无疑是最好的起点之一。通过学习和实践这些示例,开发者不仅可以掌握 LLM 应用开发的核心技能,更能培养对 AI 技术应用的深度理解和创新思维。
04-LLM与MCP集成实践概述在前三篇文章中,我们分别介绍了MCP协议、服务器开发和客户端开发。 本文将深入探讨如何将MCP工具集成到大语言模型(LLM)中,使用LangGraph构建智能代理应用,实现自动化的工具调用和状态管理。 LangGraph简介LangGraph是LangChain生态中的状态机工作流引擎,专门用于构建复杂的AI应用。 返回格式最佳实践1.模块化设计展开代码语言:PythonAI代码解释#独立的工具管理模块classMCPToolManager:def__init__(self,session):self.session 《多服务器架构与最佳实践》中,我们将学习如何同时连接多个MCP服务器,构建更复杂的应用架构。
导读 随着LLM的技术发展,其在业务上的应用越来越关键,通过LangChain大大降低了LLM应用开发的门槛。 LangChain是一个框架,用于开发由LLM驱动的应用程序。可以简单认为是LLM领域的Spring,以及开源版的ChatGPT插件系统。 开发框架,能和外部数据源交互、能集成各种常用的组件等等,大大降低了LLM应用开发的门槛。 个人认为,除了和业务结合落地LLM应用外,还有2个大的方向可以进一步去探索: 1)通过低代码的形式进一步降低LLM应用的开发门槛。 Agent之于大模型,个人觉得类似SQL之于DB,能大幅度提升LLM的应用场景。
0 前言随LLM技术演进,AI应用开发部署越来越复杂。LangServe应运而生,旨在简化AI服务部署和运维的框架。专为LLM部署和管理而设计;本文旨在讲解LangServe的功能特点和实践运用。 1 概述LangServe 提供一整套将LLM部署成产品服务的解决方案。 可将LLM应用链接入常见Python Web框架(如FastAPI、Pydantic、uvloop、asyncio),进而生成一套RESTful API。 LangServe减少开发人员的运维部署任务,使他们可以更专注于LLM应用开发。不仅简化从开发到生产的过渡,还确保服务的高性能和安全性。 LangServe的目标是让开发者能够轻松集成、部署和管理AI模型,从零到一无缝地实现LLM应用从原型到产品的过渡。
这场革命的核心武器,正是大型语言模型(LLM)与检索增强生成(RAG)的组合。“人力成本削减 40%”听起来像是一个激进的口号,但它并非遥不可及的幻想。 LLM 与 RAG 的组合拳,其核心目标就是压缩这些“低价值工时”,让员工从繁琐的事务中解放出来,专注于战略、创新和决策。 第二部分:RAG——为 LLM 注入企业“私有灵魂”直接使用通用的 LLM,就像让一位绝顶聪明但对你公司一无所知的“外部顾问”来工作。 通过 RAG,LLM 在回答任何问题时,都会先从这个私有知识库中检索最相关的信息,然后基于这些准确、实时的内部资料来生成回答。 结语:从“工具”到“战略”LLM 与 RAG 的应用,绝非简单地购买一个软件或部署一个模型。它是一项深刻的组织变革战略。
Wey:之前卓见老师在我们社区分享过一篇文章《利用 ChatGLM 构建知识图谱》,包括我上面的分享,也算是一种实践分享。当然我们后续会有更多的介绍。看看卓见有没有其他补充。 陈卓见:思为分享的可能是偏应用层的,而对我们这些 LLM 从业者而言更多的可能是如何训练大模型。比如说,我们想实现某个功能,我们应该如何去构造数据,选择大模型。 但 INT2 量化这个效果就不敢保证了,因为 INT4 至少有不少项目,像是 LLaMA、ChatGLM 都做过实验,测试下来精度损失不会那么大,但是 INT2 还没有实践数据出来,不知道到底精度损失会有多少 模型的准确性 Q:在实际应用中,如何做领域知识图谱的品控,确保 kg 就是知识图谱的内容完备跟准确性,如果知识图谱的内容都错了怎么办? 陈卓见:其实,我们一般是准备好几个模型。 目前,实践下来,大模型的准确率只有 70-80%,准确率并不是很高。但再经过一道 LoRA,准确率会提高点。建议还是做多模型,相对会保险一点。
作者:HOS(安全风信子) 日期:2025-12-30 来源:GitHub 摘要: 本文深入探讨了2025年大语言模型(LLM)压缩技术的最新进展,从理论基础到实践应用。 在过去的一年中,GitHub上涌现出了许多优秀的LLM压缩技术和工具,如GGUF、AutoGPTQ、QLoRA等,这些技术和工具为LLM的广泛应用奠定了基础。 2. GitHub上的最新项目如LoRA和QLoRA实现了这两种技术,广泛应用于LLM的微调。 结论 本文深入探讨了2025年大语言模型压缩技术的最新进展,从理论基础到实践应用。 这些技术的发展为LLM的广泛应用奠定了基础,降低了LLM的部署成本,提高了推理速度,支持了边缘部署。 同时,我们也需要关注LLM压缩技术面临的挑战,如性能损失、硬件依赖、实现复杂等。
作者:HOS(安全风信子) 日期:2025-12-30 来源:GitHub 摘要: 本文深入探讨了2025年大语言模型(LLM)推理优化技术的最新进展,从理论基础到实践应用。 核心发现/更新点 通过对GitHub上最新LLM推理优化技术项目的深入分析,我们发现了以下几个关键趋势和更新点: 推理优化成为LLM应用的关键:推理优化已经成为LLM从实验室走向实际应用的关键环节,直接影响 3.7 推理优化实践指南 3.7.1 模型选择与优化 选择合适的模型:根据任务需求和硬件条件,选择合适规模和架构的模型。 模型压缩:应用量化、剪枝、知识蒸馏等技术减小模型体积和计算复杂度。 提高用户体验:优化后的LLM推理速度更快,响应时间更短,能够提供更好的用户体验。 支持大规模应用:优化后的LLM吞吐量更高,能够支持大规模的并发请求,满足实际应用需求。 结论 本文深入探讨了2025年大语言模型推理优化技术的最新进展,从模型压缩、硬件加速、算法优化到系统优化,系统梳理了各种优化技术的原理、实现和应用,并提供了完整的实践指南和性能评估。
之前对LLM 推理和应用了解不多,因此抽时间梳理了一下,我们从模型量化,模型推理,以及开发平台等三个层面来梳理分析。 可以作为候选 大模型应用开发平台 之所以称之为开发平台,是这些工具除了支持基本的模型推理,还有标准化的api,以及配套管理工具,可以方便去开发和管理AI应用。 dify https://github.com/langgenius/dify Dify.AI是一款开源的 LLM (大语言模型)应用开发平台,它融合了 BaaS(后端即服务)和 LLMOps的理念, 涵盖了构建生成式 AI 原生应用所需的核心技术栈,包括一个内置 RAG 引擎。 Prompt IDE:和团队一起在 Dify 协作,通过可视化的 Prompt 和应用编排工具开发 AI 应用。 支持无缝切换多种大型语言模型。 3.
项目概述 「eino」(发音类似 "I know")是 CloudWeGo 团队开源的 Go 语言 LLM 应用开发框架,基于 Apache 2.0 许可证。 设计理念总结 4.1 框架定位 「eino 是 LLM 应用开发 SDK」,提供组件抽象和编排能力: ┌───────────────────────────────────────────────── 应用 │ │ │ └─────────────────────────────────────────────────────────┘ │ │ ──────────────┘ │ └───────────────────────────────────────────────────────────────┘ 「适用场景」: 需要灵活组合 LLM 能力的应用 已有服务框架,需要嵌入 LLM 能力 快速原型开发和实验 对类型安全有要求的 Go 项目 4.2 核心设计理念 「核心理念」:Runnable 抽象 + 流式优先 + 类型安全 ┌────
审计Ask Astro LLM问答应用 - Trail of Bits博客今天,我们发布第二个开源AI安全审计项目:针对开源检索增强生成(RAG)应用的安全漏洞分析,这些漏洞可能导致聊天机器人输出投毒、 该应用是基于风投公司A16Z的RAG参考架构构建的开源聊天机器人。RAG是通过上下文知识库为大型语言模型(LLM)增强训练数据集外信息的最有效技术之一。 其采用现代ML开发栈构建,包含三大核心组件:Weaviate:存储文档嵌入向量的向量数据库Langchain:基于Python的LLM编程框架Apache Airflow:用于管理文档检索和处理的工作流编排系统数据流与攻击面应用攻击面相对狭窄 生成问题重述版本Weaviate余弦相似度搜索Cohere Reranker API文档重排序LLM过滤器去除无关文档审计发现的技术漏洞TOB-ASTRO-0001 通过源材料删除的数据投毒严重性:高 防御建议与最佳实践数据库审计工具:建立向量数据库审计和维护流程自动化同步机制:源内容删除时应自动同步至数据库人工持续审核:定期审核数据库中的不准确或无关内容威胁建模:针对多组件系统进行上下文相关的攻击向量分析技术栈安全启示本次审计揭示了
作者:HOS(安全风信子) 日期:2025-12-30 来源:GitHub 摘要: 本文深入探讨了2025年大语言模型(LLM)多模态融合技术的最新进展,从理论基础到实践应用。 通过分析GitHub上最新的开源项目和研究成果,本文系统梳理了LLM多模态融合的各种技术路径,包括视觉-语言模型、音频-语言模型、多模态预训练等,并提供了完整的实践指南和性能评估。 1. 为了拓展LLM的应用场景,提高模型的通用性和表现力,LLM多模态融合技术成为了研究的热点。 LLM的应用场景,提高模型的通用性和表现力。 实际意义/风险/未来趋势 5.1 实际意义 拓展LLM应用场景:多模态融合技术能够拓展LLM的应用场景,使LLM能够处理和生成多种模态的内容,如图像、音频、视频等。
尽管诸如 ChatGPT 等聊天应用内置了部分记忆功能,可以记录用户最近几轮的聊天信息,但它仍然存在上下文长度限制,对话历史超过一定长度后,就会强制开启新一轮对话。 为了解决这个问题,很多 AIGC 应用都需要独立开发记忆系统,特别是像 AI 聊天陪伴、RAG、智能客服等应用,记忆系统的质量决定了产品是否有能力维持长期的用户对话,这会直接影响到用户体验和产品口碑。 记忆系统的主流实现方案 针对 LLM 应用的记忆系统,业界已经探索出了一些成熟的解决方案,常见的实现方式包括以下几种: 2.1 Buffer Memory——缓冲记忆 2.1.1 实现思路 这是最基础的记忆模式 通过以上的方式,即可实现一个具有缓冲窗口记忆功能的聊天应用,是不是非常简单? 总结 本篇文章首先介绍了记忆系统对于 LLM 应用的重要性,接下来介绍了业界主流的记忆系统实现方案,之后我们利用 LangChain 框架为 LLM 应用添加上记忆功能,最后简单演示了下整体效果。
需要将请求分发到不同的节点进行处理,让每个节点的负载在合适的水平,这就是负载均衡。
想提升大型语言模型(LLM)应用的性能?用 GPTCache。 想提升 LLM 应用性能的同时降低开销?还得用 GPTCache! 将 LLM 响应存储在缓存中可以显著减少检索响应所需的时间。如果之前的请求已经存储在缓存中,能够更大幅度地降低响应时间,提高应用程序的整体性能。 重点二,节省开销。 缓存 LLM 响应可以通过降低 LLM 服务的负载来提高整个应用的可扩展性。而语义缓存有助于避免系统瓶颈,确保应用可以处理更多请求。 重点四,定制个性化缓存规则。 多样的的相似性计算方式能够灵活满足不同的需求和应用场景。GPTCache 根据其他用例和需求提供灵活性。 所以,还是那句话:想提升大型语言模型(LLM)应用的性能?用 GPTCache。 想提升 LLM 应用性能的同时降低开销?还得用 GPTCache!
《LangChain 入门到实战教程》更多内容 前言 随着大语言模型(Large Language Model, LLM)的不断涌现,越来越多的人开始关注其在各个领域中的应用。 这些应用场景的出现,为 LLM 的发展提供了更加广阔的空间。 在过去,很多人认为AI应用离我们很遥远,好像是不属于自己专业范畴的东西。 但随着时代的变迁,LangChain的出现为开发者提供了更加快速、便捷的AI应用开发工具,使得集成AI技术变得更加容易。 LLM文件可以使用JSON或YAML格式保存在磁盘上,这两种格式都是相同的,无论文件的扩展名是什么。这样的设计可以方便地在不同的应用程序中使用LLM文件,并且无需更改文件的加载方式。 可以说,LLM是开发AI应用的基石,具有重要的作用。 理解新范式,拥抱新时代,把握新机会。 《LangChain 入门到实战教程》更多内容