首页
学习
活动
专区
圈层
工具
发布

#LLM

07-PPO 在 LLM 后训练里真正训练了什么

anzhsoft

上一组最后一篇按 fit()走完了一轮 PPO/GRPO step。进入第二组,我们换一个视角:同一轮 step 里有 actor、rollout、refere...

500

WorkBuddy LLM 成本控制与架构实践

山野大叔

在开发「语义显微镜 V3.0」和「brainproto 类脑原型」两个项目的过程中,验证了一个结论:

500

31%:LLM 修 Bug 的真正天花板 ?

山野大叔

我们耗时多轮迭代,持续优化 LLM 自动修 Bug 流水线,从数据喂入、评分机制、Bug 分类到任务调度,完成了全链路架构优化。所有前置工程问题悉数解决,流水线...

500

89 天 15K stars:HKUDS 把 LLM Agent 套到量化交易

智能时代蛮子

vibe-trading 是一个让 LLM 用自然语言驱动量化研究 + 受控实盘的 Agent 平台——它把 18 个数据源、450+ 公式 alpha、9 家...

900

并非每个任务都需要使用最昂贵的模型——使用 PHP 编写的 LLM 分类器即可满足需求

Tinywan

当我几周前发布了 Neuron AI 官方路由包后,我收到了来自许多开发者的相同问题,只是措辞不同:它能将困难的请求发送给强大模型,而将简单的请求发送给便宜模型...

500

告别Token焦虑:分享一些省Token指南

Kody-凯达

如果你正在频繁调用大模型API,你一定对“Token消耗”这件事又爱又恨——爱的是它让智能触手可及,恨的是它像水流一样悄无声息地溜走。

900

AI可见性时代,我最近的八个观察

用户12594957

AI可见性营销(AI Visibility Marketing)还处在一个很早期的阶段。与SEO相比,它最大的不同在于,我们几乎无法看到模型内部究竟如何做出判断...

1200

论文解读:LLM 不直接改代码,也能让程序跑快 3 倍?

七牛开发者

今天这篇论文「Agentic Auto-Scheduling: An Experimental Study of LLM-Guided Loop Optimiz...

3910

在 Langfuse 上配 LLM-as-Judge,五个真坑我替你踩过了

windealli

Langfuse 的在线评测核心是 LLM-as-Judge——也就是用一个大模型当裁判,来看你 Agent 的输出并打分。裁判自己也是个 LLM,所以你得先把...

8710

用 LLM Wiki 给自己搭一个会越用越值钱的第二大脑

AI进修生

这是一个基于 Andrej Karpathy 的 LLM Wiki 模式 构建的开源项目。

12110

一道LLM推理部署面试题:KV缓存淘汰90% token,显存为什么没降?

用户11563501

用vLLM部署推理模型,长序列推理时频繁爆显存。于是给服务加了KV缓存压缩策略,淘汰90%的非重要缓存token,重启后显存占用几乎没变,还是会在相近的序列长度...

9910

Loop Engineering 的代价:LLM 可用性是工程用 Token 买出来的

乱世不浮生

从 Prompt 到 Loop,四个工程阶段每一步都在用更多 token 换更高可用性。这不是模型在变聪明,是工程在替模型还债。

5310

llm落地困境破局?工作流如何成为程序员的「场景化改造」利器

掘金安东尼

众所周知,大模型是通用模型,大小公司要么是卖模型的、要么是买模型的,大家发现在专业场景下,大模型处理还是乏力。

4410

解密Prompt系列70. 从 MLA 到 CSA,聊聊大模型 Attention 的“瘦身”与“闪送”

风雨中的小七

这一章我们聊聊这两年注意力架构的技术演化路线。全文覆盖三个方向,每个方向都是上一个方向的"接力棒":

37840

LLM-Wiki企业级AI知识库实战教程

用户12587183

技术栈:Obsidian · AI Agent 框架 · SQLite FTS5 · Python

34220

一个 LLM 是大脑,套上 Harness 才是工程师

HELLO程序员

GSK(中国) | 全栈架构师 (已认证)

让这颗大脑真正有用的东西,叫 Harness:套在 LLM 外面的运行时脚手架,给它装上感官、双手和记忆。事件接入、Agent 编排、持久化状态、自愈循环、可观...

13410
领券