Langfuse 的在线评测核心是 LLM-as-Judge——也就是用一个大模型当裁判,来看你 Agent 的输出并打分。裁判自己也是个 LLM,所以你得先把...
这是一个基于 Andrej Karpathy 的 LLM Wiki 模式 构建的开源项目。
用vLLM部署推理模型,长序列推理时频繁爆显存。于是给服务加了KV缓存压缩策略,淘汰90%的非重要缓存token,重启后显存占用几乎没变,还是会在相近的序列长度...
从 Prompt 到 Loop,四个工程阶段每一步都在用更多 token 换更高可用性。这不是模型在变聪明,是工程在替模型还债。
众所周知,大模型是通用模型,大小公司要么是卖模型的、要么是买模型的,大家发现在专业场景下,大模型处理还是乏力。
这一章我们聊聊这两年注意力架构的技术演化路线。全文覆盖三个方向,每个方向都是上一个方向的"接力棒":
技术栈:Obsidian · AI Agent 框架 · SQLite FTS5 · Python
GSK(中国) | 全栈架构师 (已认证)
让这颗大脑真正有用的东西,叫 Harness:套在 LLM 外面的运行时脚手架,给它装上感官、双手和记忆。事件接入、Agent 编排、持久化状态、自愈循环、可观...
在人工智能发展史上,2026年被视为大语言模型(LLM)从“技术奇点”转向“产业奇点”的关键节点。这一转变的核心驱动力已不再仅仅是模型参数规模的线性扩张,而是围...
设想你和一个 AI 助手聊了三个月。某天你问它:「我朋友 Caroline 七月那会儿在忙什么来着?」
这个问题听起来既科幻又有点危险。它指向 AI 圈子里一个长期被搁置的概念——Recursive Self-Improvement(RSI,递归自我改进)。它由 ...
让我们先看看主流 Video LLM 的标准架构:一个 Vision Transformer 把视频逐帧编码成 token,对齐到 LLM 的 embeddin...
过去两年,让大模型"会思考"的主流路径是 Chain-of-Thought:模型在给答案前先把推理过程一段段地"说出来"。它有效,但也有清晰的代价——输出越长,...
那个高维空间,就是这两年"机制可解释性""激活引导""latent reasoning"都在围着转的 latent space。要真正看懂今天的 LLM,你必须...
Schema(行为约束层) —— 决定页面命名规则、新建时机、引用规范、矛盾处理方式。没有 Schema,LLM 只是写作者;有了 Schema,LLM 才是知...