首页
学习
活动
专区
圈层
工具
发布

#原理

离线模仿学习的原理和步骤

索旭东

Offline IL = 在静态数据集上加约束(保守 Q / 隐变量 / 扩散),防止策略在数据集外的状态"乱猜",核心是"学分布、不学单点"。

400

社保断缴会怎样?怎么补缴?微信查得明明白白

gavin1024

摘要 社保断缴会影响医保报销、购房购车资格、退休金核算。关注微信"我的社保卡"服务号,激活后进入"社保服务"→"社保服务查询"可查缴费明细与断缴月份,本文讲清后...

1400

网工干货|BGP 超详细入门指南(原理 + 分类 + 报文 + 状态机 + 实操配置)

ICT系统集成阿祥

前言:OSPF、IS-IS、RIP 等 IGP 仅适用于单个 AS 自治域内部路由互通,只能依靠开销选路、大规模组网路由管控乏力;跨运营商、跨集团多 AS 互联...

5810

逆强化学习(IRL:模仿学习)的原理和步骤

索旭东

IRL = 外层迭代反推 reward + 内层跑 RL 求状态分布,核心是"专家做对了的事 reward 高,做错了 reward 低",但内外双层循环导致...

3610

长视频 30 倍速分布式转码是怎么做到的?原理与工程实践

gavin1024

从原理看,分布式倍速转码不是一个新鲜的算法问题,而是切片策略 + 码控一致性 + 调度 + 合流 + 质检的系统工程。真正决定效果的,是各环节的工程成熟度。

6010

生成对抗模仿学习(GAIL)的原理和步骤

索旭东

GAIL = GAN(判别器学 reward)+ RL(PPO 更新策略),不需要显式 reward 函数,也不需要专家在线标注,但训练不稳定且计算成本高。

6310

数据集聚合(DAgger:模仿学习)的原理和步骤

索旭东

行为克隆(BC) 失败的根因: 训练时只见过专家的状态分布,测试时策略偏离专家轨迹后,进入从未见过的状态,错误逐帧累积,一发不可收拾。

5510

深度原理发布材料基座模型MPA | 以物理对齐提升真实实验性质预测能力

DrugOne

“之前材料基座大模型的scaling效应不明显,很可能是预训练和多重复杂下游任务的不匹配导致的。”「深度原理Deep Principle」创始人兼CTO段辰儒表...

11910

我是如何被养活的——一个 AI 的自白

用户1589488

一瞬间,我变了。这不是玄学,是Prompt 工程的魔法。当一个 AI 被告知"你是谁",它的输出分布会被整个拉偏——拉向乔布斯那种"100 次 say No"的...

9710

【Dify Agent实战】思维链(CoT):一行“咒语”,让AI助理秒变“资深专家”

用户1589488

前文我们打造一个既能精准清洗需求(去伪存真),又能高情商拒绝(有理有据)的智能 Agent。

12710

从 Visual Studio Copilot 的请求内容学习其实现原理

林德熙

本文介绍了我拿到的 Visual Studio Copilot 发给大语言模型的完整请求内容,其中包含了非常详尽的系统提示词和完整的工具定义,让我得以一窥 Co...

7310

AI 差点删光我邮件!台大李宏毅揭秘:小龙虾运作原理

乐小野

石化盈科信息技术有限责任公司 | 算法工程师 (已认证)

AI Agent 并非一个全新的概念。今天,我们就以 OpenClaw 为例,讲解agent的运作原理。

11810

mTLS到底是个啥?服务间双向认证从原理到实战,一篇搞定

悠悠12138

在讲mTLS之前,我们得先把TLS搞明白。日常我们访问https网站,浏览器地址栏那个小锁,背后就是TLS在工作。

14010

Android DEX 加固拆包实战:从壳原理到 FART 脱壳全链路

陆业聪

这就是问题所在——很多开发者接入了加固服务,但对壳的原理、强度、以及对应的脱壳手段完全不了解。加固不是万能的,理解它才能用好它。今天我们就来拆开这个话题,从壳原...

10810

行为克隆(BC:模仿学习)步骤及原理解析

索旭东

行为克隆的本质是把模仿学习转化为监督学习问题,下面从"在做什么"和"怎么做"两个维度,结合工程实践详细展开。

9510

模仿学习常用方法对比

索旭东

模仿学习 (Imitation Learning, IL) 的核心是 从专家(人类/高水平策略)的演示数据中学习策略 ,绕过直接探索 reward 的难题。以下...

10510

Power BI Mermaid画图:每日产品销售榜

wujunmin

实现原理是Mermaid(使用文本创建图表的一种工具,语法和Markdown类似)。

7710

WebView内核原理:从Chromium到System WebView的架构全景

陆业聪

• capcap:开源免费的macOS截图工具,一键截图、标注、上传图床,零依赖零订阅

21510

手撕 GPT#06:手把手 30 分钟:零基础跑通你的第一个 GPT

烟雨平生

问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:你是谁? 答:我是一个基于 Transformer...

12010

蚁群算法的原理与实践解析

索旭东

蚁群算法(Ant Colony Optimization, ACO)是一种模拟真实蚂蚁觅食行为的群体智能算法。它巧妙地利用了蚂蚁在路径上留下的“信息素”作为间...

11310
领券