暂无搜索历史
Offline IL = 在静态数据集上加约束(保守 Q / 隐变量 / 扩散),防止策略在数据集外的状态"乱猜",核心是"学分布、不学单点"。
IRL = 外层迭代反推 reward + 内层跑 RL 求状态分布,核心是"专家做对了的事 reward 高,做错了 reward 低",但内外双层循环导致...
GAIL = GAN(判别器学 reward)+ RL(PPO 更新策略),不需要显式 reward 函数,也不需要专家在线标注,但训练不稳定且计算成本高。
行为克隆(BC) 失败的根因: 训练时只见过专家的状态分布,测试时策略偏离专家轨迹后,进入从未见过的状态,错误逐帧累积,一发不可收拾。
行为克隆的本质是把模仿学习转化为监督学习问题,下面从"在做什么"和"怎么做"两个维度,结合工程实践详细展开。
模仿学习 (Imitation Learning, IL) 的核心是 从专家(人类/高水平策略)的演示数据中学习策略 ,绕过直接探索 reward 的难题。以...
粒子群算法是一种基于群体智能的随机优化技术,它通过模拟鸟群、鱼群等生物群体的社会行为来寻找最优解。下面从原理、步骤、优缺点和应用四个方面详细介绍。
蚁群算法(Ant Colony Optimization, ACO)是一种模拟真实蚂蚁觅食行为的群体智能算法。它巧妙地利用了蚂蚁在路径上留下的“信息素”作为间...
差分进化算法是一种基于群体差异的随机优化算法,由Storn和Price于1995年提出。它因结构简单、控制参数少、鲁棒性强而成为进化算法家族中的重要成员,尤其...
若需处理多目标,可考虑 NSGA-II(基于GA)、MOPSO(基于PSO)、DEMO(基于DE)、MOACO(基于ACO)等专用变体。
MOEA/D和NSGA-II都是多目标进化算法中的经典代表,但它们解决问题的思路截然不同。简单来说, NSGA-II是基于“支配关系”直接筛选好解,而MOEA...
基于Pareto支配的优化算法是多目标优化领域中最主流、最成熟的一类方法,核心思想很直观: 直接利用"帕累托支配"这个标准来比较解的优劣,通过保留"不被支配"...
帕累托解 就是多目标优化问题中那个“ 没有办法再好了 ”的状态,不像单目标问题只有一个最优答案,而是一个由多个“好”解组成的集合。下面我将从它的定义、核心思想...
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),它通过人类手把手教的方式,用强化学习...
RL是 Reinforcement Learning(强化学习) 的缩写,是机器学习三大范式之一(另外两个是监督学习和无监督学习),它的灵感来源于行为心理学: ...
深度学习是基础学习机制,简单来说,深度学习是机器学习的一个子集,通过构建包含多个处理层(即“深度”)的神经网络模型,来自动从海量数据中学习更抽象、更高层级的特征...
vLLM 是一个为大模型推理专门优化的高性能开源推理引擎,它的核心思路是采用一种 PagedAttention(分页注意力) 机制,将传统方法中不灵活的内存管理...
RAG 和 LoRA 是优化大模型的两种主流且互补的技术, LoRA 是给模型“大脑升级”的技能插件,RAG 是给模型“大脑联网”的外挂知识库, 分别从“模型...
INT指 低精度整型数据格式, 以INT8为例,它用8个比特(0和1)来存储一个数,有256种(即2的8次方)可能的取值。
模型尺寸(参数量)与显存需求之间,存在一个明确的量化关系,但远比“参数量越大,显存越大”要复杂。理解这种关系,是合理规划硬件、高效落地VLA项目的基础。
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址