首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

基于Sim-to-Real的通用人形机器人技术架构

用户11764306

仿真中的全身强化学习提供了GR00T N1.6使用并通过其高层VLA策略协调的低层运动智能。在Isaac Lab中使用强化学习训练的全身控制器生成类人的、动态稳...

700

Composer 2:基于强化学习的智能编程体训练

用户11764306

Composer 2 是一个前沿级别的模型,专门为智能软件工程而设计。它不仅仅是回答孤立的聊天查询,而是能够浏览整个代码仓库、运行 shell 命令、编辑文件,...

9910

蛋白语言模型能设计 AAV 吗?关键不在生成,而在如何兼顾可行性与新颖性

Tom2Code

今天来介绍一篇使用蛋白质语言模型设计AAV衣壳的文章:这篇论文开发了一种结合蛋白质语言模型和强化学习的生成式设计框架,旨在生成兼具高度序列新颖性与功能活性的新型...

11910

实验室十篇论文被ICLR 2026录用

Amusi

ICLR (International Conference on Learning Representations) 国际学习表征会议,是机器学习与深度学习领...

21510

面试官:SFT训练到什么程度,才值得做RL?

烟雨平生

这个问题挺有意思。因为这个问题看似简单,但要答好其实得把整个对齐流程的底层逻辑理清楚。

15710

Nat. Commun. | ClickGen:基于模块化反应与强化学习的可合成化学空间定向探索

DrugIntel

核心设计哲学:通过inpainting技术解决合成可行性与新颖性之间的固有矛盾——反应组合器保障合成可行,inpainting模型赋予骨架跳跃能力,强化学习引导...

8910

BioReason-Pro:首个蛋白质功能推理大模型,注释质量超越 UniProt 人工审编

DrugOne

BioReason-Pro 整体架构与训练流程。模型整合 ESM3 蛋白质嵌入、GO 图编码器和生物学上下文信息,在 GPT-5 生成的合成推理轨迹上进行监督微...

11110

大模型是迷失方向?强化学习之父 Rich Sutton 提出最新 OaK 架构,通往超级智能的新宏图

不二小段

作为强化学习之父、图灵奖得主,Sutton 在 RLC 2025 的讲台上,再次抛出了一套宏大的构想,直指 AI 的终极问题——超级智能如何从经验中涌现?

8610

Kimi 深度研究一手实测,横评对决 ChatGPT、Gemini Deep Research

不二小段

拿到 Kimi Researcher 的内测资格一周多了,高强度测了很多 case。

44810

强化学习之父与 AlphaGo 之父联手研究:AI 正告别「人类数据时代」,奔向「经验时代」

不二小段

《欢迎来到经验时代》也许是今年 AI 领域最重要的关于训练数据的纲领性檄文。两位重量级作者,一位是图灵奖得主、现代强化学习的奠基人之一、被誉为「强化学习教父」的...

10910

解析最新开源的 AReaL-boba² 框架:异步强化学习在大型推理模型训练中的应用

不二小段

自 OpenAI 推出 o1 模型以来,推理已经逐渐成为了大语言模型的必备能力。在推理能力背后,强化学习(RL)扮演着越来越重要的角色,但也对训练系统提出了新的...

16010

InternVL3.5-开源多模态视觉大模型王者

OpenCV学堂

它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉...

15910

InternVL3.5 - 开源多模态视觉大模型王者

OpenCV学堂

它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉...

18310

通过强化学习赋能OpenClaw!OpenClaw-RL王炸登场:边聊天边把“全能Agent”给训练了

AI生成未来

当前所有部署的 AI 智能体都在不断产生交互数据(动作 后的下一状态 ),但现有的智能体强化学习系统却将这些数据白白丢弃,或仅用作下一轮预测的上下文。这导致了...

21610

RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略

deephub

它不依赖固定的手工检索流水线或静态指令,而是学到一套策略:推理过程中的特殊 Token 可以触发检索动作。每一步,模型生成一个动作 Token——继续内部推理、...

15510

没产品没收入,投资人又给了 10 亿美金

数据微光

π*0.6(2025.11):给 π0 加了强化学习。以前模型只会模仿人类示范,现在能自己练习、自己进步。核心成果:任务完成效率翻倍。

11300

具身智能的 OpenAI,可能已经出现了

数据微光

博士期间,他听了谢尔盖·莱文(Sergey Levine)关于深度学习的演讲,当场决定换方向。从传统控制转向深度强化学习,相当于推翻自己之前所有的研究积累重新来...

17600

斯坦福引爆AI革命:Claude学会自己搞科研,写代码、跑实验、还能进化!

天意生信云

当AI不仅能提出想法,还能亲手把想法变成现实,并从失败中学习进化,科研的范式正在被悄然改写。

23810

强化学习算法解析:XGBoost(eXtreme Gradient Boosting) 算法原理、Kaggle 冠军首选、全手动计算全解释

jack.yang

关键词:机器学习、XGBoost算法、极致梯度提升、正则化GBDT、二阶泰勒展开、Python XGBoost、Java XGBoost4J、Kaggle冠军算...

72510
领券