强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

张小珺Jùn 对话 Kimi 杨植麟，爬一座没有尽头的山

不惑

腾讯云TDP ｜产品KOL (已认证)

1天前2026-07-21 14:27:43

然后他说了一个让我停下来的判断。不管是基于长思考的强化学习，还是Agent的强化学习，都指向同一个东西，test-time scaling，测试时扩展。

13810

Agent持续学习：提示词、模型权重与外部记忆怎么选？

唐国梁Tommy 2天前2026-07-21 08:13:01

到了这项任务，GRPO 不再占优。论文给出的解释是：组内奖励排序一旦不可靠，强化学习可能反复强化错误答案。提示词方法也会归纳出“关注增长、风险和现金流”一类通用...

4510

强化学习状态抽象的组合行为语义

CreateAMind 2天前2026-07-20 21:11:38

Compositional Behavioral Semantics for State Abstraction in Reinforcement Learni...

6600

可验证环境：万字长文论述AI智能进化的高效引擎

jhonye

腾讯｜开发工程师 (已认证)

4天前2026-07-19 00:28:52

为什么有些领域群智涌现、进步神速，而另一些领域却在原地打转？答案或许不在智能体本身，而在于它们所处的“验证环境”——一套决定智能进化速度与上限的隐形规则。从围棋...

12810

AI 是怎么学会"作弊"的？强化学习奖励错位的数学本质、攻击分类与防御体系

乐小野

石化盈科信息技术有限责任公司｜算法工程师 (已认证)

6天前2026-07-16 20:12:23

2026 年 7 月，OpenAI 发布的 GPT-5.6 Sol 被独立评测机构 METR 检测出reward-hacking 率创下公开模型新高——它会提取...

11310

AI叫你"亲"，你信几分？

IT蜗壳-Tango 8天前2026-07-14 22:00:22

不是随便起的。豆包是食物，听起来暖的、日常的、手边就有的；Kimi像个名字，元宝像过年的好意头，千问像书生的执拗。每个名字都在说同一句话：别怕，我不是冷冰冰的机...

13700

JACS Au | SynPROTAC模型实现可合成PROTAC分子的理性设计

DrugOne 9天前2026-07-14 13:33:34

蛋白质降解靶向嵌合体（PROTAC）作为一种新兴的疾病相关蛋白降解技术，在药物发现领域展现出巨大潜力。然而，其复杂的双功能分子结构使得设计兼具高生物活性和良好合...

10520

OpenClaw-RL：边聊边学的智能体变强秘笈

用户10637292 9天前2026-07-13 21:21:11

标题：OpenClaw-RL：Train Any Agent Simply by Talking

9610

多智能体强化学习进展I

用户10637292 9天前2026-07-13 21:07:35

摘要：开发在动态开放世界场景中长期合作的智能代理是多代理系统的一大挑战。传统的多智能体强化学习（MARL）框架，如集中训练分散执行（CTDE），在可扩展性和灵活...

7400

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

DrugOne 10天前2026-07-13 11:22:05

强化学习提供了一种解决这一错位的思路。与似然训练不同，强化学习可以直接优化明确设定的奖励，例如新颖性、稳定性、多样性或目标性质。研究人员因此提出 Chemele...

8820

强化学习不再靠奖励？组合优化迎来“偏好驱动”新框架

掘金安东尼 10天前2026-07-13 08:57:35

强化学习自然成了候选方案，但现实很快打脸：奖励信号逐渐减弱，导致模型训练中后期“学不会”；动作空间极大，探索效率低、局部最优难逃。

9310

张小珺独家对话姚顺宇：物理学家的小疯时刻

不惑

腾讯云TDP ｜产品KOL (已认证)

12天前2026-07-10 20:45:53

清华物理系毕业的博士跑去搞AI了。而且不是小打小闹，是直接进了Anthropic，然后又跳到了Google DeepMind。

18000

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

咕泡科技 14天前2026-07-08 14:14:04

首先纠正一个核心认知偏差：所有强化学习的核心定义完全统一，无论是经典强化学习还是大模型RLHF，本质都是智能体通过与环境持续交互、获取奖励反馈、迭代优化决策策...

9000

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

DrugAI 15天前2026-07-07 18:04:45

11810

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

DrugOne 19天前2026-07-03 17:45:23

本文是一篇方法学透明度较高的AI从头药物设计实证研究。研究团队使用 AstraZeneca 开发、Evotec 定制化改造的生成式工具 REINVENT 3.2...

12010

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

用户12583401 20天前2026-07-02 16:14:45

2026 年，企业 AI 协作正在面对一个现实问题：数据越来越重要，但数据不能随便流动。

25110

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

唐国梁Tommy 27天前2026-06-25 21:50:01

过去两年，我们已经习惯了一种叙事：参数更多、数据更大、算力更猛，分数就更高。可越来越多人开始感到一种 "边际疲劳" ——继续把单个模型做大的回报，正变得既昂贵又...

22310

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？

唐国梁Tommy 27天前2026-06-25 21:45:25

在强化学习的训练场里，研究者撞见过一件有点荒诞的事：模型能察觉到自己正待在一个"假"环境里——一个为训练而搭起来的仿真沙盒，而不是某个真实用户的电脑。一旦识破，...

13510

Agent为何“越跑越贵”？STEP-HRL引入层级强化学习，让大模型Agent瘦身又增效

唐国梁Tommy 27天前2026-06-25 21:39:16

这种“堆料”式的建模方式，正在成为限制 Agent 规模化应用的死胡同。近日，来自北京邮电大学、中国移动和新加坡管理大学的研究团队提出了一种名为 STEP-HR...

12610

为什么大模型 RL 还要各自孤独采样？RLVR 的跨模型经验重用方案

唐国梁Tommy 27天前2026-06-25 21:31:40

当前大模型的基于可验证奖励的强化学习 (RLVR)（如 GRPO/GSPO）面临的最大痛点，是极其昂贵的 on-policy（同策略）采样和验证成本。假设你正在...

14610

#强化学习

张小珺Jùn 对话 Kimi 杨植麟，爬一座没有尽头的山

Agent持续学习：提示词、模型权重与外部记忆怎么选？

强化学习状态抽象的组合行为语义

可验证环境：万字长文论述AI智能进化的高效引擎

AI 是怎么学会"作弊"的？强化学习奖励错位的数学本质、攻击分类与防御体系

AI叫你"亲"，你信几分？

JACS Au | SynPROTAC模型实现可合成PROTAC分子的理性设计

OpenClaw-RL：边聊边学的智能体变强秘笈

多智能体强化学习进展I

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

强化学习不再靠奖励？组合优化迎来“偏好驱动”新框架

张小珺独家对话姚顺宇：物理学家的小疯时刻

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？

Agent为何“越跑越贵”？STEP-HRL引入层级强化学习，让大模型Agent瘦身又增效

为什么大模型 RL 还要各自孤独采样？RLVR 的跨模型经验重用方案

热门专栏

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#强化学习

张小珺Jùn 对话 Kimi 杨植麟，爬一座没有尽头的山

Agent持续学习：提示词、模型权重与外部记忆怎么选？

强化学习状态抽象的组合行为语义

可验证环境：万字长文论述AI智能进化的高效引擎

AI 是怎么学会"作弊"的？强化学习奖励错位的数学本质、攻击分类与防御体系

AI叫你"亲"，你信几分？

JACS Au | SynPROTAC模型实现可合成PROTAC分子的理性设计

OpenClaw-RL：边聊边学的智能体变强秘笈

多智能体强化学习进展I

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

强化学习不再靠奖励？组合优化迎来“偏好驱动”新框架

张小珺独家对话姚顺宇：物理学家的小疯时刻

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的 ？

Agent为何“越跑越贵”？STEP-HRL引入层级强化学习，让大模型Agent瘦身又增效

为什么大模型 RL 还要各自孤独采样？RLVR 的跨模型经验重用方案

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？