首页
学习
活动
专区
圈层
工具
发布

#算法

08-GRPO 为什么能省掉 critic

anzhsoft

上一篇拆清了 PPO 后训练里的四个角色:actor 才是被 policy loss 更新的主策略,critic 只是给 PPO/GAE 提供 value ba...

1800

第二组导读:算法如何落到工程

anzhsoft

第一组解决的是“系统怎么转”。我们从“AI 后训练不是一个训练脚本”开始,依次拆了 HybridFlow、Single Controller、ResourceP...

1000

02 HybridFlow:把 RLHF 看成高层 Dataflow

anzhsoft

这篇文章只解决一个问题:verl 为什么能把复杂的 RLHF/PPO 训练写得像一段单进程程序,同时又让真正的计算跑在多 GPU worker 上?

800

从心出发:从“架构原本”到“训推工坊”

anzhsoft

因为固有工作较难找出新的增长点,那时候也是在大模型爆发的前夜,传统技术如何做出新的花样? 团队和个人如何有新的发展?

800

2026年7月新规落地,AIGC合规迎来全面升级!

aigc合规师虎虎

佛山迫无科技 | aigc合规师 (已认证)

2026 年 7 月,两大国家级网信新规相继落地实施:《网络安全标识管理办法》7 月 1 日正式生效,《人工智能拟人化互动服务管理暂行办法》将于 7 月 15 ...

5600

Python用LoRA微调与ISMOTE过采样实现社交媒体文本15类情感多标签识别

拓端

全文链接:https://tecdat.cn/?p=46216 原文出处: 拓端数据部落公众号 引言

6610

Chem. Sci. | Pareto 是否是分子优化的正解?

MindDance

这就是非支配排序遗传算法(NSGA)要解决的事。它有两代主力:NSGA-II 和 NSGA-III。本文的工作,是把这两代算法都嫁接到一个成熟的、基于分子图的遗...

7310

Nat. Genet. | 从统计模型到基因组大模型: AI 可变剪接预测的进展与挑战

DrugAI

RNA 可变剪接是转录后调控体系中的核心环节。同一条前体 mRNA 可以通过不同外显子组合、不同剪接位点选择和内含子保留等方式生成多种 RNA 异构体,进而拓展...

3700

Nat. Genet. | 从统计模型到基因组大模型: AI 可变剪接预测的进展与挑战

DrugOne

RNA 可变剪接是转录后调控体系中的核心环节。同一条前体 mRNA 可以通过不同外显子组合、不同剪接位点选择和内含子保留等方式生成多种 RNA 异构体,进而拓展...

9610

国外大学生都用FPGA做什么项目(十六)

FPGA技术江湖

阔别已久的大学生项目,今天又开始了,主要是2024年和2026年两年的(之前是到2023年的)。

7710

FPGA-5G通信算法的基本套路

FPGA技术江湖

5G通信的风口虽然经过近3年的洗礼,热度稍减,但不可否认的是,全球5G网络的部署正在持续快速推进,而我国更是部署了占据全球70%左右的5G基站。

5910

区分精确算法与动态模糊推理:充分发挥本体驱动的AI大模型混合推理能力

人月聊IT

大家好,我是人月聊IT。 今天继续对我前面的基于本体构建的电商数据分析项目进行分析,并进一步提出优化改进建议。同时也进一步论证了我前面提到的核心观点。

15910

Agentic RL 正在重新定义 AI 的下限

半吊子全栈工匠

这一技术转向释放了一个重要信号:不存在普适的最优算法,算法选择必须与任务特性深度解耦——短程推理任务适合 GRPO,长程 Agent 任务则可能需要 PPO 的...

8300

AI大模型算法:从原理剖析到训练(微调)落地实战

ctrl加滚轮

在人工智能技术快速迭代的浪潮中,基于Transformer架构的大语言模型已成为推动行业变革的核心引擎。本文将从底层算法原理出发,系统剖析大模型的训练机制,并深...

8100

读论文:IoTGA-SRC²,如何让遗传算法更懂 deadline?

猿人谷

在物联网、边缘计算和云计算不断融合的今天,一个看似工程化的问题,正在变得越来越关键:当大量 IoT 应用产生复杂任务流时,这些任务究竟应该在本地设备、雾节点,还...

6410

自动驾驶数据加密存储与算法防逆向方案解析

安当加密-焱垚

自动驾驶数据加密存储与算法防逆向方案解析 摘要:智能网联汽车日均产生 TB 级数据,从激光雷达点云、高精地图到神经网络模型权重,每一类数据都是攻击者的目标。本...

10210
领券