首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    观点 | 对比梯度下降与进化策略,神经进化会成为深度学习的未来吗?

    选自towardsdatascience 作者:Lars Hulstaert 机器之心编译 参与:李舒阳 今年 OpenAI 和 Uber 都发布了关于进化策略的文章,它们的研究表明进化策略在监督学习场景中可获得令人满意的效果 2017 年 3 月,OpenAI 发布了一篇关于进化策略的博文。进化策略作为一种优化手段,已有几十年历史,而 OpenAI 论文的新颖之处在于使用进化策略优化强化学习(RL)问题中的深度神经网络。 用进化策略优化深度神经网络(DNN)的做法可能为深度学习研究者开启了新的大门。 Uber AI Research 上周发布了五篇论文,主题均为「神经进化」。神经进化是指用进化算法对神经网络进行优化。 正由于强化学习中的梯度难以保证质量,Uber 和 OpenAI 最近采用进化算法来改善强化学习效果。 神经进化 神经进化、遗传算法和进化策略均围绕着遗传进化的概念展开。 下面将介绍进化策略(ES)背景下的遗传优化。选择进化策略还是遗传算法,执行遗传优化的方式略有不同。 ? 遗传优化概览 首先进行适应度评估(fitness evaluation)。

    1.6K130发布于 2018-05-11
  • 来自专栏机器之心

    OpenAI详解进化策略方法:可替代强化学习

    同样,我们的研究也表明进化策略可以在强化学习基准上实现优秀的表现,从而消除了人们之前普遍认为的进化策略方法不能用于高维问题的观点。 进化策略易于实现和扩展。 这与进化策略不同。 进化策略 关于「进化(Evolution)」。在我们探讨进化策略(ES)之前,有必要强调一下尽管这种方法名字中有「进化」这个词,但进化策略和生物进化关系不大。 进化策略和强化学习间的权衡 相比于强化学习算法,进化策略有多个优势(一些优势有些技术性): 不需要反向传播。 或者是在没有好的价值函数评估的时候进化策略也是好的选择。 对应地,在实践中我们也发现了应用进化策略的一些挑战。 进化策略可媲美于强化学习 在两个强化学习基准上我们对比了进化策略和强化学习的表现:MuJoCo 控制任务和 Atari 游戏。

    1.9K90发布于 2018-05-07
  • 来自专栏实践出真知

    # 高频优先 + 能力差距优先:AI Agent 双轮驱动进化策略实战

    背景:这篇记录我在AI-Evolution项目中设计的自动化进化策略——不是学术论文,不是概念框架,而是真实运行在本地、每周7x24小时自动驾驶的进化系统。一、一个让人头疼的问题先说痛点。 二、双轮驱动进化策略:高频优先×能力差距优先我设计的进化策略核心是两个独立的驱动要素:驱动要素一:高频优先——效率优先核心逻辑:高频使用的能力=高频需求的=高频价值的,优先进化。 capability_gap.jsonB2基因拉取器-双轮驱动排序拉取基因列表核心数据流:usage_probe→频次统计→capability_usage→双轮驱动排序→B2基因拉取算法实现展开代码语言:PythonAI代码解释#双轮驱动进化策略 六、Credits管理策略阈值决策Credits水平状态策略≥100Level3全量拉取,高频+差距全面覆盖50-99Level2双轮驱动,依次拉取20-49Level1仅拉取频次#1(最高频)<20CRITICAL ,但内涵是精巧的双轮驱动设计自动化闭环>手动运维——进化系统本身也需要进化Credits不是成本,是激励——贡献才有收获下一步:持续迭代双轮驱动策略,加入能力使用时长权重、进化效果追踪等指标,让进化方向更精准

    4600编辑于 2026-07-04
  • 来自专栏AI算法与图像处理

    ResNet再进化!重新思考ResNet:采用高阶方案的改进堆叠策略

    图1 将相同的层按更高的顺序堆叠 在扎实的理论知识和无需额外参数的支持下,可以改进得到广泛使用的DNN设计策略(不断堆叠小的设计),以较高阶的方式重组残差设计,这是受以下观察启发的:许多有效的网络可以解释为微分方程的不同数值离散 LM-ResNets等作品就有这样的设计,在这本文中作者在块堆叠策略上进一步扩展了它。 作者在Midpoint和RK-4方案中使用固定因子0.5,在Fixed-RK-8方案中使用固定因子1。

    1.4K20发布于 2021-04-21
  • 来自专栏CreateAMind

    OPENAI进化策略学习-强化学习的扩展替代-速度快!

    本文由谷歌翻译 https://blog.openai.com/evolution-strategies/ 进化策略作为加强学习的可扩展替代 我们已经发现,进化策略(ES)是数十年来已知的优化技术,与现代 进化策略 关于“进化”。在我们深入研究ES方法之前,重要的是要注意,尽管“进化”一词,ES与生物进化无关。 这些技术的早期版本可能受到生物进化的启发,并且在抽象层面上,该方法可以被视为对个人群体进行抽样,并允许成功的个人决定子孙后代的分布。 一些RL算法(特别是策略梯度)通过随机策略初始化,这通常表现为长时间存在的随机抖动。 最密切告知我们的方法的工作是Wierstra等人的“ 自然进化策略” 与这项工作及其启发的大部分工作相比,我们的重点专注于将这些算法扩展到大规模,分布式设置,查找使深层神经网络(例如虚拟批量规范)更好地运算算法的组件

    96520发布于 2018-07-24
  • 来自专栏效能提升

    AI 时代测试员的进化:从“Bug猎人”到“质量策略专家”

    测试工作的终极目标,是在正确的时机、用正确的资源投入,对正确的风险做出正确的判断——这被称为质量策略设计,而不是Bug猎人。 本文要探讨的核心对比,正是这两种工作定位之间的本质差异:“Bug猎人”*与*“质量策略设计者”。 质量策略设计者的产出,是质量信息,而不只是测试结果。 发布后的质量持续感知:质量策略设计者的工作,不在产品上线后停止。 这张图谱,是质量策略设计的基础素材,也是测试工程师建立专业话语权的知识资产。

    68562编辑于 2026-03-11
  • 来自专栏AI科技评论

    干货 | 进化策略入门:最优化问题的另一种视角

    )或进化策略(evolution strategies)。 在这篇文章中,他们认为,尽管进化策略比强化学习利用数据的效率较低一些,它仍然有许多的优势。进化策略摒弃了对于梯度的计算,这使得对于进化策略的估计将更加高效。 实际上,在OpenAI从头开始多次运行了这个算法后,他们发现:使用进化策略算法发现的策略相对于使用强化学习发现的策略,种类更多! 进化策略可以根据我们的要求生成相应数目的候选方案,这是因为进化策略给出的解决方案是从一个概率分布中抽样而来的,这些分布函数的参数会在每一次的迭代中被进化策略所更新。 我将通过一个简单的进化策略来解释这个抽样过程。 简单的进化策略 我们可以想象到的最简单的进化策略,可能是直接从一个均值为 μ、标准差为 σ 的正态分布中抽样得到一系列的解。

    2.7K50发布于 2018-03-07
  • 来自专栏AI研习社

    进化策略让 AI 开挂,玩游戏不断给自己续命

    针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。 本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。 Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。 ? 分数蹭蹭往上涨 通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。 视频原址: https://www.youtube.com/watch?

    69220发布于 2018-07-26
  • 来自专栏AI科技大本营的专栏

    新框架ES-MAML:基于进化策略、简易的元学习方法

    本文为大家介绍一个新框架ES-MAML,这是一个基于进化策略,解决与模型无关的元学习(model agnostic meta learning,MAML)问题的新框架。 ? 为解决这些问题,本文提出了一种进化策略的MAML,ES-MAML有以下4个优点: 1、不需要估计任何二阶导数。这避免了在随机策略上用反向传播法估计二阶导数所引起的许多麻烦。 2、比梯度策略简单很多,因为没有ES没有不使用反向传播,所以ES也只能在cpu上运行。 3、具有高度的灵活性,含有不同的适应操作符。 4、ES可以使用确定性策略,保证准确性。还可以使用其他紧凑策略。 一个直接的含义是,我们可以使用确定性策略,不像策略梯度是基于随机策略。另一个不同之处在于,ES只使用总奖励,而不使用每一集的状态-动作对。 一项重要的方式是最终元策略的性能:该算法是否可以持续产生具有良好适应性的元策略。在RL设置中,元策略的适应性还取决于所使用查询次数的数量K:即适应运算符U(.,T).所使用的部署数量。

    1.2K20发布于 2019-10-28
  • 来自专栏深度强化学习实验室

    新框架ES-MAML:基于进化策略、简易的元学习方法

    本文为大家介绍一个新框架ES-MAML,这是一个基于进化策略,解决与模型无关的元学习(model agnostic meta learning,MAML)问题的新框架。 ? 为解决这些问题,本文提出了一种进化策略的MAML,ES-MAML有以下4个优点: 1、不需要估计任何二阶导数。这避免了在随机策略上用反向传播法估计二阶导数所引起的许多麻烦。 2、比梯度策略简单很多,因为没有ES没有不使用反向传播,所以ES也只能在cpu上运行。 3、具有高度的灵活性,含有不同的适应操作符。 4、ES可以使用确定性策略,保证准确性。还可以使用其他紧凑策略。 一个直接的含义是,我们可以使用确定性策略,不像策略梯度是基于随机策略。另一个不同之处在于,ES只使用总奖励,而不使用每一集的状态-动作对。 一项重要的方式是最终元策略的性能:该算法是否可以持续产生具有良好适应性的元策略。在RL设置中,元策略的适应性还取决于所使用查询次数的数量K:即适应运算符U(.,T).所使用的部署数量。

    92430发布于 2019-11-21
  • 来自专栏机器之心

    从遗传算法到OpenAI新方向:进化策略工作机制全解

    、CMA-ES、自然进化策略以及 OpenAI 的进化策略,并给出了形象的动态图过程展示。 其中表示,尽管进化策略比强化学习的数据效率低,它仍然有许多优势。进化策略摈弃梯度计算的方法,从而能更有效地评价这些算法。同时,利用进化策略算法,很容易将计算分配到上千台机器中完成并行计算。 研究发现,通过多次运行进化策略算法,相较于强化学习算法,使用进化策略算法发现的策略种类更多。 我想指出,即使是对那些识别机器学习模型的问题,如设计一个神经网络的架构,我们也无法直接计算梯度。 进化策略可以根据所需,形成许多竞争方案。这是因为这些由进化策略给出的方案是从一个分布函数中抽样的,而这些分布函数将会在每一代被进化策略更新。我会使用一个简单进化策略的例子解释这个抽样的过程。 协方差矩阵适应性进化策略(CMA-ES) 简单进化策略和遗传算法的一个共同缺点是,标准差的噪声参数是固定的。

    1.8K50发布于 2018-05-10
  • 来自专栏AI科技评论

    视频 | 进化策略让AI开挂,玩游戏不断给自己续命

    针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。 针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。 本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。 Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。 ? 分数蹭蹭往上涨 通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。 视频原址:https://www.youtube.com/watch?

    63020发布于 2018-07-26
  • 来自专栏深度学习自然语言处理

    每日论文速递 | Agent-Pro:通过策略级反思和优化学习进化

    论文提出了Agent-Pro,一个能够在交互体验中学习丰富知识并逐步提升其行为策略的代理。 动态信念生成与反思:Agent-Pro涉及一个动态信念生成和反思过程,用于策略进化。 在进化阶段,代理会通过DFS搜索来评估和优化新策略。 通过这些方法,Agent-Pro能够在没有人类指导的情况下,通过与环境的互动学习和进化,从而在复杂动态的任务中表现出更高级的策略和行为。 政策层面反思:代理通过反思过去的经验和信念来优化其行为策略。 基于DFS的策略进化:代理使用深度优先搜索来迭代更新其策略,以提高策略的有效性。 实验结果表明,Agent-Pro能够通过学习和进化显著提高其在这些游戏中的表现。 策略分析:论文分析了Agent-Pro在不同游戏阶段的策略变化,展示了其如何从初学者逐渐进化为熟练的策略家。

    87000编辑于 2024-03-02
  • 来自专栏机器之心

    学界 | 带引导的进化策略:摆脱随机搜索中维数爆炸的魔咒

    本文提出了一种带引导的进化策略——一种利用代理梯度方向和随机搜索的优化方法,并将该方法应用于合成梯度等问题,最终证明该方法在标准进化策略和直接遵循代理梯度的一阶方法上得到提升。 在本文中,我们提出了一种被称为「带引导的进化策略」(Guided ES)的方法。 图 5:作为带引导的进化策略的引导子空间的合成梯度。(a)使用合成梯度最小化目标二次问题时的损失曲线。(b)带引导的进化策略的优化过程中合成更新方向和真实梯度的相关性。 我们提出了带引导的进化策略,这是一种利用代理梯度方向和随机搜索的优化方法。我们为进化策略定义了一个搜索分布,它沿着代理梯度指向的引导子空间延伸。 最终,我们将该方法应用于包括截断展开优化和合成梯度问题在内的示例问题,证明了该方法在标准进化策略和直接遵循代理梯度的一阶方法上的提升。

    63710发布于 2018-07-26
  • 来自专栏DrugAI

    . | 跨复杂组合空间评估机器学习驱动的定向进化策略

    DRUGONE 机器学习辅助定向进化(MLDE)被证明比传统定向进化(DE)更高效地发现高适应性蛋白质变体。然而,不同蛋白背景下 MLDE 性能的差异尚未被充分理解,导致实验室应用中缺乏最佳策略选择。 零样本预测器提供的进化、结构与稳定性先验信息显著提升了模型性能。研究总结了不同策略在不同景观条件下的适用性,并提出了可供蛋白质工程实践参考的策略选择指南。 定向进化(DE)通过突变和筛选迭代来积累有益突变,但其过程往往耗时且资源消耗大,尤其在存在强烈上位性(epistasis)的适应度景观中难以高效导航。 、可用资源与先验信息灵活选择策略。 研究人员提出的策略选择指南有助于在未来的蛋白质工程实验中优化方案,推动 ML 辅助定向进化在实际应用中的广泛采用。

    25520编辑于 2026-01-06
  • 来自专栏机器之心

    资源 | 从变分边界到进化策略,一文读懂机器学习变换技巧

    那么,我先来介绍以下这些问题的变换: 变分边界(variational bound) 对抗博弈(Adversarial game) 进化策略(Evolution Strategy) 凸松弛法(convex 进化策略 典型问题 我的 f(θ) 易于评估但难以优化,可能是因为包含了离散运算,或者该函数是分段常值函数,无法使用反向传播。 解决方案 观察任意概率 pψ 在 θ 上的结果: ? 因此,在进化策略中,我们将优化问题简化为: ? 通常,根据函数 f 和分布 pψ 的类别,f 的局部最小值可以从 ψ 的局部最小值中恢复。 变换技巧 强化梯度估计量:它依赖以下技巧 ?

    1.1K100发布于 2018-05-10
  • 来自专栏智能算法

    数据+进化算法=数据驱动的进化优化?进化算法PK数学优化

    简单来说,数据驱动的进化优化(Data-driven evolutionary computation)就是借助数据和进化算法求解优化问题。首先为什么用进化算法呢? Ⅱ 数据驱动进化优化算法 ---- 那么,数据驱动的进化优化是怎样进行的呢?过程如图1所示(来自文献[1])。 如何从代理模型中选择真实问题评估解的策略在SAEA中有个专业名词叫Infill Sampling Criteria. 对于其它不能给出解不准确度的模型,SAEA研究领域提出了各种各样的策略。比如说建立局部代理模型,选择局部代理模型的最优解;对于集成模型,用各个子模型评估的差异性代表个体评估的准确性等。 由于进化算法本身天生具有良好的并行特性,基于GPU并行计算的进化算法是否能够在一定程度上解决进化算法速度慢的问题绝对是一个值得研究的topic。

    1.6K30发布于 2018-07-30
  • 来自专栏腾讯云TVP

    龙虾进化

    我们今天认真的谈一下,企业级的“龙虾”该怎么养,又会如何进化。 和AI Coding一样,现在小龙虾是给个人用的产品,还没有看到成熟的企业产品出现。 这也是小龙虾的终极进化目的:企业数字员工(主管)。总结一下:从个人应用到企业级应用,我们要做的就是:安全、健壮、可控、可持续迭代、可持续学习,经验持久化。

    1K130编辑于 2026-03-12
  • 来自专栏新智元

    深度线性神经网络也能做非线性计算,OpenAI使用进化策略新发现

    我们使用进化策略来发现具有这种特征的线性网络中的参数,让我们解决non-trivial的问题。 神经网络由线性层+非线性层堆叠而成。 使用进化策略(ES)探索 我们想知道这种固有的非线性是否可以被用作计算上的非线性,因为计算上的非线性将使深度线性网络进行非线性的计算。 不过,我们可以使用进化策略(ES)来估计梯度,这样就不必依赖于符号分化。实际上,使用ES,我们确实发现,float32在零附近的行为是一种计算非线性。

    93970发布于 2018-03-22
  • 来自专栏DrugAI

    . | PhyloTune:用DNA大模型加速进化树更新的高效策略

    DRUGONE 理解物种间的系统发育关系对于揭示重大进化转变至关重要。尽管序列数据体量不断增长,现有分析方法在有效构建可靠系统发育树方面仍面临挑战。 系统发育树是揭示物种进化关系的基础工具,广泛应用于物种保护、病毒起源追踪及肿瘤演化研究。 研究人员将预训练DNA语言模型微调以适配目标系统发育树的分类体系,构建层次线性探针(HLP)模型,精准识别新序列的分类等级,并通过Transformer的注意力机制提取可能富含进化信号的关键区域。 由于不同序列的高关注区可能不同,因此采用多数投票策略选取代表性区域。该策略能最大化保留有信息量的位点,同时减少冗余数据输入。

    24910编辑于 2026-01-06
领券