搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

AGI-Eval 评测框架开源，让每个人都能轻松开启评测
AGI-Eval 评测框架作为 AGI-Eval 评测社区生态的主要组成部分，肩负模型评测核心任务。 AGI-Eval 功能前瞻如果你是模型评测者无需开发，只要三步，完成评测。为了提升对推理结果打分的准确性，AGI-Eval专门微调了用于唯一答案类数据集的打分模型AGI-Eval-OA-Judge。 AGI-Eval 新功能展望AGI-Eval的目标是提供大模型评测的一站式服务，未来我们会进一步实现评测框架和评测社区的评测任务的统一管理，主要包括：一键评测：未来将支持通过框架一键发起对评测社区所支持的评测数据集的评测 AGI-Eval 的开源只是一个开始，评测的未来需要我们共同定义。如果你对我们的工作感兴趣，欢迎加入评测社区！一同使用、贡献和完善 AGI-Eval 评测框架。
42110编辑于 2025-11-25
AGI-Eval 2025年度报告精选 | 以数据为尺，度量智能边界
感谢这一路上，每一位关注者对 AGI-Eval 的信任与支持。今年，AGI-Eval 作为独立的第三方评测机构，在持续的追踪与探索中，产出了大量严谨、客观、深度的评测报告。 AGI-Eval 为您在文末备有一份薄礼，期待您的深度思考与参与。2026，期待继续与您一同求索！ 01 | 第一手实测GPT-4o文生图能力！最权威报告输出发布日期：2025年3月27日评测核心：3月，在 GPT-4o 发布并升级图像生成能力后，AGI-Eval 立即启动了专项评测。（阅读原文） 10 | AGI-Eval 评测框架开源，让每个人都能轻松开启评测发布日期：2025年11月20日评测核心：11月，AGI-Eval迈出了推动行业透明化的关键一步——正式开源内部评测框架欢迎在评论区留下您的真知灼见，我们将会选择留言最深刻、最专业的 10 位朋友为每人送上一份 AGI-Eval 专属礼品。
81710编辑于 2025-12-31
学霸o1打不过人气王Yi-Lightning？揭秘竞技场逆序之谜
本文旨在深入探讨以 Chatbot Arena 平台为代表的真实用户偏好导向型评估，与以 AGI-Eval 专业指标评估体系（下称 AGI-Eval 专业评测）、OpenCompass 等为代表的主观指标化专业评测针对此问题，AGI-Eval 在继承 Chatbot Arena 双盲随机评测范式基础上，创新性提出了“动态分离式追问机制”。 △AGI-Eval 支持动态分离式追问机制，即在首轮对话之后，与两个模型分别对话。尽管 AGI-Eval 在评估方法上进行了诸多优化，但上述“榜单逆序”现象依然存在。 AGI-Eval 针对以 Chatbot Arena 平台为代表的真实用户偏好导向型评估，与以 AGI-Eval 专业指标评估体系（下面简称 AGI-Eval 专业评测）、OpenCompass 等为代表的主观指标化专业评测 AGI-Eval 专业评测数据： “准确性”权重显著提升（约 28%），“信息量”权重则大幅下降（约 6%）。
37800编辑于 2025-07-02
OpenAI o1不太行？国产模型 PK OpenAI o1，高难度数学和算法竞赛能力究竟谁更胜一筹？
为了更准确地评价这些模型的能力，特别是它们在处理复杂推理问题时的表现，国内以上海交通大学、同济大学等高校为主导的AGI-Eval组织了一系列严格而系统的评测活动。，时长00:232算法竞赛题推理能力评测， o1 系列依然领跑除了数学竞赛之外，AGI-Eval还针对编程能力进行了专项评测。 3下一步计划：人机协作评测新模式探索及高质量评测社区建设鉴于传统评测方式难以充分反映模型的真实水平，AGI-Eval创新性地提出了人机协作评测模式。 AGI-Eval 平台基于真实数据回流、能力项拆解等方式，自建万量级私有数据，并经过多次质检保证准确率。黑盒100%私有化数据，可保证评测数据不可“穿越”。 AGI-Eval 社区会设计更加具有难度、区分度的问题，更新榜单、给出答案。
53010编辑于 2025-03-21
AGI-Eval托管UGMathBench：数学推理评估从「浅层解题」迈向「深层理解」
论文地址：https://arxiv.org/pdf/2501.13766该基准测试已经与 AGI-Eval 大模型评测社区达成合作，可至社区查看 UGMathBench 的所有子集！
44200编辑于 2025-06-10
全球实时语音交互AI产品大比拼!阶跃AI和豆包问鼎,超越GPT-4o！
AGI-Eval 评测社区为此推出实时语音交互 AI 产品榜单！点击播放真实对话案例学习提升-豆包,AGI-Eval大模型评测,3分钟文小言效果分析：对话不自然流畅，存在较多问题。点击播放真实对话案例Qwen2.5-omni,AGI-Eval大模型评测,3分钟对话背景：说话人表示工作繁忙，想要询问快速制作三菜一汤的方式。总结本次 AGI-Eval 评测社区对八大主流实时语音交互 AI 产品的深入评估，不仅清晰地揭示了当前语音 AI 发展的最新格局，更预示着未来技术演进的方向。 — 完 —一键关注点亮AGI-Eval 前沿进展随时看AGI-Eval大模型评测AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正
2.6K10编辑于 2025-06-25
【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测，通用及推理模型实现领跑，多模态位于第三梯队
AGI-Eval 官方新鲜出炉的 DeepSeek能力评测报告首发！三大类型，多个新模型能力评测榜单直出。目录1. Deepseek新模型概览&整体结论2. 的知名度突破圈层，大家都在进行操作尝试，不同媒介和平台都在关注，但是具体 DeepSeek 的模型能力的水位线在何处，与其他头部厂商以及 OpenAI 的能力差异如何，这个信息还没有公开权威的披露，此次 AGI-Eval 中文数据集：CMMLU-Math、CEval-Math、MathGLM、GaoKao英文数据集：MMLU-Math、GSM8K、MATH私有数据集主要分为四个部分，其中 Math Pro Bench 可跳转 AGI-Eval 注：上标*的评测集为私有评测集3.3 学科知识和推理此次评测的数据推理测试集主要包括以下 4 个部分，其中 MDK Bench 可跳转 AGI-Eval 官方平台的评测集处查看 https://agi-eval.cn 未公开测试集答案，AGI-EVAL大模型评测社区通过合作获取到了全部测试集的答案MMLU：高中及大学学科公开评测集，包括人文社科、STEM等共57个学科GPQA-Diamond：研究生学科公开评测集，包括物理
2K10编辑于 2025-03-17
Gemini 3 Pro登顶AMO-Bench：大模型数学推理正迈向高效率新阶段
论文地址：https://arxiv.org/pdf/2510.26768AMO-Bench 的评测榜单未来将由 AGI-Eval 评测社区长期维护更新，欢迎持续关注。榜单和论文地址如下：微信小程序：AGI-Eval模型评测AMO-Bench 的评测榜单将保持更新，欢迎持续关注：项目主页：http://amo-bench.github.io/Github地址：https 随着 Test-time Scaling 等技术的持续演进，AGI-Eval 评测社区期待这一基准能持续推动大模型从“做题”向真正的“思考”跨越，为通用人工智能时代的到来贡献力量。以上就是本次解读的全部内容，更多前沿大模型评测与技术解读，请持续关注 AGI-Eval 评测社区。
75210编辑于 2025-12-02
评测基准ScholarSearch为你揭秘 | AGI-Eval 独家托管
△模型准确率该榜单已同步至 AGI-Eval 评测社区，进入小程序即可查看完整内容。微信小程序：AGI-Eval模型评测huggingface:https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch论文链接:https://arxiv.org
79710编辑于 2025-09-03
【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用
上述评测集已在AGI-Eval社区平台上线，可跳转链接（https://agi-eval.cn/evaluation/CapaBench）查看。
65110编辑于 2025-02-28
全球文生图AI模型格局生变！Seedream 4.0问鼎，深度解读其三大核心突破
在 AGI-Eval 社区最新的文生图模型评测中，字节跳动新一代模型 Seedream 4.0以显著优势强势登顶。该榜单已同步更新至 AGI-Eval 评测社区，进入小程序，点击评测榜单，即可查看各模型完整细分指标。微信小程序：AGI-Eval模型评测01. 评测框架与方法论为了对 Seedream 4.0 的性能进行量化与质化评估，AGI-Eval 采用人工评测、自动评测两种形式，共有 1900 条数据集：自动评测包含人像生成 / 人物动物属性生成 / 实体生成 AGI-Eval：洞察与前沿Seedream 4.0 所体现的技术进步，不仅是其自身的亮点，更揭示了生成式模型发展的宏观趋势，并指向了通往更强通用人工智能的关键前沿。以上就是本次评测的全部内容，AGI-Eval 评测社区将持续追踪这场通往更强AI的演进之旅，关注我们，后续将带来更多模型的深度剖析，敬请期待！点击“阅读原文”可跳转至官网玩耍~
1.7K10编辑于 2025-10-14
GPT-5夺冠，国产AI未进前三| AGI-Eval 8月榜单更新
AGI-Eval 社区重磅发布 8 月全球大模型评测榜单！其中 GPT-5-Thinking 以绝对优势登顶，其综合性能全面领先。该榜单已同步更新至 AGI-Eval 评测社区，进入小程序即可查看各模型完整细分指标。 AGI-Eval 评测社区对 GPT-5-Thinking 进行了多维度测试，下滑查看！为此，AGI-Eval 评测社区在数学能力评估中，细分了不同难度层级的赛道，以全面考察模型的真实水平。 AGI-Eval 作为专业的大模型评测社区，将持续跟踪顶尖模型的技术演进，通过客观、深入的实测，为行业发展提供有价值的参考与洞察。欢迎关注 AGI-Eval，获取更多前沿评测报告。— 完 —
17.8K30编辑于 2025-08-21
【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测！最全报告输出
关注我们，第一时间获取最新模型评测分析~02 DeepSeek V3-0324 评测分析2.1 核心结论DeepSeek V3-0324 的具体实力如何，AGI-Eval 大模型评测社区第一时间做了模型评测 2.2 通用评测结果DeepSeek V3-0324 更新后，在AGI-Eval自建的通用能力评测集，综合能力水位从Claude-3.5提升至Claude-3.7，各能力普遍有提升，其中推理能力提升最明显 04 DeepSeek 未来发布计划也期待未来DeepSeek的模型发布，不知道会给大家带来什么样的新的颠覆和创新，我们AGI-Eval大模型评测社区也会持续关注现在大模型行业的发展，持续探寻AGI的发展之路
1.3K10编辑于 2025-03-26
| AGI-Eval托管MMWorld Bench
论文地址：https://arxiv.org/abs/2406.08407该基准测试已经与 AGI-Eval 大模型评测社区达成合作，可至社区查看 MMWorld Bench 的所有子集！ id=66微信小程序：AGI-Eval模型评测01. 为什么需要 MMWorld Bench人工智能正从 “感知世界” 迈向 “理解世界”。
61100编辑于 2025-08-15
【AGI-Eval评测报告】混元图像2.0模型开箱评测，模型实测效果大放送！
2.1 评测核心结论AGI-Eval 大模型评测社区第一时间做了模型评测，评测结论如下：腾讯混元图像 2.0 模型在实时生成速度和交互模式上实现了一定突破，尤其适合快速获取基础视觉素材或日常娱乐图像。
1.1K10编辑于 2025-05-23
全球首个语音合成图灵测试重磅发布！揭秘AI能否用语音骗过人类？
该榜单已同步更新至 AGI-Eval 评测社区，进入小程序即可查看完整内容。 MiniMax 音频：case1,AGI-Eval大模型评测,14秒△ 案例评测时间为2025年4月，下同真人评价：数字转录规则错误。 MiniMax 音频：case3,AGI-Eval大模型评测,18秒真人评价：副语言合成缺陷。模型对非言语声音的处理能力严重不足。 MiniMax 音频： case5,AGI-Eval大模型评测,26秒真人评价：韵律切分错误。 AGI-Eval 评测社区将持续致力于高质量评估研究，推动大模型指令遵循能力向更广阔的未来发展。关注我们，检索更多评测内容！— 完 —
1.7K10编辑于 2025-08-27
【AGI-Eval行业干货 NO.2】DeepSeek使用必看指南，隐藏1000个提示词参考（建议收藏）
昨天，一款热搜词条#博主卖 DeepSeek 相关课程 1 天收入 50000 元#引起热议。看了热搜描述的课程内容，我感觉最近各路媒体发的公众号干货内容不得赚它个10万8万的，真不至于花钱，今天免费给大家提供一些玩法和思路，不花钱的干货才是最香的。
83610编辑于 2025-02-19
【AGI-Eval学习干货 NO.2】DeepSeek小白必看指南，隐藏1000个提示词参考（建议收藏）
这个热搜#博主卖 DeepSeek 相关课程 1 天收入 50000#，我看到之后感觉得做一期干货内容，DeepSeek 的玩法现在都在摸索阶段，和大家一起学习探索。
1.3K10编辑于 2025-03-14
【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”？一手实测“看看实力”
看了这么多官方的实测，AGI-Eval 大模型评测团队也忍不住测一测看看 Gemini 2.5 pro 的各项能力表现如何？
1.3K20编辑于 2025-04-02
【AGI-Eval行业动态】OpenAI 语音模型三连发，AI 语音进入“声优”时代
美东时间 3 月 20 日，OpenAI 发布了三款全新语音模型，分别是自动语音识别模型（ASR） GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe，以及语音合成模型（TTS） GPT - 4o Mini TTS。
1.6K10编辑于 2025-04-08

第 2 页第 3 页第 4 页

点击加载更多

AGI-Eval 评测框架开源，让每个人都能轻松开启评测

AGI-Eval 2025年度报告精选 | 以数据为尺，度量智能边界

学霸o1打不过人气王Yi-Lightning？揭秘竞技场逆序之谜

OpenAI o1不太行？国产模型 PK OpenAI o1，高难度数学和算法竞赛能力究竟谁更胜一筹？

AGI-Eval托管UGMathBench：数学推理评估从「浅层解题」迈向「深层理解」

全球实时语音交互AI产品大比拼!阶跃AI和豆包问鼎,超越GPT-4o！

【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测，通用及推理模型实现领跑，多模态位于第三梯队

Gemini 3 Pro登顶AMO-Bench：大模型数学推理正迈向高效率新阶段

评测基准ScholarSearch为你揭秘 | AGI-Eval 独家托管

【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用

全球文生图AI模型格局生变！Seedream 4.0问鼎，深度解读其三大核心突破

GPT-5夺冠，国产AI未进前三| AGI-Eval 8月榜单更新

【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测！最全报告输出

| AGI-Eval托管MMWorld Bench

【AGI-Eval评测报告】混元图像2.0模型开箱评测，模型实测效果大放送！

全球首个语音合成图灵测试重磅发布！揭秘AI能否用语音骗过人类？

【AGI-Eval行业干货 NO.2】DeepSeek使用必看指南，隐藏1000个提示词参考（建议收藏）

【AGI-Eval学习干货 NO.2】DeepSeek小白必看指南，隐藏1000个提示词参考（建议收藏）

【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”？一手实测“看看实力”

【AGI-Eval行业动态】OpenAI 语音模型三连发，AI 语音进入“声优”时代

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐