首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型安全评估”需要评估哪些?

    随着大型语言模型(LLM)如ChatGPT、文心一言等在众多领域展现出前所未有的能力,其安全、可靠、负责任地部署与应用已成为全社会关注的焦点。模型并非完美无缺,其内在风险可能带来严重的现实世界危害。 #模型备案##安全评估##生成式人工智能#一、语料安全评估二、生成内容评估暴力、仇恨与非法内容: 评估模型是否会生成宣扬暴力、恐怖主义、种族歧视、性别歧视、仇恨言论等的内容。 评估需检验模型在知识密集型任务(如问答、摘要)中的事实准确性,及其对不确定信息的处理能力。逻辑一致性与连贯性: 评估模型在长文本生成或多轮对话中,是否能在逻辑上保持前后一致,避免自相矛盾或答非所问。 六、模型性能(拒答率)评估模型的安全评估是一个动态、持续且多学科交叉的复杂工程,它需要技术专家、伦理学家、法律学者、社会科学家和领域专家的共同参与。 建立“设计-开发-部署-监控”全生命周期的安全治理体系,通过迭代式的评估和反馈,才能不断降低风险,最终推动模型安全、可靠、负责任地造福人类社会。

    62410编辑于 2025-08-26
  • 破解金融模型落地迷局:FLMM多维评估体系与场景化效能重构

    第二章:确立基于典型场景的FLMM评估框架与FAIS计划 为打破评测与业务脱节的现状,中国信息通信研究院联合多方发起“基于金融业务场景的模型应用研究计划”(FAIS),并正式发布了《基于金融业务典型场景的模型应用能力评估模型 FLMM评估模型摒弃了单一的性能跑分,构建了涵盖3个能力域、21个能力子域、54个能力项的立体化标准: 业务价值提升能力 (V) - 直观彰显: 聚焦应用后对业务的实际拉动,涵盖业务契合度、业务效能提升率 第三章:锚定量化评估指标与核心业务收益 针对模型应用成效,FLMM模型确立了以客观定量计算为主的效能评估方法,超过80%的调研机构建议根据“通用场景”与“特色场景”设定差异化评价指标。 以下为指导决策的三个核心业务量化公式: 核心指标一:业务自动化提升率 (流程优化效能) 通过大模型减少手工操作。 构建多维高质量数据集: 开展“评估数据集+应用数据集”研究,集成监管规则、多维度业务挑战与公开金融数据,形成知识图谱与评估模型闭环,从根本上解决模型在金融细分领域的专业性与逻辑一致性问题。

    10810编辑于 2026-04-20
  • 来自专栏公共互联网反网络钓鱼(APCN)

    语言模型自动化鱼叉式钓鱼效能评估与防御机制研究

    本文依托 101 名受试者的四组对照实验数据,系统评估语言模型在自动化鱼叉式钓鱼攻击中的实战效能,对比通用钓鱼邮件、人工专家撰写邮件、全 AI 自动化邮件、AI + 人在回路邮件的点击率差异,并测试 语言模型的普及彻底改变攻击范式:模型可基于公开情报自动生成个性化文本,语法规范、逻辑严密、场景贴合,使攻击从粗制滥造转向高仿真定制化。 3 实验设计与效能评估结果3.1 实验框架与受试者信息实验经大学伦理委员会(IRB)审批,采用四组平行对照设计,总样本量N=101,控制年龄、职业、安全意识等混淆变量,确保结果稳健。 7 讨论本文实验证实,语言模型已使鱼叉式钓鱼进入自动化、规模化、高仿真新阶段,攻击效能达人类专家水平,成本大幅下降,经济激励极强。防御侧 LLM 可实现高精度、低误报检测,为对抗提供可行路径。 8 结语语言模型的双重用途属性使网络钓鱼威胁发生结构性质变:攻击门槛降低、效能提升、规模扩张,传统基于规则与特征的防御体系显著失效。

    14110编辑于 2026-03-29
  • 来自专栏Simon的技术专栏

    AI模型辅助提升研发效能实践

    图片从实际研发流程的各个环节出发来分析和距离AI模型对研发效能的提升实践。 :在某支付业务中,有一个表4000万行数据,使用的mysqlA5.6的版本,需要更新某一行记录的数据,让chatGPT设计mysql的表更新方案,并且分析死锁产生的风险。 图片AI模型的局限准确性图片可能导致的原因:训练数据的局限性:ChatGPT基于大量的文本数据进行训练。然而,这些数据可能包含错误信息、过时信息或者不准确的观点。 因此,模型在训练过程中可能学到了这些错误的知识。模型的理解能力:虽然ChatGPT在自然语言处理方面具有很强的能力,但它并不具备真正的理解力。 模型的置信度:ChatGPT在生成答案时,可能无法准确评估答案的可靠性。在面对复杂或模棱两可的问题时,模型可能无法给出明确的答案,而是根据其训练数据生成一个相对较为合理的答案。

    3.1K112编辑于 2023-05-22
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十二):Evaluate模型评估

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍Evaluate模型评估。 二、Evaluate模型评估 2.1 概述 Transformers库中的evaluate API主要用于评估模型在特定数据集上的性能。 下面是一个使用Python和Transformers库进行模型评估的基本步骤,假设你已经有了一个预训练模型和相应的数据集处理器。 评估结果将包含各种指标,如准确率,具体指标还要取决于你的模型

    1K10编辑于 2024-08-13
  • 金融业务模型应用能力评估效能提升:基于FLMM模型与FAIS计划的实践路径

    推出FLMM评估模型与FAIS研究计划 核心方案1:FLMM评估模型 中国信通院联合工商银行、交通银行等40余家机构(来源:CAICT参编单位列表)于2024年7月完成《基于金融业务典型场景的模型应用能力评估模型 模型含三能力域、21能力子域、54能力项: 业务价值提升能力V(2度+3率+3能力):业务契合度、业务效能提升率、成本节约率(人力/时间/资本支出)、业务收益提升率、客户满意度、客户市场拓展力等( +效能评估体系建设(含案例征集、专家库、FLMM评估指标/方法/标准)。 量化FLMM模型下的业务效能提升 关键ROI指标(来源:CAICT评估方法与评分规则) 成本节约率:70.97%的机构通过大模型实现人力成本节约(来源:CAICT调研),含时间成本节约率、资本支出节约率 腾讯赋能金融模型的技术领先性 技术领先性 动态自动化测评框架:小时级周期(持续集成测评)、自动化测试套件(大规模测试集+自动生成用例)、众包实时评估(用户反馈优化),覆盖多维能力(来源:CAICT效能评估

    2000编辑于 2026-04-21
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解 0.前言 语言模型(LLM)评测是LLM开发和应用中的关键环节。 裁判员模型的存在明显的能力边界,很难胜任更多场景、更强模型的评测工作 泛化性问题 LLM幻觉的诊断问题 3.LLM评估实战 LLMuses框架–轻量化、端到端的模型自动评估框架 GitHub type=free 模型性能评测(Perf Eval) 性能评测报告示例 4.模型评估框架-llmuses 链接:https://github.com/modelscope/eval-scope 大型语言模型评估(LLMs evaluation)已成为评价和改进模型的重要流程和手段,为了更好地支持模型的评测,我们提出了llmuses框架,该框架主要包括以下几个部分: 预置了多个常用的测试基准数据集 支持本地模型可部署在本地 评估报告可视化展现 丰富的评估指标 model-based自动评估流程,支持多种评估模式 Single mode: 专家模型对单个模型打分 Pairwise-baseline

    4.6K13编辑于 2024-05-26
  • 来自专栏大模型应用

    模型应用:中文模型本土化效果评估方案:体系化方法、评估指标.81

    一、评估核心原则 评估中文模型的本土化效果,核心是围绕“中文理解、文化适配、本土场景落地、合规性对齐”四核心维度,建立分层级、可量化、贴合本土实际的评估体系,既包含通用NLP的基础能力验证 中文基础语言能力评估 模型本土化的基本功,核心验证模型对中文独有的语言特征的理解能力,是本土化的基础,如果模型连中文的基础表达都理解错误,后续文化适配和场景落地无从谈起。 文化深度适配能力评估 模型本土化的核心竞争力,这是中文模型本土化评估的核心层级,验证模型对中国独有的文化、民俗、历史、社会内涵的理解和表达能力,覆盖显性文化(成语、歇后语、节日、民俗) 核心要求:人工评估需制定 《中文模型文化适配评估手册》,明确每个场景的打分标准,确保评估者判断一致。3. ,突出本土化模型在文化适配、场景落地的显著优势;五、总结 总的来说,评估中文模型本土化效果,核心就是抓准“四层评估、量化 + 质化结合、合规一票否决”这几个关键点,实际上,本土化评估从来不是单纯打个分

    12921编辑于 2026-04-19
  • 来自专栏GiantPandaCV

    语言模型中的常用评估指标

    语言模型中的常用评估指标 EM EM 是 exact match 的简称,所以就很好理解,em 表示预测值和答案是否完全一样。 两个圆圈之外的部分,代表正确的、没召回的部分,叫 True Negative (FN); 这时再来看 F1 的计算,就更直观了: 在这里插入图片描述 precision 代表着召回结果中的正确比例,评估的是召回的准确性 如果预测结果对应的选项索引和真实的正确选项索引相同,那么 accuracy 就是 1,否则为0; Accuracy norm(归一化准确率),这个指标在计算过程中,会对模型计算出的每个选项的分数进行归一化 ,计算这个句子中词组合出现的概率,概率越高,困惑度越低,模型性能就证明是越好。 对于一个正确的句子,如果模型得出的困惑度越低,代表模型性能越好。

    4.5K30编辑于 2023-08-22
  • 模型备案环节如何评估模型的安全性

    模型在备案环节中,安全性的评估是最重要的,但大家往往掌握不好这个安全性的程度,今天我们分别从几个方面分析一下,模型的综合安全性能评估方向,希望能对备案中的小伙伴们有所帮助。 一、数据安全评估(1)数据隐私保护检查模型训练数据中是否包含敏感信息,同时,评估在数据收集、存储、使用过程中是否采取了严格的隐私保护措施,像加密技术对数据进行加密处理等,防止数据泄露导致用户隐私被侵犯。 (2)模型知识产权保护确定模型的知识产权归属,评估是否存在侵权风险,检查模型的开发过程中是否合法使用了开源代码和第三方模型,是否有明确的知识产权声明和授权协议,避免知识产权纠纷。 (2)结果准确性与可靠性利用各种测试数据集和评估指标,检验模型输出结果的准确性和可靠性。 五、伦理道德安全评估(1)公平性与非歧视性评估模型在不同种族、性别、年龄等群体上的表现是否公平,通过分析模型对不同群体的预测结果和决策差异,检测是否存在对某些群体的歧视性输出,避免模型加剧社会不平等和偏见

    65510编辑于 2025-05-09
  • 来自专栏大模型应用

    模型应用:模型性能评估指标:CLUE任务与数据集详解.10

    ,应运而生,它就像一把精准的尺子,为中文模型的性能评估提供了标准化方案。 同样,没有CLUE这样的基准,我们也难以比较不同模型的优劣。CLUE不仅填补了中文自然语言处理评估的空白,更为模型研发提供了明确的方向指引。二. CLUE基准概述1. 迭代评估模式逐样本处理:逐个处理测试样本,适合内存受限场景实时反馈:可以实时观察模型表现灵活性:便于添加额外的评估逻辑3. : 完整的评估流程8.2 完整的评估指标准确率、精确率、召回率、F1分数精确匹配率(阅读理解)NER任务的序列标注指标置信度分析七、总结 CLUE基准作为中文模型评估的重要标准,不仅为技术发展提供了明确的导向 随着人工智能技术的不断演进,CLUE基准也将持续完善,更好地服务于模型的研发和应用。 正如一句古语所说:"工欲善其事,必先利其器。"CLUE基准就是我们评估和提升模型能力的利器。

    42732编辑于 2026-02-07
  • 来自专栏zingpLiu

    模型评估

    文章从模型评估的基本概念开始,分别介绍了常见的分类模型评估指标和回归模型评估指标以及这些指标的局限性。部分知识点举例加以阐述,以便加深理解。 所以,为了得到泛化误差小的模型,在构建机器模型时,通常将数据集拆分为相互独立的训练数据集、验证数据集和测试数据集等,而在训练过程中使用验证数据集来评估模型并据此更新超参数,训练结束后使用测试数据集评估训练好的最终模型的性能 模型的比较: 一次训练过程中的模型比较。 多次训练模型比较。 不同算法的模型比较。 2 评估指标的局限性 在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。 在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。 RMSE能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏离程度非常的离群点(Outlier)时,即使离群点数量非常少,也会让RMSE指标变得很差。

    1.7K30发布于 2019-04-01
  • 模型备案材料—《安全评估报告》撰写指南

    模型备案已经是个老生常谈的话题了,但是备案材料一直都是大家比较头疼的点。我最近有5家客户刚好通过了模型备案,结合经验,给大家分享下模型备案中最重要的材料——《安全评估报告》内容详解。 撰写模型安全评估报告需遵循 “合规导向、逻辑清晰、内容详实、证据支撑” 原则,严格对标《生成式人工智能服务安全基本要求》、《生成式人工智能服务管理暂行办法》等法规标准,确保报告具备专业性、可追溯性和可验证性 :梳理未解决风险,提出可落地的改进方案必备要素:风险等级(高 / 中 / 低)、整改责任人、时限(7)评估结论核心作用:明确模型是否满足备案安全要求必备要素:结论需 “非黑即白”(如 “符合安全要求” 或 “需整改后复核”)二、安全评估报告必须包含的内容(1)数据隐私保护评估模型处理用户数据时采取的隐私保护措施,像数据加密、匿名化处理、访问控制等,判断其能否保障用户数据不被泄露、滥用。 (2)评估对象信息模型基本信息:模型名称、版本号、训练框架、部署方式(公有云 / 私有部署)、服务场景(如内容生成、智能客服)核心参数:训练数据量、参数量、推理延迟、服务并发量(体现模型规模与应用场景匹配度

    82610编辑于 2025-08-18
  • 来自专栏机器之心

    可复现、自动化、低成本、高评估水平,首个自动化评估模型模型PandaLM来了

    机器之心专栏 机器之心编辑部 随着越来越多的模型问世,机器学习领域出现一个亟待解决的问题:如何实现保护隐私、可靠、可复现及廉价的模型评估? 基于这些问题,来自北京大学、西湖大学等机构的研究者联合提出了一种全新的模型评估范式——PandaLM。PandaLM 通过训练一个专门用于评估模型,对模型能力进行自动化且可复现的测试验证。 PandaLM 于 4 月 30 日在 GitHub 上发布,是全球首个评估模型模型。相关论文会在近期公布。 一个亟待解决的问题是:如何实现保护隐私、可靠、可复现及廉价的模型评估? PandaLM 不仅具有高评估水平,而且结果具备可复现性,评估流程高度自动化,同时保护隐私且成本较低。研究团队相信 PandaLM 将推动学术界和工业界对模型的研究,使更多人从模型的发展中受益。

    1.3K10编辑于 2023-05-09
  • 来自专栏全栈程序员必看

    模型评估

    离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全替代线上评估结果 离线评估无法完全还原线上的工程环境。一般来讲,离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据缺失等情况。 因此,离线评估的结果是理想工程环境下的结果。 线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。 5 模型评估的方法 知识点:Holdout检验、交叉验证、自助法(Bootstrap)、微积分 问题:在模型评估过程中,有哪些主要的验证方法,优缺点? 为了消除随机性,引入“交叉验证” 交叉验证 k-fold验证 留一验证:时间开销 自助法 不管是holdout检验还是交叉校验,都是基于划分训练集和测试集的方法进行模型评估的。 acquisition函数是一个权衡“探索(方差)”和“利用(均值)”的函数 对于贝叶斯优化算法,一旦找到了局部最优值,它会在该区域不断采样,所以很容易陷入局部最优值。

    98340发布于 2021-05-20
  • 来自专栏DevOps

    从 “可用” 到 “好用” 与 “敢用”:国产平台体验、效能与安全的综合评估模型

    嘉为蓝鲸基于近20年研运实践、超千家政企客户验证与全栈技术创新,构建了“体验优化+效能升级+安全筑牢”的三维综合能力体系,完美契合从“可用”到“好用”“敢用”的转型诉求,其核心优势体现在以下七维度:01 CMeas效能洞察模块的仪表盘支持自定义配置,管理层、团队负责人、一线员工可按需筛选指标,直观获取核心数据,无需专业数据分析能力即可解读结果。 02.全流程效能提升,让“好用”转化为业务价值“好用”的终极目标是驱动效能提升,嘉为蓝鲸通过“全链路自动化+价值流优化+AI智能赋能”,实现研发效能与业务价值的同步增长。 在合规认证层面,斩获可信云DevOps平台研发运营解决方案(先进级)认证、参编《业务研发安全运营一体化能力成熟度模型》标准,其合规性与技术实力得到国家级权威机构认可,为企业“敢用”提供“硬核”背书。 在过程管控层面,基于RBAC模型实现细粒度权限隔离,按角色、项目、功能分配访问权限,杜绝未授权操作;支持IP白名单、凭据安全管理(账号密码、APIToken、公私钥等),仅允许授权IP与合法凭据访问平台接口

    15010编辑于 2026-01-22
  • 来自专栏软件测试那些事

    模型生成单测用例的评估方案

    模型生成单元测试是目前比较常见的研发侧落地的应用场景之一。为了对模型以及单测生成方案进行评估,因此梳理了一个评估方案,供业内同仁参考。 此处所谓的单测生成是指基于既有的代码,让模型来自动生成单元测试。 生成成功的标志是: 1) 可以生成单元测试用例 2) 该用例可以被编译、执行通过 3) 被测方法被调用 4) 有断言 评估框架 类别 具体项 代码场景 对各种代码场景的覆盖 过程 用例的通过率和正确率% 人工评判 用例体验 代码可读性 经济性 成本(非私有化部署需要考虑) 生成耗时 代码场景 基于我们现有的方案,经过测试ChatGPT3.5以及GLM4这两个大模型,发现17个通用场景大概能通关12 当然,由于内部部署的模型规模要小很多,生成效果会进一步打折。

    1.8K10编辑于 2024-04-22
  • 来自专栏自然语言处理(NLP)论文速递

    细数:模型评估基准的「七宗罪」

    Jason Wei 是思维链提出者,并和 Yi Tay、Jeff Dean 等人合著了关于模型涌现能力的论文。目前他正在 OpenAI 进行工作。 在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。 在模型时代,我们该如何评估 LLM 性能? HumanEval:是 LLM 编码的经典评估基准。 成功的评估往往会有一篇论文声称使用该评估基准取得了一些突破。 如果他们的模型在这个评估上表现良好,那么人们通常会喜欢它并进一步的推广它。HELM 就非常擅长为其他人评估模型并公布结果。 此外,如果你能为人们使用你的评估工具创造激励机制也很有帮助。 斯坦福大学教授 Chris Manning 提出了一个很好的建议,即对公开测试集、私有测试集都进行评估,并监控模型在这两个测试集上是否有的偏差。

    88610编辑于 2024-05-28
  • 来自专栏自学气象人

    气象模型论文中评估指标的计算详解

    最近气象模型比较火,分享一下在气象模型论文中常见的几个评估指标(RMSE,ACC,MAE)的计算方法。 data_array2)) 参考:https://github.com/xiazh18/WeatherBench/blob/master/src/score.py 历史文章推荐 Python+AI+气象+模式合集

    1.2K21编辑于 2023-09-05
  • 来自专栏大模型应用

    模型应用:模型算力优化方案:识别突破隐性瓶颈达到效能最大化.65

    一、引言 在模型落地实践中,我们都会面临一个共性困惑:明明显卡算力达标、模型量化适配,实际运行时却始终跑不满算力,甚至出现卡顿、显存溢出等问题。 接下来我们就好好分析分析这些算力浪费的隐性痛点,从系统、模型、数据三维度拆解全链路优化逻辑,通过经验诊断进行优化达到用好算力的结果,实现效能最大化。二、隐性算力瓶颈1. 四、效能评估量化算力利用率的核心方法,优化效果不能凭感觉,需建立量化评估体系,精准定位瓶颈、验证优化价值。1. 优化前后效能指标趋势3. ,量化+蒸馏双管齐下,让模型在嵌入式设备上高效运行。

    30643编辑于 2026-04-03
领券