模型评估是什么

大模型产品与传统软件产品相比,有一个显著的不同:无法直观地通过单次使用来判断其能力是否提升。评测在这个过程中扮演着前置校验效果的角色。

模型评估是什么

大模型产品与传统软件产品相比,有一个显著的不同:无法直观地通过单次使用来判断其能力是否提升。

传统产品的效果可以直观地体验出来——UI 是什么样就是什么样,整体性能也可以通过测试直观感受到。而大模型产品的性能很难通过一两次使用来感知,需要积累大量测试结果,才能对模型的能力做出有效评估。同时,端到端效果的评估本身也是一件相对主观的事情,不能仅凭个人理解来下定论。

因此,评测在这个过程中扮演着前置校验效果的角色。

评测承担的两个角色

1. 评估产品的实际表现

基于对产品理想态的定义,制定实际可执行的评估规则,量化衡量产品的真实表现。

2. 定义产品的理想态,牵引迭代方向

评测的另一个核心价值在于——定义产品的理想态。模型产品究竟要做成什么样,很大程度上是由评测方向决定的。评测标准不仅作用于评估环节,也会贯穿整个数据生产流程,对业务迭代方向起到牵引作用,推动产品朝着正确的方向持续演进。

评测涉及的几个方面

评估涉及多个层面,下面逐一展开。

端到端评估

端到端评估是最直观的方式,直接评估模型产品最终输出的质量。它又可以分为人工评估(人评)自动化评估(机评)两种方式:

链路拆解分析

除了端到端评估之外,还可以针对 Badcase 进行链路拆解——分析整个处理过程中意图识别、工具调用、模型对工具返回结果的利用等环节的问题所在,从而定向解决。

其他评测手段

除了上述常规评测手段之外,还有一些值得关注的补充方式:

具体执行层面

在具体执行层面,每个环节都有不少值得展开的经验。

人工评估(人评)

人评最重要的是把规则细化到人工可执行的标准。这句话说起来简单,做起来却很复杂。

人评最大的意义在于反映人的主观感受,而主观感受本身就是一个非标准化的东西。因此,人评的关键在于:如何通过维度拆解,将非标准化的主观感受转化为可统一执行的标准——让三十人、五十人规模的标注团队都能按照同一套标准进行作业。

具体来讲,需要做好以下几个方面:

自动化评估(机评)

对于端到端的机评,我认为有两个层次:

  1. 常规 Workflow 校验:通过搭建 Workflow 来检测常见问题,比如错字、病句、逻辑问题等。也可以接入 Search 工具,自动化校验事实准确性。
  2. Rubric 评估体系:在 Workflow 之上,进一步通过 Rubric 标注的方式积累自动评估题库,构建更系统化的机评能力。

值得一提的是,Rubric 本身的生产也面临人标和机标的质量把控问题,这又是另一套独立的质量管理流程和 Workflow 实践。

链路拆解

链路拆解建议通过小量级的 VIP case 来进行。因为全量拆解的成本非常高,对人员能力的要求也较高,所以需要更加聚焦。同时,拆解出的问题应逐一记录上报,确保问题得到定向跟进和解决。

返回博客列表