模型评估是什么
大模型产品与传统软件产品相比,有一个显著的不同:无法直观地通过单次使用来判断其能力是否提升。
传统产品的效果可以直观地体验出来——UI 是什么样就是什么样,整体性能也可以通过测试直观感受到。而大模型产品的性能很难通过一两次使用来感知,需要积累大量测试结果,才能对模型的能力做出有效评估。同时,端到端效果的评估本身也是一件相对主观的事情,不能仅凭个人理解来下定论。
因此,评测在这个过程中扮演着前置校验效果的角色。
评测承担的两个角色
1. 评估产品的实际表现
基于对产品理想态的定义,制定实际可执行的评估规则,量化衡量产品的真实表现。
2. 定义产品的理想态,牵引迭代方向
评测的另一个核心价值在于——定义产品的理想态。模型产品究竟要做成什么样,很大程度上是由评测方向决定的。评测标准不仅作用于评估环节,也会贯穿整个数据生产流程,对业务迭代方向起到牵引作用,推动产品朝着正确的方向持续演进。
评测涉及的几个方面
评估涉及多个层面,下面逐一展开。
端到端评估
端到端评估是最直观的方式,直接评估模型产品最终输出的质量。它又可以分为人工评估(人评)和自动化评估(机评)两种方式:
- 机评:可以通过搭建简单的 Workflow 或 Checker 来实现,也可以通过标注 Rubric,让模型参考 Rubric 进行自动化评分。
- 人评:由人工依据标准对输出进行评分打标。
链路拆解分析
除了端到端评估之外,还可以针对 Badcase 进行链路拆解——分析整个处理过程中意图识别、工具调用、模型对工具返回结果的利用等环节的问题所在,从而定向解决。
其他评测手段
除了上述常规评测手段之外,还有一些值得关注的补充方式:
- 众测:众测的核心目的是发现当前评估标准未覆盖或忽略的维度,这些盲区往往会显著影响用户的真实体感。
- 业务指标大盘监控:持续关注业务指标同样非常必要。当评估结果与 A/B 实验出现背离时,需要深入排查问题根因,并以此为依据不断迭代和优化评估标准。
具体执行层面
在具体执行层面,每个环节都有不少值得展开的经验。
人工评估(人评)
人评最重要的是把规则细化到人工可执行的标准。这句话说起来简单,做起来却很复杂。
人评最大的意义在于反映人的主观感受,而主观感受本身就是一个非标准化的东西。因此,人评的关键在于:如何通过维度拆解,将非标准化的主观感受转化为可统一执行的标准——让三十人、五十人规模的标注团队都能按照同一套标准进行作业。
具体来讲,需要做好以下几个方面:
- 培训体系:建立完善的培训和答疑机制,确保标注团队对标准的理解一致
- 质量把控:做好出标质检和抽检的全流程质量管理
- 定期答疑:定期召开答疑会议,对齐边界 case 的判定标准
- 案例积累:持续积累和沉淀人评中的边界 case,不断完善标注规范
自动化评估(机评)
对于端到端的机评,我认为有两个层次:
- 常规 Workflow 校验:通过搭建 Workflow 来检测常见问题,比如错字、病句、逻辑问题等。也可以接入 Search 工具,自动化校验事实准确性。
- Rubric 评估体系:在 Workflow 之上,进一步通过 Rubric 标注的方式积累自动评估题库,构建更系统化的机评能力。
值得一提的是,Rubric 本身的生产也面临人标和机标的质量把控问题,这又是另一套独立的质量管理流程和 Workflow 实践。
链路拆解
链路拆解建议通过小量级的 VIP case 来进行。因为全量拆解的成本非常高,对人员能力的要求也较高,所以需要更加聚焦。同时,拆解出的问题应逐一记录上报,确保问题得到定向跟进和解决。