模型评估是什么

大模型产品与传统软件产品相比，有一个显著的不同：无法直观地通过单次使用来判断其能力是否提升。

传统产品的效果可以直观地体验出来——UI 是什么样就是什么样，整体性能也可以通过测试直观感受到。而大模型产品的性能很难通过一两次使用来感知，需要积累大量测试结果，才能对模型的能力做出有效评估。同时，端到端效果的评估本身也是一件相对主观的事情，不能仅凭个人理解来下定论。

因此，评测在这个过程中扮演着前置校验效果的角色。

评测承担的两个角色

基于对产品理想态的定义，制定实际可执行的评估规则，量化衡量产品的真实表现。

评测的另一个核心价值在于——定义产品的理想态。模型产品究竟要做成什么样，很大程度上是由评测方向决定的。评测标准不仅作用于评估环节，也会贯穿整个数据生产流程，对业务迭代方向起到牵引作用，推动产品朝着正确的方向持续演进。

评估涉及多个层面，下面逐一展开。

端到端评估是最直观的方式，直接评估模型产品最终输出的质量。它又可以分为人工评估（人评）和自动化评估（机评）两种方式：

除了端到端评估之外，还可以针对 Badcase 进行链路拆解——分析整个处理过程中意图识别、工具调用、模型对工具返回结果的利用等环节的问题所在，从而定向解决。

除了上述常规评测手段之外，还有一些值得关注的补充方式：

在具体执行层面，每个环节都有不少值得展开的经验。

人评最重要的是把规则细化到人工可执行的标准。这句话说起来简单，做起来却很复杂。

人评最大的意义在于反映人的主观感受，而主观感受本身就是一个非标准化的东西。因此，人评的关键在于：如何通过维度拆解，将非标准化的主观感受转化为可统一执行的标准——让三十人、五十人规模的标注团队都能按照同一套标准进行作业。

具体来讲，需要做好以下几个方面：

对于端到端的机评，我认为有两个层次：

常规 Workflow 校验：通过搭建 Workflow 来检测常见问题，比如错字、病句、逻辑问题等。也可以接入 Search 工具，自动化校验事实准确性。
Rubric 评估体系：在 Workflow 之上，进一步通过 Rubric 标注的方式积累自动评估题库，构建更系统化的机评能力。

值得一提的是，Rubric 本身的生产也面临人标和机标的质量把控问题，这又是另一套独立的质量管理流程和 Workflow 实践。

链路拆解建议通过小量级的 VIP case 来进行。因为全量拆解的成本非常高，对人员能力的要求也较高，所以需要更加聚焦。同时，拆解出的问题应逐一记录上报，确保问题得到定向跟进和解决。