能介绍下应用效果评估的原理吗?感觉评估任务执行比较满

新手367197 528

{{ttag.title}}
RT
请问应用效果评估的原理是什么?我留意到模型配置那边是有个系统评估模型的,这个是评估任务使用的吗?
还有感觉执行的时间比较长

解决该疑问,预计可以帮助到 552 人!

回帖即可获得
2S豆
,被楼主采纳即奖励20S豆+10分钟内回帖奖励10S豆 [已过期] ,了解更多S豆奖励信息

完善手机号和公司名称,让服务更省心更便捷!立即完善

王红伟94 发表于 2025-4-16 20:00
  
本帖最后由 王红伟94 于 2025-4-16 20:02 编辑

应用效果评估的前提是,要先将检索重排后的分片(recall的chunks)、应用生成的回答(response)、标准答案(ground truth,也就是我们人工准备的测试数据集),都拆分为更细粒度的语义claim,才能够用于比较他们之间的相似度/一致性。

他们之间的关系可用下图来表示:

有了细粒度的语义claim,就可以进行多个维度的效果评估,可评估的维度包括:

  • 生成答案 vs. 标准答案(ground truth):衡量大模型回复的正确性
  • 标准答案的声明(claim) vs. 检索上下文:评估检索结果的质量
  • 标准答案的声明(claim) vs. 回复:衡量大模型回复的完整性
  • 回复的声明(claim) vs. 检索上下文:衡量大模型的忠实度并识别是否产生幻觉




通过多次调用大模型进行比较,可进一步对生成结果存在的问题进行分类,包括粗粒度定位(检索类问题、生成类问题)、细粒度定位(检索不到、检索不全、检索噪声、内容编造、回答不全),具体实现过程如下图所示:



评估任务的耗时与较多因素有关,我们拿一条测试数据集出来进行说明:

  • 如果最终回答的结果与标准答案完全一致,则这条测试数据要调用1次大模型评估;
  • 如果最终回答的结果与标准答案不一致,则要继续多次调用大模型进行评估(3-9次);



每一次评估都是一次完整的大模型推理过程,会根据输入问题的长度,输出的耗时从几秒到几十秒不等。假如有50条测试数据,每一条数据平均需要调用3次,平均每次调用耗时10秒,串行测试,整个评估任务耗时大概为25分钟。

在实际场景当中,如果测试数据集数量较多,并且错误结果占比较高,那么整个的测试任务耗时将会更长;另外,如果采用更大的DS模型,因为有额外的思考过程,所以也会显著增大评估任务的耗时。

王老师 发表于 2025-4-17 19:47
  
应用效果评估是指通过一系列的定量和定性方法,对某个应用程序、系统或模型在实际应用中的表现进行评价的过程。其主要目的是验证该应用是否达到了预期目标,并且能够有效地解决问题或满足需求。以下是应用效果评估的基本原理:

基本原理
设定评估指标:首先需要确定评估的关键性能指标(KPIs),这些指标应与应用的主要目标紧密相关。例如,对于一个推荐系统,可能的KPI包括点击率、转化率等。
数据收集:根据所设定的指标,收集相关的数据。这可能涉及到用户行为数据、系统日志、业务结果等多种来源的数据。
分析方法选择:选择合适的分析方法来处理和解释收集到的数据。常见的方法包括统计分析、A/B测试、用户反馈调查等。
执行评估:基于选定的方法进行评估,比较实际结果与预期目标之间的差距。
结果解释与报告:最后,将评估结果整理成易于理解的格式,并提供给相关的利益相关者。报告中通常会包含改进建议。
关于您提到的“系统评估模型”,如果是在模型配置中提及的一个组件,它很可能是用于自动化上述评估过程的一种工具或框架。这种模型可以自动执行数据收集、分析并生成评估报告,从而简化了评估流程,使得即使非专业人士也能理解和使用评估结果。

至于您提到的执行时间较长的问题,这可能由多种因素造成:

数据量大:如果评估涉及大量的数据,那么处理这些数据自然需要更多的时间。
计算复杂度高:一些复杂的评估方法可能需要更多的计算资源和时间。
网络延迟或硬件限制:在分布式环境中运行评估任务时,网络延迟或硬件性能不足也会导致执行时间延长。
为了缩短执行时间,您可以考虑优化数据处理流程、增加计算资源或者调整评估策略。例如,采用更高效的算法、减少不必要的数据处理步骤、利用云计算资源等。

等我来答:

换一批

发表新帖
热门标签
全部标签>
新版本体验
标准化排查
每日一问
高手请过招
【 社区to talk】
功能体验
纪元平台
技术笔记
产品连连看
信服课堂视频
每日一记
安装部署配置
社区新周刊
sangfor周刊
平台使用
S豆商城资讯
技术晨报
技术盲盒
GIF动图学习
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
运维工具
用户认证
原创分享
解决方案
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
技术争霸赛
「智能机器人」
追光者计划
2023技术争霸赛专题
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
安全效果
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版版主

8
4
2

发帖

粉丝

关注

3
5
0

发帖

粉丝

关注

0
1
0

发帖

粉丝

关注

29
9
1

发帖

粉丝

关注

1
0
0

发帖

粉丝

关注

本版达人