本帖最后由 王红伟94 于 2025-4-22 14:40 编辑
企业内部存在着大量的制度、流程等电子文档文档,基于RAG的大模型应用,是企业内部知识问答的绝佳应用场景,能够快速准确地满足员工的日常咨询。
搭建一个RAG应用,门槛已经非常低了,但是实际当中总会存在一些回答结果效果不达预期的情况。这里我们通过实际的优化案例,来介绍一些常用的RAG效果定位和优化方法。
在本案例中,企业通过AI PaaS平台能够快速搭建出一个企业制度问答的RAG应用,在发布之前准备了50条测试数据,用于评估应用效果。
通过AI PaaS的智能评估功能,企业快速完成了“企业制度问答”应用效果评估。在当前测试集下,初始准确率是90%,但是还存在少量问题,例如检索不到、检索噪声、回答不全等。本案例中我们以“检索不到“类问题为例,介绍下问题定位和优化过程。
一、问题定位
step 1. 通过AI PAAS评估结果中的评估详情,找到“检索不到”问题类别。
step2. 还原问答现场,通过对比标准答案,明确属于检索不到类问题。 大模型生成结果如下:
测试集中的标准答案:
原始文档中相关描述如下(PDF文档为扫描版,里边的的表格出现跨页)。
step 3. 通过打开“工作流-召回重排”,发现相关片段排在第1位,但内容有缺失: - 输出
- {
- "references":
- [
- {
- "ref":
- {
- "type":
- "knowledgebase",
- "filename":
- "****关于印发《***有限公司经费管理办法》的通知.pdf",
- "source_id":
- "f763ce31b73c4fb6b07bd45c024af7e1",
- "record_id":
- "b27d238d-8d00-491f-bb00-10d1a40cf6df",
- "rank":
- 1,
- "score":
- -0.050537109375
- },
- "content":
- "# 第四章 差旅费报销管理 # 第十二条差旅费标准 # (二)住宿费标准 住宿费是指员工因公出差期间入住宾馆发生的房租费用。住 宿费用报销实行“职别住宿、凭据报销、超标自理”的原则。 员工出差住宿费标准表 | | 职别 | 住宿标准(元天 | ",
- "data":
- {
- "question":
- "# 第四章 差旅费报销管理 # 第十二条差旅费标准 # (二)住宿费标准 住宿费是指员工因公出差期间入住宾馆发生的房租费用。住 宿费用报销实行“职别住宿、凭据报销、超标自理”的原则。 员工出差住宿费标准表 | | 职别 | 住宿标准(元天 | ",
- "answer":
- null
- },
- "data_type":
- "chunk"
- },
- …………
复制代码
step 4. 进一步回到知识库中,按照引用的文件筛选出分片:
找到对应的分片009和010,通过对比原文发现,分片中表格中间信息丢失,没有进入分片,导致检索不到这部分内容。
step 5. 通过人工校验,定位到是PDF解析后表格内容丢失。所以,在检索时检索不到关于“高级专家和专家的住宿标准”,大模型依据其它片段自行做了发挥。
二、优化方法
手工修改分片,补充缺失的表格内容后,按照Markdown格式表格,补充到分片中。
经过测试,可以正常检索到并回答出来。
|