从0到1构建RAG应用指引【以物料选型助手示例】
  

徐金涛93 6086

{{ttag.title}}
本帖最后由 AI之惊涛拍岸 于 2025-4-17 12:26 编辑

    2025年3月底,深信服刚刚发布了AIPaaS_1.0.3版本,到底如何基于深信服AI PaaS搭建一个简易RAG应用呢?我们通过某企业RAG物料知识库建设做一个demo,同时提供语料库、测试数据集,可以附件下载。
    下面让我们愉快的开始应用构建吧!

文章末尾的附件有演示json文件,下载后导入到aipaas平台可直接引用,构筑自己需要的应用形式哦!



一、应用构建背景
1.1场景介绍
    制造业RAG知识库构建。某制造企业是一家处于装备制造产业链的下游的传统型企业,需要对接上千家上游的元器件供应商。企业有数百名产品设计人员,他们的主要工作就是结合工艺参数的需求,进行物料选型,再给后续环节使用。物料总计有3000余个,对应1万多份物料技术规范书文档。当前,用户是通过手动整理参数表格并结合人工核对来完成物料筛选,完成一个场景的物料选型往往需要数天时间,严重影响生产效率。
1.2 RAG建设需求
    ① 借助大模型,通过对话的方式,让大模型准确回答其所需要的物料,把这个过程缩短至分钟级;
    ② 场景问答准确率达到90%以上;
    ③ 并发使用量50+。


二、应用构建
①通过SCP统一的服务目录进入AI应用创新平台。
   
②创建一个应用,名称叫做“demo-物料选型助手。应用类型我们选择“智能RAG”,里面内置了RAG最佳实践的一个应用构建模板,它可以帮助用户简单快速构建出高质量的RAG应用。点击“确定”。

③接下来就进入到应用构建的页面,根据指引我们发现,只需要关联知识库就可以完成应用的构建了。


④对于第一次构筑的企业来说,在下拉菜单选择是没有预先准备的知识库的,需要首先“创建知识库”。在这里我们演示导入本地文档场景,单击图上“+”号,知识库类型选择“文本文档”,跳转进入知识库创建页面。PS:后续“同步企业知识库”和“直连企业数据库”建设方式我们单独开贴指引。


⑤创建知识库,选择要导入的知识库文档,选择“打开”,单击“下一步”。这里要注意,单次最多 20 个文件,支持 doc、docx、txt、pdf 格式,单个文件大小须在 100 MB 以内。


⑥对已上传文档进行数据处理,这个过程就是将数据embedding的过程,即向量化过程。页面可选“分片策略”、“数据清洗”,页面右侧可查看文档解析后数据切片效果。实际构筑过程按需选择,最后页面单击“完成”。

同时可以选择高级设置,完成更丰富“解析策略”、“Embedding模型”、“知识增强方式”、“知识增强模型”等其他细化选择。

⑦我们看到,文档已经同步过来了,正在做解析,在“分片”、“问答对”、“段落概要”选项卡中,都能看到有明确数据生成。




⑧待所有分片解析完成后,我们再回到应用构建页面,知识库关联下拉菜单选择“demo-物料选型助手”,再选择“确定”。

⑨最后,在“生成回答”模块框内,选择deepseek模型,选择“确定”,这样就初步完成应用构建啦!


三、应用调优
    应用虽然构建完了,但是应用效果还是会存在比较大风险,可能会影响使用效果和用户体验。因此要进行应用评估和调优。

①点击“开始评估”,选择对应的评测集后,启动应用效果评估。这里的评测集是非常重要的,需要企业内部懂真实场景的业务人员一起参与准备,并且要尽可能覆盖业务的各个场景。

②若需临时新增测试数据集,在“测试数据集”选择最右侧“+”号,进入新增测试数据集页面,完成数据集新增。

③评估完成,我们看到准确率只有72%,我们选择“查看”,来具体看下是什么问题。我们看到有“检索不到”、“检索不全”、“回答不全”三类问题。
   
针对以上问题,根据指引,我们选择“优化”,系统会根据不同的问题,提供不同的优化建议。可以看到,当前主要存在的问题是“检索不到”,有11个问题。我们就先从它,开始优化。打开后,这里会展示出“优化指引”,有三条优化建议:
    第一条建议,是让我们确认知识库中是否包含这些答案。我们确认,文档中是包含的。
    第二条建议,是确认是否有近义词。我们看了下,确实存在专业词汇,这一条里的NC,经过查询,发现它对应的是电容的“标称容量”。我们把它添加到近义词库中。


第三条建议,建议我们调整检索节点配置,我们打开后发现有召回数量和召回阈值。分别是什么含义呢?举个例子,我想找到一个班级中成绩较好的一部分学生,如果我以90分作为标准,那可能有10个学生被选中,如果我以80分为标准,那可能得到20个。这里的分数值就对应我们AI应用中的召回阈值,被选中的数量就对应我们的召回数量。现在的召回阈值是0.8。那调整到多少呢?我们只要按优化建议,点击这里就可以自动把召回阈值调小。“确定”。这样就快速完成了配置调整。为了检查优化后的效果到底提升了没有,在此点击“重新评估”。这时,系统还会选择相同的评测数据集,提交了第二次评估任务。来对比一下这两次评估结果,很明显,配置调整后,应用的准确率从70%提升到了82%,问题数从11个降到了9个,继续按照指引,经过不断调优最终可达到理想效果,这里不做详细介绍。最后选择“发布”。


四、应用体验
回到AI应用平台主页,我们找到已经发布的“demo-物料选型助手”应用,开始体验。


体验一:我们输入“满足额定电压450并且标称容量8200的物料编号”。发现已经准确回复。


体验二:我们输入“找出尺寸为90*131的物料编号和尺寸图”,显示如下:

这个结果符合我们的预期,我们可以直接进行结果反馈,可以在这里点赞。

01-文本文档-物料.zip

1.26 MB, 下载次数: 12

物料测试集.zip

2.5 KB, 下载次数: 15

物料选型助手 (1).zip

2.18 KB, 下载次数: 8

演示json文件

打赏鼓励作者,期待更多好文!

打赏
2人已打赏

冰窟蚂蚁 发表于 2025-4-5 20:28
  
Excel查询有多少准确,是不是源文档不用数据清理
jan 发表于 2025-4-11 08:47
  
根据上面的表现来看,分析的精度还是不怎么高啊??
新手367197 发表于 2025-4-13 23:49
  
有没有更多场景的一些示例呢?
jan 发表于 2025-5-1 15:26
  
路过,学习一下!谢谢分享!
发表新帖
热门标签
全部标签>
高手请过招
每日一问
新版本体验
【 社区to talk】
纪元平台
功能体验
平台使用
产品连连看
GIF动图学习
标准化排查
社区新周刊
安全效果
信服课堂视频
S豆商城资讯
安装部署配置
每周精选
产品解析
专家问答
技术笔记
存储
2023技术争霸赛专题
华北区交付直播
畅聊IT
答题自测
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
迁移
排障笔记本
产品预警公告
玩转零信任
技术争霸赛
「智能机器人」
追光者计划
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
关键解决方案

本版版主

8
3
2

发帖

粉丝

关注

3
5
0

发帖

粉丝

关注

0
1
0

发帖

粉丝

关注

27
8
1

发帖

粉丝

关注

1
0
0

发帖

粉丝

关注

本版达人