从0到1构建RAG应用指引【以物料选型助手示例】

只看该作者 · 发表于 2025-3-31 00:55

本帖最后由 AI之惊涛拍岸于 2025-4-17 12:26 编辑

2025年3月底，深信服刚刚发布了AIPaaS_1.0.3版本，到底如何基于深信服AI PaaS搭建一个简易RAG应用呢？我们通过某企业RAG物料知识库建设做一个demo，同时提供语料库、测试数据集，可以附件下载。

下面让我们愉快的开始应用构建吧！

物料选型助手应用构筑视频【点我】

文章末尾的附件有演示json文件，下载后导入到aipaas平台可直接引用，构筑自己需要的应用形式哦！

一、应用构建背景

1.1场景介绍

制造业RAG知识库构建。某制造企业是一家处于装备制造产业链的下游的传统型企业，需要对接上千家上游的元器件供应商。企业有数百名产品设计人员，他们的主要工作就是结合工艺参数的需求，进行物料选型，再给后续环节使用。物料总计有3000余个，对应1万多份物料技术规范书文档。当前，用户是通过手动整理参数表格并结合人工核对来完成物料筛选，完成一个场景的物料选型往往需要数天时间，严重影响生产效率。

1.2 RAG建设需求

①　借助大模型，通过对话的方式，让大模型准确回答其所需要的物料，把这个过程缩短至分钟级；

②　场景问答准确率达到90%以上；

③　并发使用量50+。

9824767e9754dc8577.png (1.27 MB, 下载次数: 988)

下载附件

2025-3-31 00:46 上传

二、应用构建

①通过SCP统一的服务目录进入AI应用创新平台。

9620167e9755f663b0.png (1.56 MB, 下载次数: 1010)

下载附件

2025-3-31 00:46 上传

②创建一个应用，名称叫做“demo-物料选型助手。应用类型我们选择“智能RAG”，里面内置了RAG最佳实践的一个应用构建模板，它可以帮助用户简单快速构建出高质量的RAG应用。点击“确定”。

③接下来就进入到应用构建的页面，根据指引我们发现，只需要关联知识库就可以完成应用的构建了。

3063667e9757fb43bb.png (991.38 KB, 下载次数: 991)

下载附件

2025-3-31 00:46 上传

5912767e975928f28c.png (1.12 MB, 下载次数: 1001)

下载附件

2025-3-31 00:47 上传

④对于第一次构筑的企业来说，在下拉菜单选择是没有预先准备的知识库的，需要首先“创建知识库”。在这里我们演示导入本地文档场景，单击图上“+”号，知识库类型选择“文本文档”，跳转进入知识库创建页面。PS：后续“同步企业知识库”和“直连企业数据库”建设方式我们单独开贴指引。

5503067e975a9aeef3.png (882.09 KB, 下载次数: 979)

下载附件

2025-3-31 00:47 上传

⑤创建知识库，选择要导入的知识库文档，选择“打开”，单击“下一步”。这里要注意，单次最多 20 个文件，支持 doc、docx、txt、pdf 格式，单个文件大小须在 100 MB 以内。

5292767e975bb5a4bf.png (1.35 MB, 下载次数: 997)

下载附件

2025-3-31 00:47 上传

7549067e975c3d3d62.png (1.44 MB, 下载次数: 1002)

下载附件

2025-3-31 00:48 上传

⑥对已上传文档进行数据处理，这个过程就是将数据embedding的过程，即向量化过程。页面可选“分片策略”、“数据清洗”，页面右侧可查看文档解析后数据切片效果。实际构筑过程按需选择，最后页面单击“完成”。

8570267e975cd440dd.png (1.29 MB, 下载次数: 997)

下载附件

2025-3-31 00:48 上传

同时可以选择高级设置，完成更丰富“解析策略”、“Embedding模型”、“知识增强方式”、“知识增强模型”等其他细化选择。

9548467e975daa192f.png (1.26 MB, 下载次数: 995)

下载附件

2025-3-31 00:48 上传

⑦我们看到，文档已经同步过来了，正在做解析，在“分片”、“问答对”、“段落概要”选项卡中，都能看到有明确数据生成。

320367e975eeaab63.png (1.37 MB, 下载次数: 1007)

下载附件

2025-3-31 00:48 上传

2108867e975f9d2fbe.png (1.25 MB, 下载次数: 1008)

下载附件

2025-3-31 00:48 上传

4799967e97607c5f5f.png (1.32 MB, 下载次数: 997)

下载附件

2025-3-31 00:49 上传

993667e9760ebd091.png (1.35 MB, 下载次数: 1006)

下载附件

2025-3-31 00:49 上传

⑧待所有分片解析完成后，我们再回到应用构建页面，知识库关联下拉菜单选择“demo-物料选型助手”，再选择“确定”。

4357867e976166e997.png (1.19 MB, 下载次数: 995)

下载附件

2025-3-31 00:49 上传

⑨最后，在“生成回答”模块框内，选择deepseek模型，选择“确定”，这样就初步完成应用构建啦！

8335267e976220e7b1.png (1.25 MB, 下载次数: 1003)

下载附件

2025-3-31 00:49 上传

三、应用调优

应用虽然构建完了，但是应用效果还是会存在比较大风险，可能会影响使用效果和用户体验。因此要进行应用评估和调优。

①点击“开始评估”，选择对应的评测集后，启动应用效果评估。这里的评测集是非常重要的，需要企业内部懂真实场景的业务人员一起参与准备，并且要尽可能覆盖业务的各个场景。

746967e976291e436.png (876.4 KB, 下载次数: 981)

下载附件

2025-3-31 00:49 上传

②若需临时新增测试数据集，在“测试数据集”选择最右侧“＋”号，进入新增测试数据集页面，完成数据集新增。

9385467e976309ab9e.png (1.21 MB, 下载次数: 993)

下载附件

2025-3-31 00:49 上传

③评估完成，我们看到准确率只有72%，我们选择“查看”，来具体看下是什么问题。我们看到有“检索不到”、“检索不全”、“回答不全”三类问题。

3945067e9763966816.png (1.37 MB, 下载次数: 1012)

下载附件

2025-3-31 00:50 上传

针对以上问题，根据指引，我们选择“优化”，系统会根据不同的问题，提供不同的优化建议。可以看到，当前主要存在的问题是“检索不到”，有11个问题。我们就先从它，开始优化。打开后，这里会展示出“优化指引”，有三条优化建议：

第一条建议，是让我们确认知识库中是否包含这些答案。我们确认，文档中是包含的。

第二条建议，是确认是否有近义词。我们看了下，确实存在专业词汇，这一条里的NC，经过查询，发现它对应的是电容的“标称容量”。我们把它添加到近义词库中。

6670267e976431555e.png (1.53 MB, 下载次数: 1008)

下载附件

2025-3-31 00:50 上传

第三条建议，建议我们调整检索节点配置，我们打开后发现有召回数量和召回阈值。分别是什么含义呢？举个例子，我想找到一个班级中成绩较好的一部分学生，如果我以90分作为标准，那可能有10个学生被选中，如果我以80分为标准，那可能得到20个。这里的分数值就对应我们AI应用中的召回阈值，被选中的数量就对应我们的召回数量。现在的召回阈值是0.8。那调整到多少呢？我们只要按优化建议，点击这里就可以自动把召回阈值调小。“确定”。这样就快速完成了配置调整。为了检查优化后的效果到底提升了没有，在此点击“重新评估”。这时，系统还会选择相同的评测数据集，提交了第二次评估任务。来对比一下这两次评估结果，很明显，配置调整后，应用的准确率从70%提升到了82%，问题数从11个降到了9个，继续按照指引，经过不断调优最终可达到理想效果，这里不做详细介绍。最后选择“发布”。

四、应用体验

回到AI应用平台主页，我们找到已经发布的“demo-物料选型助手”应用，开始体验。

2210967e976571527c.png (1.02 MB, 下载次数: 996)

下载附件

2025-3-31 00:50 上传

体验一：我们输入“满足额定电压450并且标称容量8200的物料编号”。发现已经准确回复。

体验二：我们输入“找出尺寸为90*131的物料编号和尺寸图”，显示如下：

这个结果符合我们的预期，我们可以直接进行结果反馈，可以在这里点赞。

只看该作者 · 发表于 2025-4-5 20:28

Excel查询有多少准确，是不是源文档不用数据清理

只看该作者 · 发表于 2025-4-11 08:47

根据上面的表现来看，分析的精度还是不怎么高啊？？

只看该作者 · 发表于 2025-4-13 23:49

有没有更多场景的一些示例呢？

只看该作者 · 发表于 2025-5-1 15:26

路过，学习一下！谢谢分享！

签到天王

疑问解答

建议牛人

转盘

任务

商城

勋章

成长计划

本版版主

本版热帖

本版达人