文档解析比较慢,是什么原因?

新手367197 4272

{{ttag.title}}
如题,上传文件构建知识库,一直处于解析中,比较慢。请问这个是什么原因?

该疑问已被 解决,获得了 20 S豆

回帖即可获得
2S豆
,被楼主采纳即奖励20S豆+10分钟内回帖奖励10S豆 [已过期] ,了解更多S豆奖励信息

完善手机号和公司名称,让服务更省心更便捷!立即完善

一般embeding等小模型会预先设置好1~2个显卡,
1、当上传文件太大、数据种类格式多时,如:存在较多图片做ocr、PDF转TXT过程等P2T框架的模型调用,会对影响解析的速率
2、观察是否开启了知识增强,知识增强是指根据上传知识库的文档自动生成问题和文档段落摘要,在检索时通过增强后内容来索引到对应的分片,大模型根据分片内容生成答案;开启后会调用知识增强模型抽取更加丰富的知识内容,来提升知识库准确定和查询效率。但是知识增强会额外调用大模型,消耗另外大模型的显卡资源,因此若完成解析需要在2个过程全部完成才会结束,导致了体验变差。
  
您的问题提的很好,产品规划端已经录入需求,后面产品会优化,将知识增强过程和解析过程分开,来提升用户的解析体验。
本答案是否对你有帮助?
新手854764 发表于 2025-4-10 23:54
  
看下文档大小,是不是文档太大,或者开启了知识增强。
新手107253 发表于 2025-4-11 07:53
  
文件大小,网速,服务器都可能有问题啊
王老师 发表于 2025-4-11 08:22
  
文件上传后解析速度较慢可能由以下几个原因导致:

1. 文件大小和复杂性
如果文件体积较大(如几百MB或以上),解析时间会显著增加。
文件格式复杂(如包含大量图片、表格、公式或嵌套结构的PDF、Word文档等)也会增加解析难度和时间。
2. 服务器负载
如果当前系统或服务器正在处理大量请求,可能会导致资源分配不足,从而影响解析速度。
高峰时段(如多人同时上传文件)可能导致排队延迟。
3. 网络问题
文件上传过程中,如果网络不稳定或带宽较低,可能导致传输时间延长。
解析结果返回时,网络延迟也可能让用户感觉解析变慢。
4. 解析算法的效率
不同类型的文件需要不同的解析算法。例如,扫描版PDF需要OCR(光学字符识别)技术,这通常比纯文本文件解析耗时更多。
如果文件内容语言较为复杂(如多语言混合、手写字体等),也会增加解析时间。
5. 知识库系统的性能
知识库系统本身可能存在性能瓶颈,例如数据库写入速度慢、索引构建耗时较长等。
如果系统未针对大规模数据处理进行优化,解析速度可能会受到影响。
AI之惊涛拍岸 发表于 2025-4-11 15:10
  
一般embeding等小模型会预先设置好1~2个显卡,
1、当上传文件太大、数据种类格式多时,如:存在较多图片做ocr、PDF转TXT过程等P2T框架的模型调用,会对影响解析的速率
2、观察是否开启了知识增强,知识增强是指根据上传知识库的文档自动生成问题和文档段落摘要,在检索时通过增强后内容来索引到对应的分片,大模型根据分片内容生成答案;开启后会调用知识增强模型抽取更加丰富的知识内容,来提升知识库准确定和查询效率。但是知识增强会额外调用大模型,消耗另外大模型的显卡资源,因此若完成解析需要在2个过程全部完成才会结束,导致了体验变差。
  
您的问题提的很好,产品规划端已经录入需求,后面产品会优化,将知识增强过程和解析过程分开,来提升用户的解析体验。
zjwshenxian 发表于 2025-4-11 20:15
  
看下文档大小,是不是文档太大,或者开启了知识增强。
_家宁 发表于 2025-4-13 00:21
  
看下文档大小,是不是文档太大,或者开启了知识增强。
王老师 发表于 2025-4-13 09:05
  
观察是否开启了知识增强,知识增强是指根据上传知识库的文档自动生成问题和文档段落摘要,在检索时通过增强后内容来索引到对应的分片,大模型根据分片内容生成答案;开启后会调用知识增强模型抽取更加丰富的知识内容,来提升知识库准确定和查询效率。但是知识增强会额外调用大模型,消耗另外大模型的显卡资源,因此若完成解析需要在2个过程全部完成才会结束,导致了体验变差。
jan 发表于 2025-4-13 15:07
  
是不是资源配置不够,或网速太慢呢
RPG 发表于 2025-4-15 16:45
  
看下文档大小,是不是文档太大,或者开启了知识增强。

等我来答:

换一批

发表新帖
热门标签
全部标签>
有一说一
纪元平台
功能体验
存储
专家分享
迁移
每日一问
GIF动图学习
每周精选
信服课堂视频
虚拟机
项目案例
地址转换
追光者计划
技术笔记
安全攻防
问题分析处理
流量管理
终端接入
「智能机器人」
专家说
声音值千金
工具体验官
解决方案
VPN 对接
标准化排查
答题自测
新版本体验
上网策略
资源访问
排障笔记本
产品预警公告
技术晨报
社区新周刊
升级
日志审计
设备维护
技术争霸赛
以战代练
场景专题
全能先锋系列
产品解析
产品连连看
功能咨询
秒懂零信任
文档捉虫
齐鲁TV
高频问题集锦
【 社区to talk】
云化安全能力
故障笔记
排障那些事
2025年技术争霸赛
安装部署配置
测试报告
SDP百科
山东区技术晨报
华北区交付直播
MVP
每日一记
运维工具
原创分享
sangfor周刊
SANGFOR资讯
授权
玩转零信任
升级&主动服务
行业实践
产品知识周周练
畅聊IT
专家问答
技术圆桌
在线直播
信服故事
卧龙计划
平台使用
技术盲盒
北京区每日一练
产品动态
用户认证
技术顾问
天逸直播
POC测试案例
安全效果
关键解决方案
S豆商城资讯
2023技术争霸赛专题
高手请过招
产品体验官
VMware替换
网络基础知识
华北区拉练
西北区每日一问
热门活动
2024年技术争霸赛

本版版主

8
11
2

发帖

粉丝

关注

2
7
0

发帖

粉丝

关注

0
3
0

发帖

粉丝

关注

36
18
1

发帖

粉丝

关注

1
1
0

发帖

粉丝

关注

本版达人