文档解析比较慢,是什么原因?

新手367197 668

{{ttag.title}}
如题,上传文件构建知识库,一直处于解析中,比较慢。请问这个是什么原因?

该疑问已被 解决,获得了 20 S豆

回帖即可获得
2S豆
,被楼主采纳即奖励20S豆+10分钟内回帖奖励10S豆 [已过期] ,了解更多S豆奖励信息

完善手机号和公司名称,让服务更省心更便捷!立即完善

一般embeding等小模型会预先设置好1~2个显卡,
1、当上传文件太大、数据种类格式多时,如:存在较多图片做ocr、PDF转TXT过程等P2T框架的模型调用,会对影响解析的速率
2、观察是否开启了知识增强,知识增强是指根据上传知识库的文档自动生成问题和文档段落摘要,在检索时通过增强后内容来索引到对应的分片,大模型根据分片内容生成答案;开启后会调用知识增强模型抽取更加丰富的知识内容,来提升知识库准确定和查询效率。但是知识增强会额外调用大模型,消耗另外大模型的显卡资源,因此若完成解析需要在2个过程全部完成才会结束,导致了体验变差。
  
您的问题提的很好,产品规划端已经录入需求,后面产品会优化,将知识增强过程和解析过程分开,来提升用户的解析体验。
本答案是否对你有帮助?
新手854764 发表于 2025-4-10 23:54
  
看下文档大小,是不是文档太大,或者开启了知识增强。
新手107253 发表于 2025-4-11 07:53
  
文件大小,网速,服务器都可能有问题啊
王老师 发表于 2025-4-11 08:22
  
文件上传后解析速度较慢可能由以下几个原因导致:

1. 文件大小和复杂性
如果文件体积较大(如几百MB或以上),解析时间会显著增加。
文件格式复杂(如包含大量图片、表格、公式或嵌套结构的PDF、Word文档等)也会增加解析难度和时间。
2. 服务器负载
如果当前系统或服务器正在处理大量请求,可能会导致资源分配不足,从而影响解析速度。
高峰时段(如多人同时上传文件)可能导致排队延迟。
3. 网络问题
文件上传过程中,如果网络不稳定或带宽较低,可能导致传输时间延长。
解析结果返回时,网络延迟也可能让用户感觉解析变慢。
4. 解析算法的效率
不同类型的文件需要不同的解析算法。例如,扫描版PDF需要OCR(光学字符识别)技术,这通常比纯文本文件解析耗时更多。
如果文件内容语言较为复杂(如多语言混合、手写字体等),也会增加解析时间。
5. 知识库系统的性能
知识库系统本身可能存在性能瓶颈,例如数据库写入速度慢、索引构建耗时较长等。
如果系统未针对大规模数据处理进行优化,解析速度可能会受到影响。
AI之惊涛拍岸 发表于 2025-4-11 15:10
  
一般embeding等小模型会预先设置好1~2个显卡,
1、当上传文件太大、数据种类格式多时,如:存在较多图片做ocr、PDF转TXT过程等P2T框架的模型调用,会对影响解析的速率
2、观察是否开启了知识增强,知识增强是指根据上传知识库的文档自动生成问题和文档段落摘要,在检索时通过增强后内容来索引到对应的分片,大模型根据分片内容生成答案;开启后会调用知识增强模型抽取更加丰富的知识内容,来提升知识库准确定和查询效率。但是知识增强会额外调用大模型,消耗另外大模型的显卡资源,因此若完成解析需要在2个过程全部完成才会结束,导致了体验变差。
  
您的问题提的很好,产品规划端已经录入需求,后面产品会优化,将知识增强过程和解析过程分开,来提升用户的解析体验。
zjwshenxian 发表于 2025-4-11 20:15
  
看下文档大小,是不是文档太大,或者开启了知识增强。
_家宁 发表于 2025-4-13 00:21
  
看下文档大小,是不是文档太大,或者开启了知识增强。
王老师 发表于 2025-4-13 09:05
  
观察是否开启了知识增强,知识增强是指根据上传知识库的文档自动生成问题和文档段落摘要,在检索时通过增强后内容来索引到对应的分片,大模型根据分片内容生成答案;开启后会调用知识增强模型抽取更加丰富的知识内容,来提升知识库准确定和查询效率。但是知识增强会额外调用大模型,消耗另外大模型的显卡资源,因此若完成解析需要在2个过程全部完成才会结束,导致了体验变差。
jan 发表于 2025-4-13 15:07
  
是不是资源配置不够,或网速太慢呢
RPG 发表于 2025-4-15 16:45
  
看下文档大小,是不是文档太大,或者开启了知识增强。

等我来答:

换一批

发表新帖
热门标签
全部标签>
每日一问
新版本体验
技术咨询
标准化排查
安全效果
纪元平台
【 社区to talk】
产品连连看
功能体验
GIF动图学习
干货满满
技术笔记
问题分析处理
安装部署配置
自助服务平台操作指引
技术盲盒
社区新周刊
专家问答
运维工具
技术晨报
华北区交付直播
西北区每日一问
高手请过招
sangfor周刊
2023技术争霸赛专题
每周精选
信服课堂视频
畅聊IT
答题自测
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
流量管理
每日一记
云计算知识
用户认证
原创分享
解决方案
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
玩转零信任
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
深信服技术支持平台
社区帮助指南
答题榜单公布
通用技术
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
山东区技术晨报
文档捉虫活动
齐鲁TV
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
故障案例库

本版版主

3
3
0

发帖

粉丝

关注

0
0
0

发帖

粉丝

关注

本版达人