#29 feat(sgsc-文档切分模块-xth): 新增OCR引擎切换与性能优化功能

ادغام شده
LingMin 1 کامیت ادغام شده از CRBC-MaaS-Platform-Project/dev_sgsc_xth به CRBC-MaaS-Platform-Project/dev 2 هفته پیش
  • 新增OCR引擎切换功能:支持通过config.ini配置切换GLM-OCR和MinerU两种引擎,保持飞桨版面分析分流逻辑不变,单页处理模式保留页码信息
  • 优化图片缓存机制:版面分析阶段缓存table页JPEG图片,供OCR阶段直接复用,避免重复PDF渲染,统一DPI为200提升性能
  • 添加全文提取统计:记录并输出版面分析耗时、OCR总耗时、OCR平均耗时、总页数、OCR页数等关键性能指标
  • 兼容多种引擎命名:支持glm_ocr/glm-ocr/glmocr和mineru/mineru-ocr/mineru_ocr等多种配置写法,增强配置灵活性"
- 新增OCR引擎切换功能:支持通过config.ini配置切换GLM-OCR和MinerU两种引擎,保持飞桨版面分析分流逻辑不变,单页处理模式保留页码信息 - 优化图片缓存机制:版面分析阶段缓存table页JPEG图片,供OCR阶段直接复用,避免重复PDF渲染,统一DPI为200提升性能 - 添加全文提取统计:记录并输出版面分析耗时、OCR总耗时、OCR平均耗时、总页数、OCR页数等关键性能指标 - 兼容多种引擎命名:支持glm_ocr/glm-ocr/glmocr和mineru/mineru-ocr/mineru_ocr等多种配置写法,增强配置灵活性"
درخواست pull request با موفقیت ادغام شد!
برای پیوستن به گفتگو، وارد شودید.
بدون نقطه عطف
بدون مسئول رسیدگی
1 مشارکت کننده
درحال بارگذاری...
لغو
ذخيره
هنوز محتوایی ایجاد نشده.