#70 refactor(pdf_extractor): 将 OCR 功能解耦为独立模块

Нэгтгэсэн
WangXuMing 1-ийг CRBC-MaaS-Platform-Project/dev_sgsc_wxm-оос CRBC-MaaS-Platform-Project/dev 1 долоо хоног өмнө болгон нэгтгэв
WangXuMing санал үлдээсэн 1 долоо хоног өмнө

新增 ocr_processor.py 模块,封装表格检测与 OCR 识别功能

提取 TableRegion、OcrResult 数据类到独立模块

OcrProcessor 类提供:

detect_table_regions(): RapidLayout 表格区域检测

process_ocr_concurrent(): 5 并发 OCR 识别

replace_table_regions(): 表格文本替换回填

_ocr_table_region(): GLM-OCR 调用(含指数退避重试)

_compress_image(): 图片压缩处理

_extract_ocr_content(): OCR 响应解析(支持 HTML 转 Markdown)

pdf_extractor.py 精简 314 行,OCR 相关功能委托给 OcrProcessor

保持原有 API 不变,use_ocr 参数行为一致

新增 ocr_processor.py 模块,封装表格检测与 OCR 识别功能 提取 TableRegion、OcrResult 数据类到独立模块 OcrProcessor 类提供: detect_table_regions(): RapidLayout 表格区域检测 process_ocr_concurrent(): 5 并发 OCR 识别 replace_table_regions(): 表格文本替换回填 _ocr_table_region(): GLM-OCR 调用(含指数退避重试) _compress_image(): 图片压缩处理 _extract_ocr_content(): OCR 响应解析(支持 HTML 转 Markdown) pdf_extractor.py 精简 314 行,OCR 相关功能委托给 OcrProcessor 保持原有 API 不变,use_ocr 参数行为一致
Энэхүү татах хүсэлтийг амжилттай нэгтгэв!
Энэ хэлэлцүүлгэнд нэгдэхийн тулт та нэвтэрнэ үү.
Үе шат заахгүй
Хариуцагч байхгүй
1 Оролцогчид
Ачааллаж байна ...
Цуцлах
Хадгалах
Харуулах агуулга байхгүй байна.