CRBC-MaaS-Platform-Project/dev_sgsc_wxm
[3]s
新增 ocr_processor.py 模块,封装表格检测与 OCR 识别功能
提取 TableRegion、OcrResult 数据类到独立模块
OcrProcessor 类提供:
detect_table_regions(): RapidLayout 表格区域检测
process_ocr_concurrent(): 5 并发 OCR 识别
replace_table_regions(): 表格文本替换回填
_ocr_table_region(): GLM-OCR 调用(含指数退避重试)
_compress_image(): 图片压缩处理
_extract_ocr_content(): OCR 响应解析(支持 HTML 转 Markdown)
pdf_extractor.py 精简 314 行,OCR 相关功能委托给 OcrProcessor
保持原有 API 不变,use_ocr 参数行为一致
新增 ocr_processor.py 模块,封装表格检测与 OCR 识别功能
提取 TableRegion、OcrResult 数据类到独立模块
OcrProcessor 类提供:
detect_table_regions(): RapidLayout 表格区域检测
process_ocr_concurrent(): 5 并发 OCR 识别
replace_table_regions(): 表格文本替换回填
_ocr_table_region(): GLM-OCR 调用(含指数退避重试)
_compress_image(): 图片压缩处理
_extract_ocr_content(): OCR 响应解析(支持 HTML 转 Markdown)
pdf_extractor.py 精简 314 行,OCR 相关功能委托给 OcrProcessor
保持原有 API 不变,use_ocr 参数行为一致