refactor(pdf_extractor): 将 OCR 功能解耦为独立模块

新增 ocr_processor.py 模块，封装表格检测与 OCR 识别功能

提取 TableRegion、OcrResult 数据类到独立模块

OcrProcessor 类提供：

detect_table_regions(): RapidLayout 表格区域检测

process_ocr_concurrent(): 5 并发 OCR 识别

replace_table_regions(): 表格文本替换回填

_ocr_table_region(): GLM-OCR 调用（含指数退避重试）

_compress_image(): 图片压缩处理

_extract_ocr_content(): OCR 响应解析（支持 HTML 转 Markdown）

pdf_extractor.py 精简 314 行，OCR 相关功能委托给 OcrProcessor

保持原有 API 不变，use_ocr 参数行为一致

Yêu cầu kéo này đã được sáp nhập thành công!

Đăng nhập để tham gia bình luận.

Không có nhãn

Không có Milestone

Không có người được phân công

1 tham gia

#70 refactor(pdf_extractor): 将 OCR 功能解耦为独立模块