| 1234567891011121314 |
- """
- 独立最小化文档处理管线
- 功能:PDF 结构提取 → 目录识别 → 文档切分 → 分类器(一/二/三级)
- 特点:
- - 不依赖 core.* / foundation.* 代码
- - 只使用标准库 + PyMuPDF + openai
- - 可直接运行:python run.py -p xxx.pdf
- """
- from .pipeline import MinimalPipeline
- from .models import PipelineResult, ClassificationItem, ChunkItem
- __all__ = ["MinimalPipeline", "PipelineResult", "ClassificationItem", "ChunkItem"]
|