__init__.py 462 B

1234567891011121314
  1. """
  2. 独立最小化文档处理管线
  3. 功能:PDF 结构提取 → 目录识别 → 文档切分 → 分类器(一/二/三级)
  4. 特点:
  5. - 不依赖 core.* / foundation.* 代码
  6. - 只使用标准库 + PyMuPDF + openai
  7. - 可直接运行:python run.py -p xxx.pdf
  8. """
  9. from .pipeline import MinimalPipeline
  10. from .models import PipelineResult, ClassificationItem, ChunkItem
  11. __all__ = ["MinimalPipeline", "PipelineResult", "ClassificationItem", "ChunkItem"]