__init__.py 1.1 KB

12345678910111213141516171819202122232425262728293031323334
  1. """
  2. 文档分类切分库
  3. 支持PDF文档的目录提取、智能分类和文本切分
  4. 主要功能:
  5. 1. 提取PDF文档的目录结构
  6. 2. 识别和校验目录的层级关系
  7. 3. 基于二级目录关键词匹配对一级目录进行智能分类
  8. 4. 按目录层级和字符数智能切分文本
  9. 5. 保存分类结果到多种格式
  10. 使用示例(当前推荐直接使用业务层封装的 DocumentProcessor,而不是底层分类器类)。
  11. 注意: DOCX/DOC 文件应在上传层转换为 PDF,本模块不再直接处理 DOCX
  12. """
  13. __version__ = "2.1.0"
  14. __author__ = "Your Name"
  15. from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
  16. from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
  17. from core.construction_review.component.doc_worker.pdf_worker.toc_extractor import PdfTOCExtractor
  18. from core.construction_review.component.doc_worker.pdf_worker.text_splitter import PdfTextSplitter
  19. __all__ = [
  20. 'TOCExtractor',
  21. 'TextSplitter',
  22. 'HierarchyClassifier',
  23. 'PdfTOCExtractor',
  24. 'PdfTextSplitter',
  25. ]