__init__.py 1.3 KB

123456789101112131415161718192021222324252627282930313233343536
  1. """
  2. 文档分类切分库
  3. 支持PDF和Word文档的目录提取、智能分类和文本切分
  4. 主要功能:
  5. 1. 提取PDF/Word文档的目录结构
  6. 2. 识别和校验目录的层级关系
  7. 3. 基于二级目录关键词匹配对一级目录进行智能分类
  8. 4. 按目录层级和字符数智能切分文本
  9. 5. 保存分类结果到多种格式
  10. 使用示例(当前推荐直接使用业务层封装的 DocumentProcessor,而不是底层分类器类)。
  11. """
  12. __version__ = "2.0.0"
  13. __author__ = "Your Name"
  14. from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
  15. from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
  16. from core.construction_review.component.doc_worker.pdf_worker.toc_extractor import PdfTOCExtractor
  17. from core.construction_review.component.doc_worker.docx_worker.toc_extractor import DocxTOCExtractor
  18. from core.construction_review.component.doc_worker.pdf_worker.text_splitter import PdfTextSplitter
  19. from core.construction_review.component.doc_worker.docx_worker.text_splitter import DocxTextSplitter
  20. __all__ = [
  21. 'TOCExtractor',
  22. 'TextSplitter',
  23. 'HierarchyClassifier',
  24. 'PdfTOCExtractor',
  25. 'DocxTOCExtractor',
  26. 'PdfTextSplitter',
  27. 'DocxTextSplitter',
  28. ]