__init__.py 816 B

1234567891011121314151617181920212223242526272829
  1. """
  2. 文档分类切分库
  3. 支持PDF文档的目录提取、智能分类和文本切分
  4. 主要功能:
  5. 1. 提取PDF文档的目录结构
  6. 2. 识别和校验目录的层级关系
  7. 3. 基于二级目录关键词匹配对一级目录进行智能分类
  8. 4. 按目录层级和字符数智能切分文本
  9. 使用示例(当前推荐直接使用业务层封装的 DocumentProcessor)。
  10. 注意: DOCX/DOC 文件应在上传层转换为 PDF,本模块不再直接处理 DOCX
  11. """
  12. __version__ = "2.1.0"
  13. __author__ = "Your Name"
  14. from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
  15. from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
  16. __all__ = [
  17. 'TOCExtractor',
  18. 'TextSplitter',
  19. 'HierarchyClassifier',
  20. ]