__init__.py 1.4 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546
  1. """
  2. 文档分类切分库
  3. 支持PDF和Word文档的目录提取、智能分类和文本切分
  4. 主要功能:
  5. 1. 提取PDF/Word文档的目录结构
  6. 2. 识别和校验目录的层级关系
  7. 3. 基于二级目录关键词匹配对一级目录进行智能分类
  8. 4. 按目录层级和字符数智能切分文本
  9. 5. 保存分类结果到多种格式
  10. 使用示例:
  11. from doc_worker import DocumentClassifier
  12. # 创建分类器实例
  13. classifier = DocumentClassifier()
  14. # 处理文档
  15. result = classifier.process_document(
  16. file_path="document.pdf",
  17. target_level=1, # 对一级目录进行分类
  18. output_dir="./output"
  19. )
  20. """
  21. __version__ = "2.0.0"
  22. __author__ = "Your Name"
  23. from core.construction_review.component.doc_worker import DocumentClassifier
  24. from core.construction_review.component.doc_worker.toc.toc_extractor import TOCExtractor
  25. from core.construction_review.component.doc_worker.chunking.text_splitter import TextSplitter
  26. from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
  27. from core.construction_review.component.doc_worker.classification.rule_based_classifier import RuleBasedClassifier
  28. from core.construction_review.component.doc_worker.output.result_saver import ResultSaver
  29. __all__ = [
  30. 'DocumentClassifier',
  31. 'TOCExtractor',
  32. 'TextSplitter',
  33. 'HierarchyClassifier',
  34. 'RuleBasedClassifier',
  35. 'ResultSaver'
  36. ]