| 123456789101112131415161718192021222324252627282930313233343536 |
- """
- 文档分类切分库
- 支持PDF和Word文档的目录提取、智能分类和文本切分
- 主要功能:
- 1. 提取PDF/Word文档的目录结构
- 2. 识别和校验目录的层级关系
- 3. 基于二级目录关键词匹配对一级目录进行智能分类
- 4. 按目录层级和字符数智能切分文本
- 5. 保存分类结果到多种格式
- 使用示例(当前推荐直接使用业务层封装的 DocumentProcessor,而不是底层分类器类)。
- """
- __version__ = "2.0.0"
- __author__ = "Your Name"
- from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
- from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
- from core.construction_review.component.doc_worker.pdf_worker.toc_extractor import PdfTOCExtractor
- from core.construction_review.component.doc_worker.docx_worker.toc_extractor import DocxTOCExtractor
- from core.construction_review.component.doc_worker.pdf_worker.text_splitter import PdfTextSplitter
- from core.construction_review.component.doc_worker.docx_worker.text_splitter import DocxTextSplitter
- __all__ = [
- 'TOCExtractor',
- 'TextSplitter',
- 'HierarchyClassifier',
- 'PdfTOCExtractor',
- 'DocxTOCExtractor',
- 'PdfTextSplitter',
- 'DocxTextSplitter',
- ]
|