CRBC-MaaS-Platform-Project
/
LQAgentPlatform


			
							123456789101112131415161718192021222324252627282930313233343536
							"""
文档分类切分库
支持PDF和Word文档的目录提取、智能分类和文本切分

主要功能：
1. 提取PDF/Word文档的目录结构
2. 识别和校验目录的层级关系
3. 基于二级目录关键词匹配对一级目录进行智能分类
4. 按目录层级和字符数智能切分文本
5. 保存分类结果到多种格式

使用示例（当前推荐直接使用业务层封装的 DocumentProcessor，而不是底层分类器类）。
"""

__version__ = "2.0.0"
__author__ = "Your Name"


from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
from core.construction_review.component.doc_worker.pdf_worker.toc_extractor import PdfTOCExtractor
from core.construction_review.component.doc_worker.docx_worker.toc_extractor import DocxTOCExtractor
from core.construction_review.component.doc_worker.pdf_worker.text_splitter import PdfTextSplitter
from core.construction_review.component.doc_worker.docx_worker.text_splitter import DocxTextSplitter


__all__ = [
    'TOCExtractor',
    'TextSplitter',
    'HierarchyClassifier',
    'PdfTOCExtractor',
    'DocxTOCExtractor',
    'PdfTextSplitter',
    'DocxTextSplitter',
]