CRBC-MaaS-Platform-Project
/
LQAgentPlatform


			
							12345678910111213141516171819202122232425262728293031323334
							"""
文档分类切分库
支持PDF文档的目录提取、智能分类和文本切分

主要功能：
1. 提取PDF文档的目录结构
2. 识别和校验目录的层级关系
3. 基于二级目录关键词匹配对一级目录进行智能分类
4. 按目录层级和字符数智能切分文本
5. 保存分类结果到多种格式

使用示例（当前推荐直接使用业务层封装的 DocumentProcessor，而不是底层分类器类）。

注意: DOCX/DOC 文件应在上传层转换为 PDF，本模块不再直接处理 DOCX
"""

__version__ = "2.1.0"
__author__ = "Your Name"


from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
from core.construction_review.component.doc_worker.pdf_worker.toc_extractor import PdfTOCExtractor
from core.construction_review.component.doc_worker.pdf_worker.text_splitter import PdfTextSplitter


__all__ = [
    'TOCExtractor',
    'TextSplitter',
    'HierarchyClassifier',
    'PdfTOCExtractor',
    'PdfTextSplitter',
]