CRBC-MaaS-Platform-Project
/
LQAgentPlatform


			
							1234567891011121314151617181920212223242526272829
							"""
文档分类切分库
支持PDF文档的目录提取、智能分类和文本切分

主要功能：
1. 提取PDF文档的目录结构
2. 识别和校验目录的层级关系
3. 基于二级目录关键词匹配对一级目录进行智能分类
4. 按目录层级和字符数智能切分文本

使用示例（当前推荐直接使用业务层封装的 DocumentProcessor）。

注意: DOCX/DOC 文件应在上传层转换为 PDF，本模块不再直接处理 DOCX
"""

__version__ = "2.1.0"
__author__ = "Your Name"


from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier


__all__ = [
    'TOCExtractor',
    'TextSplitter',
    'HierarchyClassifier',
]