""" 文档分类切分库 支持PDF文档的目录提取、智能分类和文本切分 主要功能: 1. 提取PDF文档的目录结构 2. 识别和校验目录的层级关系 3. 基于二级目录关键词匹配对一级目录进行智能分类 4. 按目录层级和字符数智能切分文本 使用示例(当前推荐直接使用业务层封装的 DocumentProcessor)。 注意: DOCX/DOC 文件应在上传层转换为 PDF,本模块不再直接处理 DOCX """ __version__ = "2.1.0" __author__ = "Your Name" from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier __all__ = [ 'TOCExtractor', 'TextSplitter', 'HierarchyClassifier', ]