""" 文档分类切分库 支持PDF和Word文档的目录提取、智能分类和文本切分 主要功能: 1. 提取PDF/Word文档的目录结构 2. 识别和校验目录的层级关系 3. 基于二级目录关键词匹配对一级目录进行智能分类 4. 按目录层级和字符数智能切分文本 5. 保存分类结果到多种格式 使用示例(当前推荐直接使用业务层封装的 DocumentProcessor,而不是底层分类器类)。 """ __version__ = "2.0.0" __author__ = "Your Name" from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier from core.construction_review.component.doc_worker.pdf_worker.toc_extractor import PdfTOCExtractor from core.construction_review.component.doc_worker.docx_worker.toc_extractor import DocxTOCExtractor from core.construction_review.component.doc_worker.pdf_worker.text_splitter import PdfTextSplitter from core.construction_review.component.doc_worker.docx_worker.text_splitter import DocxTextSplitter __all__ = [ 'TOCExtractor', 'TextSplitter', 'HierarchyClassifier', 'PdfTOCExtractor', 'DocxTOCExtractor', 'PdfTextSplitter', 'DocxTextSplitter', ]