| 12345678910111213141516171819202122232425262728293031323334 |
- """
- 文档分类切分库
- 支持PDF文档的目录提取、智能分类和文本切分
- 主要功能:
- 1. 提取PDF文档的目录结构
- 2. 识别和校验目录的层级关系
- 3. 基于二级目录关键词匹配对一级目录进行智能分类
- 4. 按目录层级和字符数智能切分文本
- 5. 保存分类结果到多种格式
- 使用示例(当前推荐直接使用业务层封装的 DocumentProcessor,而不是底层分类器类)。
- 注意: DOCX/DOC 文件应在上传层转换为 PDF,本模块不再直接处理 DOCX
- """
- __version__ = "2.1.0"
- __author__ = "Your Name"
- from core.construction_review.component.doc_worker.interfaces import TOCExtractor, TextSplitter
- from core.construction_review.component.doc_worker.classification.hierarchy_classifier import HierarchyClassifier
- from core.construction_review.component.doc_worker.pdf_worker.toc_extractor import PdfTOCExtractor
- from core.construction_review.component.doc_worker.pdf_worker.text_splitter import PdfTextSplitter
- __all__ = [
- 'TOCExtractor',
- 'TextSplitter',
- 'HierarchyClassifier',
- 'PdfTOCExtractor',
- 'PdfTextSplitter',
- ]
|