# 文档切分测试深度分析报告 生成时间: 2026-03-29 ## 1. 测试结果汇总 | 状态 | 数量 | |------|------| | PASS | 6 | | FAIL | 1 | | 总计 | 7 | ## 2. FAIL Case 深度分析 **文件**: 测试模版-四川路桥专项施工方案框架以及编制说明(2025修订第三版)- v0.2.pdf **总 chunks**: 45 **一级章节数**: 10 ### 2.1 泄漏检测详情 检测到的泄漏: - Chunk ID: `doc_chunk_第九章->五_1` Section Label: `第九章 验收要求->五、 验收人员` 关键词: `第十章` - Chunk ID: `doc_chunk_第九章->五_1` Section Label: `第九章 验收要求->五、 验收人员` 关键词: `其他资料` ### 2.2 章节结构分析 **第九章 所有 chunks:** 1. `第九章 验收要求->一、 验收标准` 2. `第九章 验收要求->三、 验收内容` 3. `第九章 验收要求->二、 验收程序` 4. `第九章 验收要求->五、 验收人员` 5. `第九章 验收要求->四、 验收时间` <-- 最后一个 **第十章 所有 chunks:** 1. `第十章 其他资料` **异常发现**: 第十章只有一个 chunk 且没有二级节,而 PASS case 的第十章都有多个带二级节的 chunks。 可能原因: 1. 第十章原文确实没有二级标题 2. 第十章的二级标题未被正确识别(标题格式问题) 3. 第十章内容较少,只有一个 chunk ### 2.3 泄漏类型判断 根据现有数据,此泄漏很可能是**误报**,原因: 1. **第十章已成功提取**: `last_chapter_found: true` 2. **关键词仅出现在第九章最后一个 chunk**: 如果是真实泄漏,应该分散在多个第九章 chunks 中 3. **上下文可能是引用/过渡语**: 如"详见第十章 其他资料"或目录中的引用 ### 2.4 与其他文件对比 **PASS case (标准结构测试文件) 的第十章结构:** - `第十章其他资料->一、计算书` - `第十章其他资料->二、相关施工图纸` - `第十章其他资料->三、附图附表` **差异分析:** - 标准测试文件的第十章有3个二级节,每个都有独立的 chunk - FAIL case 的第十章只有一个 chunk,没有二级节 这可能是因为: 1. 两份文件的第十章结构确实不同(一个带二级标题,一个不带) 2. FAIL case 的第十章二级标题格式不符合识别规则 ## 3. 所有文件章节完整性检查 | 文件名 | TOC一级章节 | Chunk一级章节 | 泄漏检测 | 状态 | |--------|-------------|---------------|----------|------| | 标准结构测试文件.pdf | 10 | 10 | 无 | PASS | | 测试模版-四川路桥...v0.2.pdf | 10 | 10 | 有 | FAIL | | 成渝扩容桥梁下部结构...pdf | 10 | 10 | 无 | PASS | | 达州绕西高速...pdf | 8 | 8 | 无 | PASS | | 高处作业安全带...pdf | 9 | 9 | 无 | PASS | | 龙泉山左线特大桥...pdf | 9 | 9 | 无 | PASS | | 主线天桥现浇箱梁...pdf | 9 | 9 | 无 | PASS | **观察:** - 所有文件的 TOC 一级章节数与 Chunk 一级章节数完全匹配 - 无章节缺失问题 ## 4. 内容分布分析 **各文件 chunk 数量分布:** | 文件名 | 总 chunks | 平均每章节 chunks | |--------|-----------|-------------------| | 标准结构测试文件.pdf | 65 | 6.5 | | 测试模版-四川路桥...v0.2.pdf | 45 | 4.5 | | 成渝扩容桥梁下部结构...pdf | 59 | 5.9 | | 达州绕西高速...pdf | 19 | 2.4 | | 高处作业安全带...pdf | 38 | 4.2 | | 龙泉山左线特大桥...pdf | 42 | 4.7 | | 主线天桥现浇箱梁...pdf | 42 | 4.7 | **观察:** - 达州绕西高速文件平均每章节 chunks 较少 (2.4),可能是因为章节内容较少或格式简单 - 标准结构测试文件 chunk 数最多 (65),内容最丰富 ## 5. 结论与建议 ### 5.1 当前状态评估 | 检查项 | 结果 | 说明 | |--------|------|------| | 最后一章提取 | 7/7 成功 (100%) | 所有文件最后一章都已正确提取 | | 章节完整性 | 7/7 完整 (100%) | 无章节缺失 | | 跨章节泄漏 | 1/7 报异常 | 可能是误报,需人工确认 | **总体评价: 良好** ### 5.2 建议 1. **确认泄漏是否为误报** - 建议人工查看 `doc_chunk_第九章->五_1` 的完整内容 - 确认"第十章"、"其他资料"出现的上下文 - 如果是引用/过渡语,应优化检测逻辑排除此类场景 2. **检查第十章切分差异** - 确认 FAIL case 的第十章原文是否真的没有二级标题 - 如果是格式问题导致未识别,考虑优化标题匹配规则 3. **优化测试脚本** - 泄漏检测增加上下文分析(排除"详见第X章"等引用模式) - 保存 pipeline 中间结果,避免每次测试都重新运行 LLM 4. **增加更多测试维度** - 检查每个章节的内容长度分布 - 检测可能的重复内容 - 验证二级节标题的完整性 ## 6. 附录: FAIL case 完整 section_labels ``` 第一章 编制依据->一、 法律法规 第一章 编制依据->三、 文件制度 第一章 编制依据->二、 标准规范 第一章 编制依据->五、 编制范围 第一章 编制依据->四、 编制原则 第七章 环境保证措施->一、 环境保证体系 第七章 环境保证措施->三、 环境保护及文明施工措施 第七章 环境保证措施->二、 环境保护组织机构 第三章 施工计划->一、 施工进度计划 第三章 施工计划->三、 施工设备计划 第三章 施工计划->二、 施工材料计划 第三章 施工计划->五、 安全生产费用使用计划 第三章 施工计划->四、 劳动力计划 第九章 验收要求->一、 验收标准 第九章 验收要求->三、 验收内容 第九章 验收要求->二、 验收程序 第九章 验收要求->五、 验收人员 第九章 验收要求->四、 验收时间 第二章 工程概况->一、 设计概况 第二章 工程概况->七、 参建各方责任主体单位 第二章 工程概况->三、 周边环境 第二章 工程概况->二、 工程地质与水文气象 第二章 工程概况->五、 施工要求和技术保证条件 第二章 工程概况->六、 风险辨识与分级 第二章 工程概况->四、 施工平面及立面布置 第五章 安全保证措施->一、 安全保证体系 第五章 安全保证措施->三、 技术保障措施 第五章 安全保证措施->二、 组织保证措施 第五章 安全保证措施->五、 监测监控措施 第五章 安全保证措施->六、 应急处置措施 第五章 安全保证措施->四、 安全防护措施 第八章 施工管理及作业人员配备与分工->一、 施工管理人员 第八章 施工管理及作业人员配备与分工->三、 特种作业人员 第八章 施工管理及作业人员配备与分工->二、 专职安全生产管理人员 第六章 质量保证措施->一、 质量保证体系 第六章 质量保证措施->三、 工程创优规划 第六章 质量保证措施->二、 质量目标 第六章 质量保证措施->四、 质量控制程序与具体措施 第十章 其他资料 第四章 施工工艺技术->一、 主要施工方法概述 第四章 施工工艺技术->三、 工艺流程 第四章 施工工艺技术->二、 技术参数 第四章 施工工艺技术->五、 施工方法及操作要求 第四章 施工工艺技术->六、 检查要求 第四章 施工工艺技术->四、 施工准备 ```