comprehensive_analysis.md 7.1 KB

文档切分测试深度分析报告

生成时间: 2026-03-29

1. 测试结果汇总

状态 数量
PASS 6
FAIL 1
总计 7

2. FAIL Case 深度分析

文件: 测试模版-四川路桥专项施工方案框架以及编制说明(2025修订第三版)- v0.2.pdf

总 chunks: 45

一级章节数: 10

2.1 泄漏检测详情

检测到的泄漏:

  • Chunk ID: doc_chunk_第九章->五_1 Section Label: 第九章 验收要求->五、 验收人员 关键词: 第十章

  • Chunk ID: doc_chunk_第九章->五_1 Section Label: 第九章 验收要求->五、 验收人员 关键词: 其他资料

2.2 章节结构分析

第九章 所有 chunks:

  1. 第九章 验收要求->一、 验收标准
  2. 第九章 验收要求->三、 验收内容
  3. 第九章 验收要求->二、 验收程序
  4. 第九章 验收要求->五、 验收人员
  5. 第九章 验收要求->四、 验收时间 <-- 最后一个

第十章 所有 chunks:

  1. 第十章 其他资料

异常发现: 第十章只有一个 chunk 且没有二级节,而 PASS case 的第十章都有多个带二级节的 chunks。

可能原因:

  1. 第十章原文确实没有二级标题
  2. 第十章的二级标题未被正确识别(标题格式问题)
  3. 第十章内容较少,只有一个 chunk

2.3 泄漏类型判断

根据现有数据,此泄漏很可能是误报,原因:

  1. 第十章已成功提取: last_chapter_found: true
  2. 关键词仅出现在第九章最后一个 chunk: 如果是真实泄漏,应该分散在多个第九章 chunks 中
  3. 上下文可能是引用/过渡语: 如"详见第十章 其他资料"或目录中的引用

2.4 与其他文件对比

PASS case (标准结构测试文件) 的第十章结构:

  • 第十章其他资料->一、计算书
  • 第十章其他资料->二、相关施工图纸
  • 第十章其他资料->三、附图附表

差异分析:

  • 标准测试文件的第十章有3个二级节,每个都有独立的 chunk
  • FAIL case 的第十章只有一个 chunk,没有二级节

这可能是因为:

  1. 两份文件的第十章结构确实不同(一个带二级标题,一个不带)
  2. FAIL case 的第十章二级标题格式不符合识别规则

3. 所有文件章节完整性检查

文件名 TOC一级章节 Chunk一级章节 泄漏检测 状态
标准结构测试文件.pdf 10 10 PASS
测试模版-四川路桥...v0.2.pdf 10 10 FAIL
成渝扩容桥梁下部结构...pdf 10 10 PASS
达州绕西高速...pdf 8 8 PASS
高处作业安全带...pdf 9 9 PASS
龙泉山左线特大桥...pdf 9 9 PASS
主线天桥现浇箱梁...pdf 9 9 PASS

观察:

  • 所有文件的 TOC 一级章节数与 Chunk 一级章节数完全匹配
  • 无章节缺失问题

4. 内容分布分析

各文件 chunk 数量分布:

文件名 总 chunks 平均每章节 chunks
标准结构测试文件.pdf 65 6.5
测试模版-四川路桥...v0.2.pdf 45 4.5
成渝扩容桥梁下部结构...pdf 59 5.9
达州绕西高速...pdf 19 2.4
高处作业安全带...pdf 38 4.2
龙泉山左线特大桥...pdf 42 4.7
主线天桥现浇箱梁...pdf 42 4.7

观察:

  • 达州绕西高速文件平均每章节 chunks 较少 (2.4),可能是因为章节内容较少或格式简单
  • 标准结构测试文件 chunk 数最多 (65),内容最丰富

5. 结论与建议

5.1 当前状态评估

检查项 结果 说明
最后一章提取 7/7 成功 (100%) 所有文件最后一章都已正确提取
章节完整性 7/7 完整 (100%) 无章节缺失
跨章节泄漏 1/7 报异常 可能是误报,需人工确认

总体评价: 良好

5.2 建议

  1. 确认泄漏是否为误报

    • 建议人工查看 doc_chunk_第九章->五_1 的完整内容
    • 确认"第十章"、"其他资料"出现的上下文
    • 如果是引用/过渡语,应优化检测逻辑排除此类场景
  2. 检查第十章切分差异

    • 确认 FAIL case 的第十章原文是否真的没有二级标题
    • 如果是格式问题导致未识别,考虑优化标题匹配规则
  3. 优化测试脚本

    • 泄漏检测增加上下文分析(排除"详见第X章"等引用模式)
    • 保存 pipeline 中间结果,避免每次测试都重新运行 LLM
  4. 增加更多测试维度

    • 检查每个章节的内容长度分布
    • 检测可能的重复内容
    • 验证二级节标题的完整性

6. 附录: FAIL case 完整 section_labels

第一章 编制依据->一、 法律法规
第一章 编制依据->三、 文件制度
第一章 编制依据->二、 标准规范
第一章 编制依据->五、 编制范围
第一章 编制依据->四、 编制原则
第七章 环境保证措施->一、 环境保证体系
第七章 环境保证措施->三、 环境保护及文明施工措施
第七章 环境保证措施->二、 环境保护组织机构
第三章 施工计划->一、 施工进度计划
第三章 施工计划->三、 施工设备计划
第三章 施工计划->二、 施工材料计划
第三章 施工计划->五、 安全生产费用使用计划
第三章 施工计划->四、 劳动力计划
第九章 验收要求->一、 验收标准
第九章 验收要求->三、 验收内容
第九章 验收要求->二、 验收程序
第九章 验收要求->五、 验收人员
第九章 验收要求->四、 验收时间
第二章 工程概况->一、 设计概况
第二章 工程概况->七、 参建各方责任主体单位
第二章 工程概况->三、 周边环境
第二章 工程概况->二、 工程地质与水文气象
第二章 工程概况->五、 施工要求和技术保证条件
第二章 工程概况->六、 风险辨识与分级
第二章 工程概况->四、 施工平面及立面布置
第五章 安全保证措施->一、 安全保证体系
第五章 安全保证措施->三、 技术保障措施
第五章 安全保证措施->二、 组织保证措施
第五章 安全保证措施->五、 监测监控措施
第五章 安全保证措施->六、 应急处置措施
第五章 安全保证措施->四、 安全防护措施
第八章 施工管理及作业人员配备与分工->一、 施工管理人员
第八章 施工管理及作业人员配备与分工->三、 特种作业人员
第八章 施工管理及作业人员配备与分工->二、 专职安全生产管理人员
第六章 质量保证措施->一、 质量保证体系
第六章 质量保证措施->三、 工程创优规划
第六章 质量保证措施->二、 质量目标
第六章 质量保证措施->四、 质量控制程序与具体措施
第十章 其他资料
第四章 施工工艺技术->一、 主要施工方法概述
第四章 施工工艺技术->三、 工艺流程
第四章 施工工艺技术->二、 技术参数
第四章 施工工艺技术->五、 施工方法及操作要求
第四章 施工工艺技术->六、 检查要求
第四章 施工工艺技术->四、 施工准备