# 完整性审查方案对比测试报告 **测试时间**: 2026-05-09 **测试模型**: shutian_qwen3_5_122b (Qwen3.5-122B-A10B) **标准依据**: 《公路水运危险性较大工程专项施工方案编制审查规程》JT/T 1495—2024 **测试文件数**: 5个(3个docx + 2个pdf) **总章节数**: 40 **总标准要求项**: 399条 --- ## 一、方案说明 ### 方案A:先分类再比对(当前系统) ``` PDF → 文档切分 → 一级/二级标题分类 → 三级LLM行级分类 → 集合差运算 → 模板拼建议 ``` - 完整性判断基于**分类结果的集合运算**(确定性,无LLM) - 仅在生成建议时调用LLM - 每章节约 0~2 次LLM调用(多数为0次) ### 方案B:直接LLM解释 ``` PDF → 文档切分 → chunks文本 + 标准要求 → LLM一次性判断(是否覆盖 + 证据 + 原因) ``` - 完整性判断基于**LLM语义理解** - 每章节 1 次LLM调用 - 输出包含:is_covered、evidence(文档原文引用)、reason(判断理由)、confidence --- ## 二、总览数据 | 文件 | 章节数 | 总要求 | A缺失 | B缺失 | A耗时 | B耗时 | 一致率 | |------|--------|--------|-------|-------|-------|-------|--------| | 308085f5.pdf(仅overview) | 1 | 14 | 13 | 10 | 1.0s | 10.0s | 25.0% | | 测试模版2(e7447ca3) | 9 | 94 | 2 | 7 | 1.1s | 95.6s | 92.5% | | 测试模版(目录缺失) | 10 | 97 | 9 | 10 | 2.2s | 108.7s | 92.3% | | 测试模版2(bb3d6e6) | 10 | 97 | 4 | 4 | 2.4s | 134.6s | 93.8% | | 标准结构测试文件.pdf | 10 | 97 | 15 | 14 | 37.2s | 105.8s | 85.4% | | **合计** | **40** | **399** | **43** | **45** | **43.9s** | **454.7s** | **~90%** | > 注:第一个文件仅有1个overview章节且内容极度缺失,一致率异常低,不纳入整体评估。 --- ## 三、各章节详细对比 ### 3.1 测试模版2(e7447ca3)— 一致率 92.5% | 章节 | 总要求 | A缺失 | B缺失 | A完整率 | B完整率 | 一致 | 分歧 | |------|--------|-------|-------|---------|---------|------|------| | 编制依据 | 6 | 2 | 1 | 66.7% | 83.3% | 4 | 1 | | 工程概况 | 14 | 0 | 1 | 100% | 92.9% | 13 | 1 | | 施工计划 | 10 | 0 | 0 | 100% | 100% | 10 | 0 | | 施工工艺技术 | 17 | 0 | 0 | 100% | 100% | 17 | 0 | | 安全保证措施 | 18 | 0 | 4 | 100% | 77.8% | 14 | 4 | | 质量保证措施 | 7 | 0 | 0 | 100% | 100% | 7 | 0 | | 环境保证措施 | 7 | 0 | 1 | 100% | 85.7% | 6 | 1 | | 施工管理及作业人员 | 5 | 0 | 0 | 100% | 100% | 5 | 0 | | 验收要求 | 10 | 0 | 0 | 100% | 100% | 10 | 0 | ### 3.2 测试模版(目录缺失)— 一致率 92.3% | 章节 | 总要求 | A缺失 | B缺失 | A完整率 | B完整率 | 一致 | 分歧 | |------|--------|-------|-------|---------|---------|------|------| | 编制依据 | 6 | 1 | 1 | 83.3% | 83.3% | 5 | 0 | | 工程概况 | 14 | 0 | 1 | 100% | 92.9% | 13 | 1 | | 施工计划 | 10 | 0 | 0 | 100% | 100% | 10 | 0 | | 施工工艺技术 | 17 | 0 | 0 | 100% | 100% | 17 | 0 | | 安全保证措施 | 18 | 3 | 3 | 83.3% | 83.3% | 12 | 6 | | 质量保证措施 | 7 | 0 | 0 | 100% | 100% | 7 | 0 | | 环境保证措施 | 7 | 0 | 0 | 100% | 100% | 7 | 0 | | 施工管理及作业人员 | 5 | 0 | 0 | 100% | 100% | 5 | 0 | | 验收要求 | 10 | 5 | 5 | 50.0% | 50.0% | 5 | 0 | | 其它资料 | 3 | 0 | 0 | 100% | 100% | 3 | 0 | ### 3.3 测试模版2(bb3d6e6)— 一致率 93.8% | 章节 | 总要求 | A缺失 | B缺失 | A完整率 | B完整率 | 一致 | 分歧 | |------|--------|-------|-------|---------|---------|------|------| | 编制依据 | 6 | 1 | 1 | 83.3% | 83.3% | 5 | 0 | | 工程概况 | 14 | 0 | 1 | 100% | 92.9% | 13 | 1 | | 施工计划 | 10 | 0 | 0 | 100% | 100% | 10 | 0 | | 施工工艺技术 | 17 | 0 | 0 | 100% | 100% | 17 | 0 | | 安全保证措施 | 18 | 3 | 2 | 83.3% | 88.9% | 13 | 5 | | 质量保证措施 | 7 | 0 | 0 | 100% | 100% | 7 | 0 | | 环境保证措施 | 7 | 0 | 0 | 100% | 100% | 7 | 0 | | 施工管理及作业人员 | 5 | 0 | 0 | 100% | 100% | 5 | 0 | | 验收要求 | 10 | 0 | 0 | 100% | 100% | 10 | 0 | | 其它资料 | 3 | 0 | 0 | 100% | 100% | 3 | 0 | ### 3.4 标准结构测试文件.pdf — 一致率 85.4% | 章节 | 总要求 | A缺失 | B缺失 | A完整率 | B完整率 | 一致 | 分歧 | |------|--------|-------|-------|---------|---------|------|------| | 编制依据 | 6 | 1 | 1 | 83.3% | 83.3% | 5 | 0 | | 工程概况 | 14 | 1 | 0 | 92.9% | 100% | 13 | 1 | | 施工计划 | 10 | 1 | 1 | 90.0% | 90.0% | 9 | 0 | | 施工工艺技术 | 17 | 2 | 4 | 88.2% | 76.5% | 12 | 4 | | 安全保证措施 | 18 | 6 | 5 | 66.7% | 72.2% | 10 | 5 | | 质量保证措施 | 7 | 2 | 1 | 71.4% | 85.7% | 5 | 1 | | 环境保证措施 | 7 | 1 | 1 | 85.7% | 85.7% | 5 | 2 | | 施工管理及作业人员 | 5 | 0 | 0 | 100% | 100% | 5 | 0 | | 验收要求 | 10 | 1 | 1 | 90.0% | 90.0% | 9 | 0 | | 其它资料 | 3 | 0 | 0 | 100% | 100% | 3 | 0 | --- ## 四、分歧分析 ### 4.1 方案A独有缺失(A认为缺失,B认为已覆盖) | 标准项代码 | 标准项名称 | 出现次数 | 涉及文件 | |-----------|-----------|---------|---------| | OverallSecurityMeasures | 总体安全措施 | 3 | e7447ca3, bb3d6e6, 67d4569 | | PersonnelSafetyResponsibilities | 人员安全职责 | 3 | e7447ca3, bb3d6e6, 67d4569 | | SafetymanagementOrganization | 安全管理组织 | 3 | e7447ca3, bb3d6e6, 67d4569 | | ClassificationAndResponseMeasures | 分级响应措施 | 2 | 308085f5, 67d4569 | | ConstructionTechnologySelection | 施工工艺选择 | 1 | 67d4569 | | PhysicalProjectQualityAcceptance | 实体工程质量验收 | 1 | 67d4569 | | SoilAndWaterConservationMeasuresInTheConstructionArea | 施工区水土保持 | 1 | 67d4569 | | DangerSource | 危险源 | 1 | 308085f5 | | ProjectIntroduction | 工程简介 | 1 | 308085f5 | | IndustryStandards | 行业标准 | 1 | e7447ca3 | **模式**:方案A的分类器对"组织架构类"标准项(Organization / Responsibilities / Measures)召回率低。这三个项在3个不同文件中反复被A标为缺失、B认为已覆盖,说明是分类器的系统性盲区,而非偶发错误。 ### 4.2 方案B独有缺失(B认为缺失,A认为已覆盖) | 标准项代码 | 标准项名称 | 出现次数 | 涉及文件 | |-----------|-----------|---------|---------| | TrafficmanagementAndMedicalRescue | 交通管理与医疗救援 | 4 | e7447ca3, 5a8326f, bb3d6e6, 67d4569 | | WarningValuesAndControlValues | 预警值与控制值 | 4 | e7447ca3, 5a8326f, bb3d6e6, 67d4569 | | ProjectIntroduction | 工程简介 | 3 | e7447ca3, 5a8326f, bb3d6e6 | | MonitoringFrequency | 监测频率 | 2 | e7447ca3, 5a8326f | | PostDisposal | 事后处置 | 1 | 67d4569 | | ProblemSolvingMeasures | 问题解决措施 | 1 | 67d4569 | | Staffing | 人员配备 | 1 | 67d4569 | | TemporaryWaterAndElectricityConsumption | 临时水电用量 | 1 | 67d4569 | | NoiseEmissionMonitoring | 噪声排放监测 | 1 | 67d4569 | | EmergencySuppliesAndEquipmentSupport | 应急物资装备保障 | 1 | e7447ca3 | | AirPollutionPreventionAndControlMeasures | 大气污染防治措施 | 1 | e7447ca3 | **模式**:方案B的LLM对"细节参数类"标准项(Frequency / Values / Consumption)更敏感,能从正文中识别具体参数是否缺失。`TrafficmanagementAndMedicalRescue` 和 `WarningValuesAndControlValues` 在4个文件中反复被B标为缺失,说明B对这两项的判断标准可能偏严格,需要校准。 --- ## 五、核心指标对比 | 维度 | 方案A(先分类再比对) | 方案B(直接LLM解释) | |------|----------------------|---------------------| | **LLM调用次数** | 0~1次/章节(仅建议生成) | 1次/章节 | | **总耗时** | 43.9s(5个文件) | 454.7s(5个文件) | | **平均每章节** | ~1.1s | ~11.4s | | **判断一致性** | 高(集合运算确定性) | 中(LLM每次可能不同) | | **可解释性** | 低(模板字符串拼接) | 高(有证据+原因) | | **漏报风险** | 分类器漏分类 → 标准项被遗漏 | LLM对隐含内容过度宽容 | | **误报风险** | 低 | 中(部分标准项过度严格) | | **扩展性** | 差(新增标准需改分类器) | 好(改prompt即可) | | **直观性** | 差(需解释分类链路) | 好("文档有没有写这个内容") | --- ## 六、结论与建议 ### 结论 1. **一致率约90%**:两方案对绝大多数标准项判断一致,分歧集中在少数固定的标准项上 2. **方案A的系统性盲区**:`OverallSecurityMeasures`、`PersonnelSafetyResponsibilities`、`SafetymanagementOrganization` 三个标准项在分类器中召回率低 3. **方案B的校准点**:`ProjectIntroduction`、`TrafficmanagementAndMedicalRescue`、`WarningValuesAndControlValues` 需要确认是B更准还是B过度严格 4. **方案B更直观**:直接告诉客户"有没有写、证据是什么",不需要解释分类链路 ### 建议 1. **采用方案B作为主方案** — 客户体验更好,链路更简洁,扩展性强 2. **并行化LLM调用** — 当前串行~10s/章节,并发后可压到~15s总耗时 3. **校准prompt** — 对 `ProjectIntroduction` 等反复出现分歧的标准项,需要在prompt中明确"覆盖"的判定标准 4. **人工抽查** — 选取2~3个章节,人工标注ground truth,计算方案B的precision/recall