COMPARISON_REPORT.md 9.1 KB

完整性审查方案对比测试报告

测试时间: 2026-05-09
测试模型: shutian_qwen3_5_122b (Qwen3.5-122B-A10B)
标准依据: 《公路水运危险性较大工程专项施工方案编制审查规程》JT/T 1495—2024
测试文件数: 5个(3个docx + 2个pdf)
总章节数: 40
总标准要求项: 399条


一、方案说明

方案A:先分类再比对(当前系统)

PDF → 文档切分 → 一级/二级标题分类 → 三级LLM行级分类 → 集合差运算 → 模板拼建议
  • 完整性判断基于分类结果的集合运算(确定性,无LLM)
  • 仅在生成建议时调用LLM
  • 每章节约 0~2 次LLM调用(多数为0次)

方案B:直接LLM解释

PDF → 文档切分 → chunks文本 + 标准要求 → LLM一次性判断(是否覆盖 + 证据 + 原因)
  • 完整性判断基于LLM语义理解
  • 每章节 1 次LLM调用
  • 输出包含:is_covered、evidence(文档原文引用)、reason(判断理由)、confidence

二、总览数据

文件 章节数 总要求 A缺失 B缺失 A耗时 B耗时 一致率
308085f5.pdf(仅overview) 1 14 13 10 1.0s 10.0s 25.0%
测试模版2(e7447ca3 9 94 2 7 1.1s 95.6s 92.5%
测试模版(目录缺失) 10 97 9 10 2.2s 108.7s 92.3%
测试模版2(bb3d6e6 10 97 4 4 2.4s 134.6s 93.8%
标准结构测试文件.pdf 10 97 15 14 37.2s 105.8s 85.4%
合计 40 399 43 45 43.9s 454.7s ~90%

注:第一个文件仅有1个overview章节且内容极度缺失,一致率异常低,不纳入整体评估。


三、各章节详细对比

3.1 测试模版2(e7447ca3)— 一致率 92.5%

章节 总要求 A缺失 B缺失 A完整率 B完整率 一致 分歧
编制依据 6 2 1 66.7% 83.3% 4 1
工程概况 14 0 1 100% 92.9% 13 1
施工计划 10 0 0 100% 100% 10 0
施工工艺技术 17 0 0 100% 100% 17 0
安全保证措施 18 0 4 100% 77.8% 14 4
质量保证措施 7 0 0 100% 100% 7 0
环境保证措施 7 0 1 100% 85.7% 6 1
施工管理及作业人员 5 0 0 100% 100% 5 0
验收要求 10 0 0 100% 100% 10 0

3.2 测试模版(目录缺失)— 一致率 92.3%

章节 总要求 A缺失 B缺失 A完整率 B完整率 一致 分歧
编制依据 6 1 1 83.3% 83.3% 5 0
工程概况 14 0 1 100% 92.9% 13 1
施工计划 10 0 0 100% 100% 10 0
施工工艺技术 17 0 0 100% 100% 17 0
安全保证措施 18 3 3 83.3% 83.3% 12 6
质量保证措施 7 0 0 100% 100% 7 0
环境保证措施 7 0 0 100% 100% 7 0
施工管理及作业人员 5 0 0 100% 100% 5 0
验收要求 10 5 5 50.0% 50.0% 5 0
其它资料 3 0 0 100% 100% 3 0

3.3 测试模版2(bb3d6e6)— 一致率 93.8%

章节 总要求 A缺失 B缺失 A完整率 B完整率 一致 分歧
编制依据 6 1 1 83.3% 83.3% 5 0
工程概况 14 0 1 100% 92.9% 13 1
施工计划 10 0 0 100% 100% 10 0
施工工艺技术 17 0 0 100% 100% 17 0
安全保证措施 18 3 2 83.3% 88.9% 13 5
质量保证措施 7 0 0 100% 100% 7 0
环境保证措施 7 0 0 100% 100% 7 0
施工管理及作业人员 5 0 0 100% 100% 5 0
验收要求 10 0 0 100% 100% 10 0
其它资料 3 0 0 100% 100% 3 0

3.4 标准结构测试文件.pdf — 一致率 85.4%

章节 总要求 A缺失 B缺失 A完整率 B完整率 一致 分歧
编制依据 6 1 1 83.3% 83.3% 5 0
工程概况 14 1 0 92.9% 100% 13 1
施工计划 10 1 1 90.0% 90.0% 9 0
施工工艺技术 17 2 4 88.2% 76.5% 12 4
安全保证措施 18 6 5 66.7% 72.2% 10 5
质量保证措施 7 2 1 71.4% 85.7% 5 1
环境保证措施 7 1 1 85.7% 85.7% 5 2
施工管理及作业人员 5 0 0 100% 100% 5 0
验收要求 10 1 1 90.0% 90.0% 9 0
其它资料 3 0 0 100% 100% 3 0

四、分歧分析

4.1 方案A独有缺失(A认为缺失,B认为已覆盖)

标准项代码 标准项名称 出现次数 涉及文件
OverallSecurityMeasures 总体安全措施 3 e7447ca3, bb3d6e6, 67d4569
PersonnelSafetyResponsibilities 人员安全职责 3 e7447ca3, bb3d6e6, 67d4569
SafetymanagementOrganization 安全管理组织 3 e7447ca3, bb3d6e6, 67d4569
ClassificationAndResponseMeasures 分级响应措施 2 308085f5, 67d4569
ConstructionTechnologySelection 施工工艺选择 1 67d4569
PhysicalProjectQualityAcceptance 实体工程质量验收 1 67d4569
SoilAndWaterConservationMeasuresInTheConstructionArea 施工区水土保持 1 67d4569
DangerSource 危险源 1 308085f5
ProjectIntroduction 工程简介 1 308085f5
IndustryStandards 行业标准 1 e7447ca3

模式:方案A的分类器对"组织架构类"标准项(Organization / Responsibilities / Measures)召回率低。这三个项在3个不同文件中反复被A标为缺失、B认为已覆盖,说明是分类器的系统性盲区,而非偶发错误。

4.2 方案B独有缺失(B认为缺失,A认为已覆盖)

标准项代码 标准项名称 出现次数 涉及文件
TrafficmanagementAndMedicalRescue 交通管理与医疗救援 4 e7447ca3, 5a8326f, bb3d6e6, 67d4569
WarningValuesAndControlValues 预警值与控制值 4 e7447ca3, 5a8326f, bb3d6e6, 67d4569
ProjectIntroduction 工程简介 3 e7447ca3, 5a8326f, bb3d6e6
MonitoringFrequency 监测频率 2 e7447ca3, 5a8326f
PostDisposal 事后处置 1 67d4569
ProblemSolvingMeasures 问题解决措施 1 67d4569
Staffing 人员配备 1 67d4569
TemporaryWaterAndElectricityConsumption 临时水电用量 1 67d4569
NoiseEmissionMonitoring 噪声排放监测 1 67d4569
EmergencySuppliesAndEquipmentSupport 应急物资装备保障 1 e7447ca3
AirPollutionPreventionAndControlMeasures 大气污染防治措施 1 e7447ca3

模式:方案B的LLM对"细节参数类"标准项(Frequency / Values / Consumption)更敏感,能从正文中识别具体参数是否缺失。TrafficmanagementAndMedicalRescueWarningValuesAndControlValues 在4个文件中反复被B标为缺失,说明B对这两项的判断标准可能偏严格,需要校准。


五、核心指标对比

维度 方案A(先分类再比对) 方案B(直接LLM解释)
LLM调用次数 0~1次/章节(仅建议生成) 1次/章节
总耗时 43.9s(5个文件) 454.7s(5个文件)
平均每章节 ~1.1s ~11.4s
判断一致性 高(集合运算确定性) 中(LLM每次可能不同)
可解释性 低(模板字符串拼接) 高(有证据+原因)
漏报风险 分类器漏分类 → 标准项被遗漏 LLM对隐含内容过度宽容
误报风险 中(部分标准项过度严格)
扩展性 差(新增标准需改分类器) 好(改prompt即可)
直观性 差(需解释分类链路) 好("文档有没有写这个内容")

六、结论与建议

结论

  1. 一致率约90%:两方案对绝大多数标准项判断一致,分歧集中在少数固定的标准项上
  2. 方案A的系统性盲区OverallSecurityMeasuresPersonnelSafetyResponsibilitiesSafetymanagementOrganization 三个标准项在分类器中召回率低
  3. 方案B的校准点ProjectIntroductionTrafficmanagementAndMedicalRescueWarningValuesAndControlValues 需要确认是B更准还是B过度严格
  4. 方案B更直观:直接告诉客户"有没有写、证据是什么",不需要解释分类链路

建议

  1. 采用方案B作为主方案 — 客户体验更好,链路更简洁,扩展性强
  2. 并行化LLM调用 — 当前串行~10s/章节,并发后可压到~15s总耗时
  3. 校准prompt — 对 ProjectIntroduction 等反复出现分歧的标准项,需要在prompt中明确"覆盖"的判定标准
  4. 人工抽查 — 选取2~3个章节,人工标注ground truth,计算方案B的precision/recall