完整性审查方案对比测试报告
测试时间: 2026-05-09
测试模型: shutian_qwen3_5_122b (Qwen3.5-122B-A10B)
标准依据: 《公路水运危险性较大工程专项施工方案编制审查规程》JT/T 1495—2024
测试文件数: 5个(3个docx + 2个pdf)
总章节数: 40
总标准要求项: 399条
一、方案说明
方案A:先分类再比对(当前系统)
PDF → 文档切分 → 一级/二级标题分类 → 三级LLM行级分类 → 集合差运算 → 模板拼建议
- 完整性判断基于分类结果的集合运算(确定性,无LLM)
- 仅在生成建议时调用LLM
- 每章节约 0~2 次LLM调用(多数为0次)
方案B:直接LLM解释
PDF → 文档切分 → chunks文本 + 标准要求 → LLM一次性判断(是否覆盖 + 证据 + 原因)
- 完整性判断基于LLM语义理解
- 每章节 1 次LLM调用
- 输出包含:is_covered、evidence(文档原文引用)、reason(判断理由)、confidence
二、总览数据
| 文件 |
章节数 |
总要求 |
A缺失 |
B缺失 |
A耗时 |
B耗时 |
一致率 |
308085f5.pdf(仅overview) |
1 |
14 |
13 |
10 |
1.0s |
10.0s |
25.0% |
测试模版2(e7447ca3) |
9 |
94 |
2 |
7 |
1.1s |
95.6s |
92.5% |
| 测试模版(目录缺失) |
10 |
97 |
9 |
10 |
2.2s |
108.7s |
92.3% |
测试模版2(bb3d6e6) |
10 |
97 |
4 |
4 |
2.4s |
134.6s |
93.8% |
| 标准结构测试文件.pdf |
10 |
97 |
15 |
14 |
37.2s |
105.8s |
85.4% |
| 合计 |
40 |
399 |
43 |
45 |
43.9s |
454.7s |
~90% |
注:第一个文件仅有1个overview章节且内容极度缺失,一致率异常低,不纳入整体评估。
三、各章节详细对比
3.1 测试模版2(e7447ca3)— 一致率 92.5%
| 章节 |
总要求 |
A缺失 |
B缺失 |
A完整率 |
B完整率 |
一致 |
分歧 |
| 编制依据 |
6 |
2 |
1 |
66.7% |
83.3% |
4 |
1 |
| 工程概况 |
14 |
0 |
1 |
100% |
92.9% |
13 |
1 |
| 施工计划 |
10 |
0 |
0 |
100% |
100% |
10 |
0 |
| 施工工艺技术 |
17 |
0 |
0 |
100% |
100% |
17 |
0 |
| 安全保证措施 |
18 |
0 |
4 |
100% |
77.8% |
14 |
4 |
| 质量保证措施 |
7 |
0 |
0 |
100% |
100% |
7 |
0 |
| 环境保证措施 |
7 |
0 |
1 |
100% |
85.7% |
6 |
1 |
| 施工管理及作业人员 |
5 |
0 |
0 |
100% |
100% |
5 |
0 |
| 验收要求 |
10 |
0 |
0 |
100% |
100% |
10 |
0 |
3.2 测试模版(目录缺失)— 一致率 92.3%
| 章节 |
总要求 |
A缺失 |
B缺失 |
A完整率 |
B完整率 |
一致 |
分歧 |
| 编制依据 |
6 |
1 |
1 |
83.3% |
83.3% |
5 |
0 |
| 工程概况 |
14 |
0 |
1 |
100% |
92.9% |
13 |
1 |
| 施工计划 |
10 |
0 |
0 |
100% |
100% |
10 |
0 |
| 施工工艺技术 |
17 |
0 |
0 |
100% |
100% |
17 |
0 |
| 安全保证措施 |
18 |
3 |
3 |
83.3% |
83.3% |
12 |
6 |
| 质量保证措施 |
7 |
0 |
0 |
100% |
100% |
7 |
0 |
| 环境保证措施 |
7 |
0 |
0 |
100% |
100% |
7 |
0 |
| 施工管理及作业人员 |
5 |
0 |
0 |
100% |
100% |
5 |
0 |
| 验收要求 |
10 |
5 |
5 |
50.0% |
50.0% |
5 |
0 |
| 其它资料 |
3 |
0 |
0 |
100% |
100% |
3 |
0 |
3.3 测试模版2(bb3d6e6)— 一致率 93.8%
| 章节 |
总要求 |
A缺失 |
B缺失 |
A完整率 |
B完整率 |
一致 |
分歧 |
| 编制依据 |
6 |
1 |
1 |
83.3% |
83.3% |
5 |
0 |
| 工程概况 |
14 |
0 |
1 |
100% |
92.9% |
13 |
1 |
| 施工计划 |
10 |
0 |
0 |
100% |
100% |
10 |
0 |
| 施工工艺技术 |
17 |
0 |
0 |
100% |
100% |
17 |
0 |
| 安全保证措施 |
18 |
3 |
2 |
83.3% |
88.9% |
13 |
5 |
| 质量保证措施 |
7 |
0 |
0 |
100% |
100% |
7 |
0 |
| 环境保证措施 |
7 |
0 |
0 |
100% |
100% |
7 |
0 |
| 施工管理及作业人员 |
5 |
0 |
0 |
100% |
100% |
5 |
0 |
| 验收要求 |
10 |
0 |
0 |
100% |
100% |
10 |
0 |
| 其它资料 |
3 |
0 |
0 |
100% |
100% |
3 |
0 |
3.4 标准结构测试文件.pdf — 一致率 85.4%
| 章节 |
总要求 |
A缺失 |
B缺失 |
A完整率 |
B完整率 |
一致 |
分歧 |
| 编制依据 |
6 |
1 |
1 |
83.3% |
83.3% |
5 |
0 |
| 工程概况 |
14 |
1 |
0 |
92.9% |
100% |
13 |
1 |
| 施工计划 |
10 |
1 |
1 |
90.0% |
90.0% |
9 |
0 |
| 施工工艺技术 |
17 |
2 |
4 |
88.2% |
76.5% |
12 |
4 |
| 安全保证措施 |
18 |
6 |
5 |
66.7% |
72.2% |
10 |
5 |
| 质量保证措施 |
7 |
2 |
1 |
71.4% |
85.7% |
5 |
1 |
| 环境保证措施 |
7 |
1 |
1 |
85.7% |
85.7% |
5 |
2 |
| 施工管理及作业人员 |
5 |
0 |
0 |
100% |
100% |
5 |
0 |
| 验收要求 |
10 |
1 |
1 |
90.0% |
90.0% |
9 |
0 |
| 其它资料 |
3 |
0 |
0 |
100% |
100% |
3 |
0 |
四、分歧分析
4.1 方案A独有缺失(A认为缺失,B认为已覆盖)
模式:方案A的分类器对"组织架构类"标准项(Organization / Responsibilities / Measures)召回率低。这三个项在3个不同文件中反复被A标为缺失、B认为已覆盖,说明是分类器的系统性盲区,而非偶发错误。
4.2 方案B独有缺失(B认为缺失,A认为已覆盖)
模式:方案B的LLM对"细节参数类"标准项(Frequency / Values / Consumption)更敏感,能从正文中识别具体参数是否缺失。TrafficmanagementAndMedicalRescue 和 WarningValuesAndControlValues 在4个文件中反复被B标为缺失,说明B对这两项的判断标准可能偏严格,需要校准。
五、核心指标对比
| 维度 |
方案A(先分类再比对) |
方案B(直接LLM解释) |
| LLM调用次数 |
0~1次/章节(仅建议生成) |
1次/章节 |
| 总耗时 |
43.9s(5个文件) |
454.7s(5个文件) |
| 平均每章节 |
~1.1s |
~11.4s |
| 判断一致性 |
高(集合运算确定性) |
中(LLM每次可能不同) |
| 可解释性 |
低(模板字符串拼接) |
高(有证据+原因) |
| 漏报风险 |
分类器漏分类 → 标准项被遗漏 |
LLM对隐含内容过度宽容 |
| 误报风险 |
低 |
中(部分标准项过度严格) |
| 扩展性 |
差(新增标准需改分类器) |
好(改prompt即可) |
| 直观性 |
差(需解释分类链路) |
好("文档有没有写这个内容") |
六、结论与建议
结论
- 一致率约90%:两方案对绝大多数标准项判断一致,分歧集中在少数固定的标准项上
- 方案A的系统性盲区:
OverallSecurityMeasures、PersonnelSafetyResponsibilities、SafetymanagementOrganization 三个标准项在分类器中召回率低
- 方案B的校准点:
ProjectIntroduction、TrafficmanagementAndMedicalRescue、WarningValuesAndControlValues 需要确认是B更准还是B过度严格
- 方案B更直观:直接告诉客户"有没有写、证据是什么",不需要解释分类链路
建议
- 采用方案B作为主方案 — 客户体验更好,链路更简洁,扩展性强
- 并行化LLM调用 — 当前串行~10s/章节,并发后可压到~15s总耗时
- 校准prompt — 对
ProjectIntroduction 等反复出现分歧的标准项,需要在prompt中明确"覆盖"的判定标准
- 人工抽查 — 选取2~3个章节,人工标注ground truth,计算方案B的precision/recall