4 settimane fa · 687275594e
--- a/src/app/scripts/tool/excel_info_csv.py
+++ b/src/app/scripts/tool/excel_info_csv.py
@@ -0,0 +1,13 @@
 
															+import pandas as pd
														
 
															+
														
 
															+# 配置你的文件路径
														
 
															+xlsx_file = "F:\时效性相关文档\新增标准原材料\工作簿4.xlsx"   # 要转换的xlsx文件
														
 
															+csv_file = "F:\时效性相关文档\新增标准原材料\工作簿4.csv"   # 输出的csv文件
														
 
															+
														
 
															+# 读取Excel
														
 
															+df = pd.read_excel(xlsx_file)
														
 
															+
														
 
															+# 保存为CSV
														
 
															+df.to_csv(csv_file, index=False, encoding="utf-8-sig")
														
 
															+
														
 
															+print(f"转换完成！文件已保存为：{csv_file}")
														
--- a/src/app/scripts/tool/时效性去重.py
+++ b/src/app/scripts/tool/时效性去重.py
@@ -0,0 +1,105 @@
 
															+import csv
														
 
															+import os
														
 
															+
														
 
															+def process_standard_csv(input_file: str, output_file: str, delete_summary_file: str):
														
 
															+    """
														
 
															+    处理CSV文件去重，保留空字段最少的数据，删除数据单独汇总
														
 
															+    :param input_file: 原始CSV文件路径
														
 
															+    :param output_file: 去重后输出文件路径
														
 
															+    :param delete_summary_file: 删除数据汇总文件路径
														
 
															+    """
														
 
															+    # 定义需要处理的6个关键字段
														
 
															+    target_fields = [
														
 
															+        "标准编号", "标准名称", "状态",
														
 
															+        "发布日期", "实施日期", "发布部门"
														
 
															+    ]
														
 
															+
														
 
															+    # 存储去重规则：key=标准编号+标准名称+状态，value=该行数据+空字段数量
														
 
															+    unique_data = {}
														
 
															+    # 存储所有被删除的数据
														
 
															+    deleted_data = []
														
 
															+
														
 
															+    try:
														
 
															+        # 1. 读取原始CSV文件（修复编码和表头问题）
														
 
															+        with open(input_file, 'r', encoding='utf-8-sig', newline='') as f:
														
 
															+            reader = csv.DictReader(f)
														
 
															+            # 保留原始表头，确保输出格式一致
														
 
															+            fieldnames = reader.fieldnames
														
 
															+
														
 
															+            # 打印表头用于调试
														
 
															+            print("📋 读取到CSV表头：", fieldnames)
														
 
															+
														
 
															+            # 校验必须包含目标字段
														
 
															+            missing_fields = [field for field in target_fields if field not in fieldnames]
														
 
															+            if missing_fields:
														
 
															+                raise ValueError(f"CSV文件缺少必填字段：{missing_fields}")
														
 
															+
														
 
															+            print(f"✅ 成功读取原始文件，共{len(fieldnames)}列，开始处理数据...")
														
 
															+
														
 
															+            for row in reader:
														
 
															+                # 提取去重关键字段值
														
 
															+                code = row["标准编号"].strip() if row["标准编号"] else ""
														
 
															+                name = row["标准名称"].strip() if row["标准名称"] else ""
														
 
															+                status = row["状态"].strip() if row["状态"] else ""
														
 
															+                key = f"{code}|{name}|{status}"
														
 
															+
														
 
															+                # 计算当前行6个目标字段的空字段数量（空字符串/None/纯空格都算空）
														
 
															+                empty_count = 0
														
 
															+                for field in target_fields:
														
 
															+                    val = row[field]
														
 
															+                    if not val or val.strip() == "":
														
 
															+                        empty_count += 1
														
 
															+
														
 
															+                # 2. 去重逻辑：相同key只保留空字段最少的数据
														
 
															+                if key not in unique_data:
														
 
															+                    # 首次出现，直接保存
														
 
															+                    unique_data[key] = {"data": row, "empty_count": empty_count}
														
 
															+                else:
														
 
															+                    # 已存在，比较空字段数量
														
 
															+                    existing = unique_data[key]
														
 
															+                    if empty_count < existing["empty_count"]:
														
 
															+                        # 新数据空字段更少，替换旧数据，旧数据移入删除列表
														
 
															+                        deleted_data.append(existing["data"])
														
 
															+                        unique_data[key] = {"data": row, "empty_count": empty_count}
														
 
															+                    else:
														
 
															+                        # 新数据空字段更多/相等，直接移入删除列表
														
 
															+                        deleted_data.append(row)
														
 
															+
														
 
															+        # 3. 导出【去重后的数据】
														
 
															+        with open(output_file, 'w', encoding='utf-8-sig', newline='') as f:
														
 
															+            writer = csv.DictWriter(f, fieldnames=fieldnames)
														
 
															+            writer.writeheader()
														
 
															+            for item in unique_data.values():
														
 
															+                writer.writerow(item["data"])
														
 
															+
														
 
															+        # 4. 导出【删除数据汇总】
														
 
															+        with open(delete_summary_file, 'w', encoding='utf-8-sig', newline='') as f:
														
 
															+            writer = csv.DictWriter(f, fieldnames=fieldnames)
														
 
															+            writer.writeheader()
														
 
															+            writer.writerows(deleted_data)
														
 
															+
														
 
															+        # 打印处理结果
														
 
															+        print("=" * 50)
														
 
															+        print(f"📊 处理完成！")
														
 
															+        print(f"原始数据总数：{len(unique_data) + len(deleted_data)} 条")
														
 
															+        print(f"去重后保留：{len(unique_data)} 条")
														
 
															+        print(f"删除并汇总：{len(deleted_data)} 条")
														
 
															+        print(f"✅ 去重文件：{output_file}")
														
 
															+        print(f"✅ 删除汇总文件：{delete_summary_file}")
														
 
															+        print("=" * 50)
														
 
															+
														
 
															+    except FileNotFoundError:
														
 
															+        print(f"❌ 错误：未找到文件 {input_file}")
														
 
															+    except Exception as e:
														
 
															+        print(f"❌ 处理失败：{str(e)}")
														
 
															+
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    # ===================== 配置参数（已修复）=====================
														
 
															+    INPUT_CSV = r"F:\时效性相关文档\新增标准原材料\原文档重新查询.csv"
														
 
															+    OUTPUT_CSV = r"F:\时效性相关文档\新增标准原材料\原文档重新查询_去重后数据.csv"
														
 
															+    DELETE_SUMMARY = r"F:\时效性相关文档\新增标准原材料\原文档重新查询_删除数据汇总.csv"
														
 
															+    # =========================================================================
														
 
															+
														
 
															+    # 执行处理
														
 
															+    process_standard_csv(INPUT_CSV, OUTPUT_CSV, DELETE_SUMMARY)
														
--- a/src/app/scripts/tool/时效性查询结果对比.py
+++ b/src/app/scripts/tool/时效性查询结果对比.py
@@ -0,0 +1,85 @@
 
															+import pandas as pd
														
 
															+import json
														
 
															+
														
 
															+# ===================== 路径配置 =====================
														
 
															+PATH_SOURCE = r"F:\时效性相关文档\时效性新增名单（建筑与市政）.csv"
														
 
															+PATH_RESULT = r"F:\时效性相关文档\标准查询结果.csv"
														
 
															+OUTPUT_JSON = r"F:\时效性相关文档\对比结果.json"
														
 
															+# 新增：不存在数据的输出CSV路径
														
 
															+OUTPUT_NOT_EXIST_CSV = r"F:\时效性相关文档\源文件有_查询结果无.csv"
														
 
															+
														
 
															+# ===================== 读取文件 =====================
														
 
															+df_source = pd.read_csv(PATH_SOURCE, encoding="utf-8-sig").fillna("")
														
 
															+df_result = pd.read_csv(PATH_RESULT, encoding="utf-8-sig").fillna("")
														
 
															+
														
 
															+# 转为字典方便匹配
														
 
															+result_dict = {}
														
 
															+for _, row in df_result.iterrows():
														
 
															+    code = str(row["标准编号"]).strip()
														
 
															+    name = str(row["标准名称"].strip())
														
 
															+    result_dict[code] = {
														
 
															+        "标准名称": name,
														
 
															+        "现行状态": row.get("现行状态", "")
														
 
															+    }
														
 
															+
														
 
															+# 源列表
														
 
															+source_list = []
														
 
															+for _, row in df_source.iterrows():
														
 
															+    code = str(row["标准编号"]).strip()
														
 
															+    name = str(row["标准名称"].strip())
														
 
															+    source_list.append({"标准编号": code, "标准名称": name})
														
 
															+
														
 
															+# ===================== 分组存储 =====================
														
 
															+result = {
														
 
															+    "不存在：源文件有，查询结果无": [],
														
 
															+    "标准名称不同": [],
														
 
															+    "多余：查询结果有，源文件无": []
														
 
															+}
														
 
															+
														
 
															+# 1. 对比【源文件】每条
														
 
															+for item in source_list:
														
 
															+    s_code = item["标准编号"]
														
 
															+    s_name = item["标准名称"]
														
 
															+
														
 
															+    if not s_code:
														
 
															+        continue
														
 
															+
														
 
															+    # 不存在
														
 
															+    if s_code not in result_dict:
														
 
															+        result["不存在：源文件有，查询结果无"].append({
														
 
															+            "标准编号": s_code,
														
 
															+            "标准名称": s_name
														
 
															+        })
														
 
															+        continue
														
 
															+
														
 
															+    # 存在 → 对比名称
														
 
															+    r_name = result_dict[s_code]["标准名称"]
														
 
															+    if s_name != r_name:
														
 
															+        result["标准名称不同"].append({
														
 
															+            "标准编号": s_code,
														
 
															+            "源文件名称": s_name,
														
 
															+            "查询结果名称": r_name
														
 
															+        })
														
 
															+
														
 
															+# 2. 检查【查询结果】多余的
														
 
															+source_codes = [x["标准编号"] for x in source_list]
														
 
															+for code in result_dict:
														
 
															+    if code not in source_codes:
														
 
															+        result["多余：查询结果有，源文件无"].append({
														
 
															+            "标准编号": code,
														
 
															+            "标准名称": result_dict[code]["标准名称"]
														
 
															+        })
														
 
															+
														
 
															+# ===================== 输出 JSON =====================
														
 
															+with open(OUTPUT_JSON, "w", encoding="utf-8") as f:
														
 
															+    json.dump(result, f, ensure_ascii=False, indent=4)
														
 
															+
														
 
															+# ===================== 新增：输出不存在数据到CSV =====================
														
 
															+df_not_exist = pd.DataFrame(result["不存在：源文件有，查询结果无"])
														
 
															+df_not_exist.to_csv(OUTPUT_NOT_EXIST_CSV, encoding="utf-8-sig", index=False)
														
 
															+
														
 
															+# ===================== 打印结果 =====================
														
 
															+print("✅ 对比完成！JSON 已按 3 类分组输出")
														
 
															+print(f"✅ JSON 文件路径：{OUTPUT_JSON}")
														
 
															+print(f"✅ 缺失数据已导出到 CSV：{OUTPUT_NOT_EXIST_CSV}")
														
 
															+print(f"📊 共找到 {len(df_not_exist)} 条【源文件有、查询结果无】的记录")