Quellcode durchsuchen

数据治理测试

lingmin_package@163.com vor 1 Woche
Ursprung
Commit
c25f299bed

+ 2 - 0
README.md

@@ -1,5 +1,7 @@
 # LQKgDataGovernance
 
+数据治理涉及工作:原始文件上传OSS、 文档统一转换MinerU、文档层级修复、数据切分处理(父子段)、数据集JSON构建,数据集入库(基本信息、父子分片向量数据库)
+
 路桥知识库数据治理脚本集合,主要处理:
 - 编制依据(标准规范)
 - 施工方案

+ 2 - 2
src/app/minerU/minerU.py

@@ -9,8 +9,8 @@ from concurrent.futures import ThreadPoolExecutor, as_completed
 API_URL = "http://183.220.37.46:25428/file_parse"
 
 # 默认路径(可通过命令行参数覆盖)
-DEFAULT_INPUT_DIR = Path(r"E:\提供的原始文件\原始文件\PDF分类结果_服务器MinerU版\公司集团评审意见说明\公司集团评审意见_input")
-DEFAULT_OUTPUT_DIR = Path(r"E:\提供的原始文件\原始文件\PDF分类结果_服务器MinerU版\公司集团评审意见说明\公司集团评审意见_output")
+DEFAULT_INPUT_DIR = Path(r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\input")
+DEFAULT_OUTPUT_DIR = Path(r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\output")
 
 def parse_file(file_path, output_dir):
     filename = file_path.name

+ 3 - 3
src/app/scripts/base_in_collection.py

@@ -27,13 +27,13 @@ from app.config.setting import settings
 # ==================== 配置区域 ====================
 
 # 根目录配置
-ROOT_FOLDER = r"F:\第二阶段编制依据及施工方案数据治理-20260206\最终编制依据\错误"
+ROOT_FOLDER = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\最终编制依据"
 
 # 失败汇总JSON保存路径
-FAILED_REPORT_PATH = r"F:\第二阶段编制依据及施工方案数据治理-20260206\最终编制依据\错误\base_collection_failed_report.json"
+FAILED_REPORT_PATH = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\base_collection_failed_report.json"
 
 # 进度保存文件路径(断点续传用)
-PROGRESS_FILE_PATH = r"F:\第二阶段编制依据及施工方案数据治理-20260206\最终编制依据\错误\base_collection_progress.json"
+PROGRESS_FILE_PATH = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\base_collection_progress.json"
 
 # Collection 名称
 PARENT_COLLECTION_NAME = "t_rag_kng_standard_parent"

+ 3 - 3
src/app/scripts/base_in_minio.py

@@ -20,10 +20,10 @@ from app.config.setting import settings
 PREFIX = "sampledata/standard"
 
 # 根目录配置:每个子文件夹包含 1 个原始文件 + 1 个 .md + 1 个 .json
-ROOT_FOLDER = r"F:\第二阶段编制依据及施工方案数据治理-20260206\最终编制依据"
+ROOT_FOLDER = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\最终编制依据"
 
 # 失败汇总JSON保存路径
-FAILED_REPORT_PATH = r"F:\第二阶段编制依据及施工方案数据治理-20260206\base_minio_failed_report.json"
+FAILED_REPORT_PATH = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\base_minio_failed_report.json"
 
 
 def find_files(subfolder: Path) -> Tuple[Path, Path, Path]:
@@ -98,7 +98,7 @@ def main() -> None:
             upload_file(client, bucket, md_obj, md_file)
             upload_file(client, bucket, json_obj, json_file)
 
-            print(f"📁 {folder_name} ✅ 已上传: {file_obj}, {md_obj}, {json_obj}")
+            print(f"📁 {folder_name}-{Path(original_file).name}-{Path(md_file).name}-{Path(json_file).name} ✅ 已上传: {file_obj}, {md_obj}, {json_obj}")
             stats["success"] += 1
         except (FileNotFoundError, ValueError) as e:
             error_message = str(e)

+ 2 - 2
src/app/scripts/base_info_in_database.py

@@ -28,10 +28,10 @@ TABLE_STANDARD_BASE_INFO = "t_samp_standard_base_info"  # 标准基础信息表
 DEFAULT_USER_ID = "ed6a79d3-0083-4d81-8b48-fc522f686f74"
 
 # 根目录配置
-ROOT_FOLDER = r"F:\第二阶段编制依据及施工方案数据治理-20260206\最终编制依据"
+ROOT_FOLDER = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\最终编制依据"
 
 # 失败汇总JSON保存路径
-FAILED_REPORT_PATH = r"F:\第二阶段编制依据及施工方案数据治理-20260206\base_db_failed_report.json"
+FAILED_REPORT_PATH = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\base_db_failed_report.json"
 
 # 默认值配置 - 需要修改时只改这里
 DOCUMENT_MAIN_DEFAULTS = {

+ 3 - 3
src/app/scripts/base_info_json_generation.py

@@ -22,11 +22,11 @@ from app.models import StandardBaseInfo  # noqa: F401  # 仅用于类型/一致
 
 
 # ==================== 配置参数 ====================
-EXCEL_FILE = r"F:\第二阶段编制依据及施工方案数据治理-20260206\编制依据.xlsx"
-ROOT_FOLDER = r"F:\第二阶段编制依据及施工方案数据治理-20260206\最终编制依据\501-1000"
+EXCEL_FILE = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\治理的编制依据清单列表.xlsx"
+ROOT_FOLDER = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\最终编制依据"
 SHEET_INDEX = 0
 
-FAILED_REPORT_PATH = r"F:\测试\base_json_failed_report.json"
+FAILED_REPORT_PATH = r"I:\wangxun_dev_workspace\lq_data_wrokspace\bpf_pdf\base_json_failed_report.json"
 PARENT_MAX_CHARS = 6000                                # ✅ 父段最大长度(超长切片)
 CHILD_INDEX_START = 0                                  # ✅ children.index 起始
 MILVUS_VARCHAR_MAX_LENGTH = 65535                      # ✅ text 字段最大 UTF-8 字节长度