|
|
il y a 1 mois | |
|---|---|---|
| src | il y a 1 mois | |
| .env | il y a 1 mois | |
| .gitignore | il y a 2 mois | |
| .python-version | il y a 2 mois | |
| LICENSE | il y a 2 mois | |
| README.md | il y a 1 mois | |
| pyproject.toml | il y a 1 mois | |
| uv.lock | il y a 1 mois |
路桥数据治理与知识库入库脚本项目(标准规范 + 施工方案 + 状态数据)。
使用 uv:
uv sync
进入项目根目录后执行:
uv run -m src.app.scripts.statu_to_milvus
提示:大多数脚本在文件顶部有路径常量(如
ROOT_FOLDER、EXCEL_PATH),运行前请先改成你本机路径。
base_count.py:比对 Excel ID 与目录,输出缺失目录清单 JSONbase_check.py:检查目录结构/命名与 Excel 是否一致,输出问题清单base_info_json_generation.py:按 Excel + 文件夹生成标准信息 JSON,并切分 MD 为 parent/childrenbase_in_minio.py:上传原始文件、MD、JSON 到 MinIObase_info_in_database.py:将 JSON 中文档信息写入 MySQL(文档主表 + 标准基础信息表)base_create_collection.py:创建 Milvus parent/child collection(含 BM25 function)base_in_collection.py:将 JSON 的 parent/children 生成向量并写入 Milvusplan_count.py:比对 Excel ID 与目录,输出缺失目录清单 JSONplan_check.py:检查施工方案目录结构/命名与 Excel 的一致性plan_info_json_generation.py:生成施工方案 JSON,并切分 MD 为 parent/childrenplan_info_in_minio.py:上传施工方案原始文件、MD、JSON 到 MinIOplan_info_in_database.py:将施工方案 JSON 信息写入 MySQLplan_info_in_collection.py:将施工方案 parent/children 向量化后写入 Milvusplan_chaxun.py:按 missing_folders.json 在目录中做名称匹配检查的小工具statu_to_milvus.py:状态数据(含发布单位)向量化并写入 Milvus 指定 collectioncopy_pdf_md_files.py:拷贝各子目录中的 PDF/MD 到目标目录,保留子目录结构ceshi.py:MinIO 上传测试脚本(批量上传 md)ceshi_embdding.py:Embedding 接口联通测试脚本base_* 与 plan_* 基本一一对应,不要混用目录。