|
|
hai 3 semanas | |
|---|---|---|
| src | hai 3 semanas | |
| .env | hai 1 mes | |
| .gitignore | hai 2 meses | |
| .python-version | hai 2 meses | |
| LICENSE | hai 2 meses | |
| README.md | hai 1 mes | |
| autodl转化pdf操作说明.md | hai 1 mes | |
| pyproject.toml | hai 1 mes | |
| uv.lock | hai 1 mes |
路桥数据治理与知识库入库脚本项目(标准规范 + 施工方案 + 状态数据)。
安装uv powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
使用 uv:
uv venv
uv sync --index-url https://pypi.tuna.tsinghua.edu.cn/simple
进入项目根目录后执行:
uv run -m src.app.scripts.statu_to_milvus
提示:大多数脚本在文件顶部有路径常量(如
ROOT_FOLDER、EXCEL_PATH),运行前请先改成你本机路径。
base_count.py:比对 Excel ID 与目录,输出缺失目录清单 JSONbase_check.py:检查目录结构/命名与 Excel 是否一致,输出问题清单base_info_json_generation.py:按 Excel + 文件夹生成标准信息 JSON,并切分 MD 为 parent/childrenbase_in_minio.py:上传原始文件、MD、JSON 到 MinIObase_info_in_database.py:将 JSON 中文档信息写入 MySQL(文档主表 + 标准基础信息表)base_create_collection.py:创建 Milvus parent/child collection(含 BM25 function)base_in_collection.py:将 JSON 的 parent/children 生成向量并写入 Milvusplan_count.py:比对 Excel ID 与目录,输出缺失目录清单 JSONplan_check.py:检查施工方案目录结构/命名与 Excel 的一致性plan_info_json_generation.py:生成施工方案 JSON,并切分 MD 为 parent/childrenplan_info_in_minio.py:上传施工方案原始文件、MD、JSON 到 MinIOplan_info_in_database.py:将施工方案 JSON 信息写入 MySQLplan_info_in_collection.py:将施工方案 parent/children 向量化后写入 Milvusplan_chaxun.py:按 missing_folders.json 在目录中做名称匹配检查的小工具statu_to_milvus.py:状态数据(含发布单位)向量化并写入 Milvus 指定 collectioncopy_pdf_md_files.py:拷贝各子目录中的 PDF/MD 到目标目录,保留子目录结构ceshi.py:MinIO 上传测试脚本(批量上传 md)ceshi_embdding.py:Embedding 接口联通测试脚本python_processed_article:python脚本修复层级extract_bfp.py:遍历指定目录的 PDF/DOCX,提取每份文档的“编制依据”章节并汇总标准/法规编号page_index_md.py:将 Markdown 目录结构解析成树形 JSON(可选精简/摘要),用于生成节点级索引base_* 与 plan_* 基本一一对应,不要混用目录。