分布式部署指南
架构
151 (主节点) 253 (算力节点)
├── PostgreSQL ├── SSH 服务
├── 后端 API (8010) ├── NFS 挂载 151:/root/Fine-tuning/backend/data
├── 前端 (3000) ├── Python 训练环境 (transformers/peft/torch)
└── data/(模型/数据集/adapter) └── 远程训练脚本 (app/engines/remote_train.py)
151 部署步骤
cd /root/Fine-tuning
git pull
# 编辑 .env.docker 或 docker-compose.yml 设置算力节点
vi backend/.env.docker
# 修改 COMPUTE_NODE_HOST=192.168.91.253
# 配置 SSH 免密登录到 253
ssh-copy-id root@192.168.91.253
# 启动
docker compose down -v
docker compose up -d --build
253 配置步骤
1. 安装 NFS 客户端
# CentOS/RHEL
yum install -y nfs-utils
# Ubuntu/Debian
apt install -y nfs-common
2. 挂载 151 的数据目录
# 创建挂载点
mkdir -p /root/Fine-tuning/backend/data
# 挂载 NFS (在 151 上需要先配置 NFS 导出)
mount -t nfs 192.168.92.151:/root/Fine-tuning/backend/data /root/Fine-tuning/backend/data
3. 安装 Python 训练依赖
# 在 253 上执行(确保代码路径一致)
cd /root/Fine-tuning/backend
pip install -r requirements.txt
4. 创建应用目录结构
cd /root/Fine-tuning/backend
mkdir -p app/engines app/core app/services app/config app/api
# 从 151 同步代码
rsync -av 192.168.92.151:/root/Fine-tuning/backend/app/ ./app/
151 配置 NFS 导出(如需)
# 编辑 /etc/exports
echo "/root/Fine-tuning/backend/data *(rw,sync,no_root_squash,no_subtree_check)" >> /etc/exports
# 重启 NFS
systemctl restart nfs-server
exportfs -ra
验证
# 在 151 上测试 SSH 连接
ssh root@192.168.91.253 "python --version"
# 测试远程命令
docker exec finetune-backend python -c "from app.config import get_settings; s=get_settings(); print(s.use_remote_compute)"