CLAUDE.md 2.3 KB

CLAUDE.md

This file provides guidance to Claude Code (claude.ai/code) when working with code in this repository.

语言规范要求

基础规则

  1. 所有日常对话、解释、分析、总结、步骤说明、文字回答必须使用简体中文
  2. 代码、变量名、函数名、命令、配置关键字、专业技术术语、报错原文、JSON/配置内容保留英文原样,不要翻译
  3. 注释可以用中文清晰说明逻辑。
  4. 不要主动输出英文闲聊、英文解释,全程自然中文沟通。
  5. 给出方案、排查原因、步骤讲解全部用中文,仅代码和技术固有文本用英文。

输出格式

  • 说明文字:简体中文
  • 代码块、终端命令、JSON、YAML、报错日志:保持原生英文不变
  • 列表、步骤、结论一律中文表述

安全要求

  • 不要尝试去连接ssh远程,可以把命令给用户去执行

253 服务器上构建 trainer 容器

在 253 服务器(192.168.91.253)上重建 finetune-trainer 容器的命令:

docker stop finetune-trainer && docker rename finetune-trainer finetune-trainer-old && docker run -d --name finetune-trainer --privileged --network host --shm-size 4g -e MACA_MPS_MODE=1 -v /root/Fine-tuning/backend:/root/Fine-tuning/backend 5334348e7a9b tail -f /dev/null

容器配置说明

  • 基础镜像: 5334348e7a9b(沐曦官方镜像的 image ID)
  • 特权模式: --privileged 允许容器访问沐曦 GPU 设备
  • 网络模式: --network host 使用宿主机网络
  • 共享内存: --shm-size 4g(沐曦驱动 ring buffer 需要足够共享内存)
  • MACA_MPS_MODE: 1 启用沐曦 MPS 模式
  • 代码目录: 挂载 /root/Fine-tuning/backend(由 151 rsync 同步)
  • Python 路径: /opt/conda/bin/python(conda 环境)

安装训练依赖

容器创建后需要进入容器安装依赖:

docker exec -it finetune-trainer /opt/conda/bin/pip install peft trl accelerate bitsandbytes datasets
docker exec -it finetune-trainer /opt/conda/bin/pip install --no-deps --upgrade transformers huggingface-hub

注意: 253 容器不需要安装 fastapi/uvicorn。推理 worker(inference_worker.py)只用 Python 标准库 + torch/transformers,API 代理由 151 主节点提供。