1 هفته پیش · 4ac59d0563
--- a/backend/Dockerfile
+++ b/backend/Dockerfile
@@ -1,32 +1,19 @@
 
															-# 使用本地已有的沐曦 maca + PyTorch 2.8 + Python 3.10 镜像
														
 
															-# 驱动版本 maca 3.5.3.502，PyTorch 2.8，兼容性好
														
 
															-FROM cr.metax-tech.com/public-ai-release/maca/vllm-metax:0.19.0-maca.ai3.5.3.502-torch2.8-py310-ubuntu22.04-amd64
														
 
															+# 主节点（151）后端 — 轻量级 Python 镜像，不含 GPU 依赖
														
 
															+# 仅负责 API/DB/WebSocket/SSH 调度，实际训练/推理在 253 算力节点执行
														
 
															+FROM python:3.10-slim
														
 
															 WORKDIR /app
														
 
															-# 设置 conda Python 路径（镜像使用 /opt/conda）
														
 
															-ENV PATH="/opt/conda/bin:$PATH"
														
 
															-
														
 
															 RUN apt-get update && apt-get install -y git openssh-client sshpass && rm -rf /var/lib/apt/lists/*
														
 
															-# 升级 pip
														
 
															-RUN /opt/conda/bin/pip install --no-cache-dir --upgrade pip
														
 
															-
														
 
															-# 复制依赖文件并安装（跳过 torch，镜像已自带）
														
 
															 COPY requirements.txt .
														
 
															-RUN /opt/conda/bin/pip install --no-cache-dir -r requirements.txt
														
 
															+RUN pip install --no-cache-dir -r requirements.txt
														
 
															-# 复制应用代码
														
 
															 COPY . .
														
 
															-# 沐曦 maca 环境变量（镜像中通常已设置，这里显式声明）
														
 
															-ENV MACA_PATH=/opt/maca
														
 
															-ENV LD_LIBRARY_PATH=/opt/maca/lib:/opt/maca/mxgpu_llvm/lib:/opt/maca/ompi/lib:${LD_LIBRARY_PATH}
														
 
															-ENV MACA_CLANG_PATH=/opt/maca/mxgpu_llvm/bin
														
 
															-
														
 
															 EXPOSE 8010
														
 
															 HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
														
 
															-    CMD /opt/conda/bin/python -c "import urllib.request; urllib.request.urlopen('http://localhost:8010/health')" || exit 1
														
 
															+    CMD python -c "import urllib.request; urllib.request.urlopen('http://localhost:8010/health')" || exit 1
														
 
															 CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8010"]
														
--- a/backend/app/config.py
+++ b/backend/app/config.py
@@ -95,6 +95,7 @@ class Settings(BaseSettings):
 
															     compute_node_ssh_user: str = "root"
														
 
															     compute_node_ssh_password: str = ""  # SSH 密码（与密钥二选一）
														
 
															     compute_node_ssh_key: str = ""  # SSH 私钥路径
														
 
															+    compute_node_docker_container: str = "finetune-trainer"  # 算力节点上的训练容器名
														
 
															     compute_node_python: str = "/opt/conda/bin/python"
														
 
															     compute_node_workdir: str = "/root/Fine-tuning/backend"
														
 
															     compute_node_remote_data_dir: str = "/root/Fine-tuning/backend/data"
														
--- a/backend/app/core/job_queue.py
+++ b/backend/app/core/job_queue.py
@@ -1,4 +1,5 @@
 
															 import asyncio
														
 
															+import json
														
 
															 from datetime import datetime, timezone
														
 
															 from enum import Enum
														
 
															 from typing import Any, Callable, Coroutine, Optional
														
@@ -193,17 +194,15 @@ class JobQueue:
 
															                 self.update_job(job_id, status=JobStatus.TRAINING)
														
 
															                 await self._notify_callbacks()
														
 
															-                from app.core.remote_executor import run_training_remote
														
 
															-                success = run_training_remote(job_id, model_id, model_type, dataset_id, config)
														
 
															+                from app.core.remote_executor import run_training_remote, is_process_running
														
 
															+                pid = run_training_remote(job_id, model_id, model_type, dataset_id, config)
														
 
															-                if not success:
														
 
															+                if not pid:
														
 
															                     raise RuntimeError("Failed to launch remote training")
														
 
															-                # 远程模式下，训练完成后通过日志解析或轮询获取 adapter_path
														
 
															-                # 这里暂时标记为完成，adapter_path 由远程脚本回写
														
 
															-                self.update_job(job_id, status=JobStatus.COMPLETED,
														
 
															-                                adapter_path=str(settings.adapters_dir / job_id))
														
 
															-                await self._notify_callbacks()
														
 
															+                # 轮询共享日志文件解析进度
														
 
															+                await self._poll_remote_progress(job_id, pid)
														
 
															+
														
 
															                 logger.info(f"Remote training launched for job {job_id}")
														
 
															             else:
														
 
															                 # 本地训练模式
														
@@ -276,6 +275,119 @@ class JobQueue:
 
															             from app.engines.text_engine import text_engine
														
 
															             return text_engine
														
 
															+    async def _poll_remote_progress(self, job_id: str, pid: str):
														
 
															+        """轮询共享日志文件，解析远程训练进度并通过 WebSocket 推送。"""
														
 
															+        from app.config import get_settings
														
 
															+        from app.core.websocket import send_progress, send_epoch_done, send_completed, send_error
														
 
															+
														
 
															+        settings = get_settings()
														
 
															+        log_file = settings.data_dir / "logs" / f"{job_id}.jsonl"
														
 
															+        last_offset = 0
														
 
															+        poll_interval = 5  # 每 5 秒轮询一次
														
 
															+        max_polls = 8640  # 最多轮询 12 小时 (8640 * 5s)
														
 
															+
														
 
															+        for _ in range(max_polls):
														
 
															+            if self.is_cancelled(job_id):
														
 
															+                # 取消容器内的远程进程
														
 
															+                from app.core.remote_executor import ssh_exec
														
 
															+                from app.config import get_settings
														
 
															+                _s = get_settings()
														
 
															+                ssh_exec(f"docker exec {_s.compute_node_docker_container} bash -c 'kill {pid} 2>/dev/null'", timeout=10)
														
 
															+                self.update_job(job_id, status=JobStatus.CANCELLED)
														
 
															+                await self._notify_callbacks()
														
 
															+                await send_error(job_id, "Training cancelled")
														
 
															+                return
														
 
															+
														
 
															+            # 检查进程是否还在运行
														
 
															+            from app.core.remote_executor import is_process_running
														
 
															+            process_alive = is_process_running(pid)
														
 
															+
														
 
															+            # 读取新的日志行
														
 
															+            if log_file.exists():
														
 
															+                try:
														
 
															+                    with open(log_file, "r", encoding="utf-8") as f:
														
 
															+                        f.seek(last_offset)
														
 
															+                        new_lines = f.readlines()
														
 
															+                        last_offset = f.tell()
														
 
															+
														
 
															+                    for line in new_lines:
														
 
															+                        line = line.strip()
														
 
															+                        if not line:
														
 
															+                            continue
														
 
															+                        try:
														
 
															+                            entry = json.loads(line)
														
 
															+                        except json.JSONDecodeError:
														
 
															+                            continue
														
 
															+
														
 
															+                        entry_type = entry.get("type")
														
 
															+                        if entry_type == "progress":
														
 
															+                            self.update_job(job_id,
														
 
															+                                            epoch=entry.get("epoch", 0),
														
 
															+                                            current_step=entry.get("step", 0),
														
 
															+                                            total_steps=entry.get("total_steps", 0),
														
 
															+                                            loss=entry.get("loss"),
														
 
															+                                            progress=round(entry.get("step", 0) / max(entry.get("total_steps", 1), 1) * 100, 1))
														
 
															+                            await self._notify_callbacks()
														
 
															+                            await send_progress(job_id, **{k: v for k, v in entry.items() if k != "type"})
														
 
															+
														
 
															+                        elif entry_type == "epoch_begin":
														
 
															+                            self.update_job(job_id, current_epoch=entry.get("epoch", 0))
														
 
															+                            await self._notify_callbacks()
														
 
															+
														
 
															+                        elif entry_type == "epoch_done":
														
 
															+                            await self._notify_callbacks()
														
 
															+                            await send_epoch_done(job_id, **{k: v for k, v in entry.items() if k not in ("type", "ts")})
														
 
															+
														
 
															+                        elif entry_type == "completed":
														
 
															+                            adapter_path = entry.get("adapter_path", str(settings.adapters_dir / job_id))
														
 
															+                            self.update_job(job_id,
														
 
															+                                            status=JobStatus.COMPLETED,
														
 
															+                                            adapter_path=adapter_path,
														
 
															+                                            progress=100.0)
														
 
															+                            await self._notify_callbacks()
														
 
															+                            await send_completed(job_id, **{k: v for k, v in entry.items() if k not in ("type", "ts")})
														
 
															+                            return
														
 
															+
														
 
															+                        elif entry_type == "error":
														
 
															+                            self.update_job(job_id,
														
 
															+                                            status=JobStatus.FAILED,
														
 
															+                                            error_message=entry.get("message", "Unknown error"))
														
 
															+                            await self._notify_callbacks()
														
 
															+                            await send_error(job_id, entry.get("message", "Unknown error"))
														
 
															+                            return
														
 
															+                except Exception as e:
														
 
															+                    logger.warning(f"Error reading remote log file: {e}")
														
 
															+
														
 
															+            # 进程已退出但日志里没有 completed/error，可能异常退出
														
 
															+            if not process_alive:
														
 
															+                # 再等一轮确认
														
 
															+                await asyncio.sleep(2)
														
 
															+                if not is_process_running(pid):
														
 
															+                    # 检查日志里是否有最终状态
														
 
															+                    if log_file.exists():
														
 
															+                        try:
														
 
															+                            with open(log_file, "r", encoding="utf-8") as f:
														
 
															+                                content = f.read()
														
 
															+                                if "completed" in content or "error" in content:
														
 
															+                                    # 上面已经处理过了
														
 
															+                                    continue
														
 
															+                        except Exception:
														
 
															+                            pass
														
 
															+                    # 进程退出但没有最终状态，视为失败
														
 
															+                    self.update_job(job_id,
														
 
															+                                    status=JobStatus.FAILED,
														
 
															+                                    error_message=f"Remote process exited unexpectedly (pid={pid})")
														
 
															+                    await self._notify_callbacks()
														
 
															+                    await send_error(job_id, f"Remote process exited unexpectedly (pid={pid})")
														
 
															+                    return
														
 
															+
														
 
															+            await asyncio.sleep(poll_interval)
														
 
															+
														
 
															+        # 超时
														
 
															+        self.update_job(job_id, status=JobStatus.FAILED, error_message="Remote training timed out")
														
 
															+        await self._notify_callbacks()
														
 
															+        await send_error(job_id, "Remote training timed out")
														
 
															+
														
 
															     @property
														
 
															     def jobs(self) -> dict[str, TrainingJob]:
														
 
															         return dict(self._jobs)
														
--- a/backend/app/core/remote_executor.py
+++ b/backend/app/core/remote_executor.py
@@ -56,34 +56,40 @@ def run_training_remote(
 
															     model_type: str,
														
 
															     dataset_id: str,
														
 
															     config: dict[str, Any],
														
 
															-) -> bool:
														
 
															-    """在算力节点启动训练任务（后台执行，不阻塞）。
														
 
															+) -> str | None:
														
 
															+    """在算力节点启动训练任务（通过 docker exec，后台执行）。
														
 
															-    使用 nohup + & 让训练在后台运行，通过 WebSocket 回传进度。
														
 
															+    在容器内用 nohup 启动训练，返回 PID 以便后续检测。
														
 
															     """
														
 
															     config_json = json.dumps(config, ensure_ascii=False)
														
 
															-    # 转义双引号避免 shell 解析问题
														
 
															     config_escaped = config_json.replace('"', '\\"')
														
 
															-    log_path = os.path.join(settings.compute_node_workdir, f"logs/{job_id}.log")
														
 
															-    log_dir = os.path.dirname(log_path)
														
 
															-
														
 
															     remote_cmd = (
														
 
															-        f"mkdir -p {log_dir} && "
														
 
															-        f"cd {settings.compute_node_workdir} && "
														
 
															-        f"nohup {settings.compute_node_python} -m app.engines.remote_train "
														
 
															+        f"docker exec {settings.compute_node_docker_container} "
														
 
															+        f"bash -c 'nohup {settings.compute_node_python} -m app.engines.remote_train "
														
 
															         f"'{job_id}' '{model_id}' '{model_type}' '{dataset_id}' '{config_escaped}' "
														
 
															-        f"> {log_path} 2>&1 & echo $!"
														
 
															+        f">/tmp/train_{job_id}.log 2>&1 & echo $!'"
														
 
															     )
														
 
															     code, stdout, stderr = ssh_exec(remote_cmd, timeout=30)
														
 
															     if code != 0:
														
 
															         logger.error(f"Remote training launch failed: {stderr}")
														
 
															-        return False
														
 
															+        return None
														
 
															+
														
 
															+    pid = stdout.strip()
														
 
															+    logger.info(f"Remote training launched in container: job={job_id}, container_pid={pid}")
														
 
															+    return pid
														
 
															+
														
 
															-    logger.info(f"Remote training launched: job={job_id}, pid={stdout.strip()}")
														
 
															-    return True
														
 
															+def is_process_running(pid: str) -> bool:
														
 
															+    """检查远程训练进程是否还在运行。
														
 
															+
														
 
															+    通过 docker exec 进入容器检查 PID 是否存在。
														
 
															+    """
														
 
															+    cmd = f"docker exec {settings.compute_node_docker_container} bash -c 'kill -0 {pid} 2>/dev/null && echo running || echo stopped'"
														
 
															+    code, stdout, stderr = ssh_exec(cmd, timeout=10)
														
 
															+    return code == 0 and "running" in stdout
														
 
															 def run_inference_remote(
														
@@ -100,7 +106,7 @@ def run_inference_remote(
 
															     safe_prompt = prompt.replace('"', '\\"').replace("'", "\\'").replace("\n", "\\n")
														
 
															     remote_cmd = (
														
 
															-        f"cd {settings.compute_node_workdir} && "
														
 
															+        f"docker exec {settings.compute_node_docker_container} "
														
 
															         f"{settings.compute_node_python} -c \""
														
 
															         "import asyncio, json; "
														
 
															         "from app.config import get_settings; "
														
--- a/backend/app/engines/multimodal_engine.py
+++ b/backend/app/engines/multimodal_engine.py
@@ -73,6 +73,7 @@ class MultimodalEngine(BaseEngine):
 
															         dataset_path: str,
														
 
															         peft_config: Any,
														
 
															         training_args: dict[str, Any],
														
 
															+        callbacks: list | None = None,
														
 
															     ) -> str:
														
 
															         from peft import get_peft_model
														
 
															         from transformers import Trainer, TrainingArguments
														
@@ -125,13 +126,13 @@ class MultimodalEngine(BaseEngine):
 
															             report_to="none",
														
 
															         )
														
 
															-        callback = _ProgressCallback(job_id)
														
 
															+        all_callbacks = callbacks if callbacks else [_ProgressCallback(job_id)]
														
 
															         trainer = Trainer(
														
 
															             model=self._model,
														
 
															             args=tr_args,
														
 
															             train_dataset=hf_dataset,
														
 
															             data_collator=collate_fn,
														
 
															-            callbacks=[callback],
														
 
															+            callbacks=all_callbacks,
														
 
															         )
														
 
															         try:
														
--- a/backend/app/engines/remote_train.py
+++ b/backend/app/engines/remote_train.py
@@ -4,12 +4,73 @@ import json
 
															 import os
														
 
															 import sys
														
 
															 import signal
														
 
															+import time
														
 
															+import traceback
														
 
															+from datetime import datetime, timezone
														
 
															 from pathlib import Path
														
 
															 # 禁用 FlashAttention
														
 
															 os.environ["PYTORCH_NO_FLASH"] = "1"
														
 
															 os.environ["FLASH_ATTENTION_ENABLED"] = "0"
														
 
															+_progress_log_file = None
														
 
															+
														
 
															+
														
 
															+def _init_log_file(data_dir: Path, job_id: str):
														
 
															+    """初始化进度日志文件（通过 SSHFS 共享给主节点读取）。"""
														
 
															+    global _progress_log_file
														
 
															+    log_dir = data_dir / "logs"
														
 
															+    log_dir.mkdir(parents=True, exist_ok=True)
														
 
															+    _progress_log_file = log_dir / f"{job_id}.jsonl"
														
 
															+    _write_log(type="start", job_id=job_id)
														
 
															+
														
 
															+
														
 
															+def _write_log(**kwargs):
														
 
															+    """追加一行 JSON 到共享日志文件。"""
														
 
															+    if _progress_log_file:
														
 
															+        entry = {"ts": datetime.now(timezone.utc).isoformat(), **kwargs}
														
 
															+        with open(_progress_log_file, "a", encoding="utf-8") as f:
														
 
															+            f.write(json.dumps(entry, ensure_ascii=False) + "\n")
														
 
															+            f.flush()
														
 
															+
														
 
															+
														
 
															+class FileProgressCallback:
														
 
															+    """HuggingFace Trainer 回调 — 写进度到共享日志文件。"""
														
 
															+
														
 
															+    def __init__(self, job_id: str):
														
 
															+        self.job_id = job_id
														
 
															+
														
 
															+    def on_log(self, args, state, control, logs=None, **kwargs):
														
 
															+        if logs and "loss" in logs:
														
 
															+            _write_log(type="progress", epoch=int(state.epoch or 0),
														
 
															+                       step=state.global_step, total_steps=state.max_steps or 0,
														
 
															+                       loss=round(logs["loss"], 4),
														
 
															+                       learning_rate=round(logs.get("learning_rate", 0), 8))
														
 
															+
														
 
															+    def on_epoch_begin(self, args, state, control, **kwargs):
														
 
															+        _write_log(type="epoch_begin", epoch=int(state.epoch or 0))
														
 
															+
														
 
															+    def on_epoch_end(self, args, state, control, metrics=None, **kwargs):
														
 
															+        _write_log(type="epoch_done", epoch=int(state.epoch or 0),
														
 
															+                   eval_loss=metrics.get("eval_loss") if metrics and hasattr(metrics, "get") else None,
														
 
															+                   eval_accuracy=metrics.get("eval_accuracy") if metrics and hasattr(metrics, "get") else None)
														
 
															+
														
 
															+    def on_train_end(self, args, state, control, **kwargs):
														
 
															+        _write_log(type="completed", total_time_seconds=getattr(state, "train_runtime", 0),
														
 
															+                   adapter_path=args.output_dir)
														
 
															+
														
 
															+    def on_train_begin(self, args, state, control, **kwargs):
														
 
															+        _write_log(type="status", status="training")
														
 
															+
														
 
															+    def on_save(self, args, state, control, **kwargs):
														
 
															+        _write_log(type="save", step=state.global_step)
														
 
															+
														
 
															+    def on_evaluate(self, args, state, control, metrics=None, **kwargs):
														
 
															+        if metrics:
														
 
															+            _write_log(type="evaluate", epoch=int(state.epoch or 0),
														
 
															+                       eval_loss=metrics.get("eval_loss"),
														
 
															+                       eval_accuracy=metrics.get("eval_accuracy"))
														
 
															+
														
 
															 async def run_training(job_id: str, model_id: str, model_type: str, dataset_id: str, config: dict):
														
 
															     """执行单个训练任务（远程调用入口）。"""
														
@@ -17,66 +78,84 @@ async def run_training(job_id: str, model_id: str, model_type: str, dataset_id:
 
															     from app.core.logging import logger
														
 
															     settings = get_settings()
														
 
															-
														
 
															-    # 查找数据集
														
 
															-    from app.core.db import async_session, DatasetRecord
														
 
															-    from sqlalchemy import select
														
 
															-
														
 
															-    dataset_path = None
														
 
															-    async with async_session() as session:
														
 
															-        result = await session.execute(select(DatasetRecord).where(
														
 
															-            (DatasetRecord.id == dataset_id) | (DatasetRecord.name == dataset_id)
														
 
															-        ))
														
 
															-        record = result.scalar_one_or_none()
														
 
															-        if record:
														
 
															-            dataset_path = record.file_path
														
 
															-
														
 
															-    if not dataset_path:
														
 
															-        # 尝试 uploads 目录
														
 
															-        upload_path = settings.uploads_dir / dataset_id
														
 
															-        if upload_path.exists():
														
 
															-            dataset_path = str(upload_path)
														
 
															-
														
 
															-    if not dataset_path:
														
 
															-        raise FileNotFoundError(f"Dataset not found: {dataset_id}")
														
 
															-
														
 
															-    # 预处理
														
 
															-    processed_path = str(settings.processed_dir / f"{job_id}_processed.jsonl")
														
 
															-    task_type = config.get("task_type", "sft")
														
 
															-    template = config.get("dataset_template", "alpaca")
														
 
															-
														
 
															-    # 选择引擎
														
 
															-    if model_type == "vision":
														
 
															-        from app.engines.vision_engine import vision_engine
														
 
															-        engine = vision_engine
														
 
															-    elif model_type == "multimodal":
														
 
															-        from app.engines.multimodal_engine import multimodal_engine
														
 
															-        engine = multimodal_engine
														
 
															-    else:
														
 
															-        from app.engines.text_engine import text_engine
														
 
															-        engine = text_engine
														
 
															-
														
 
															-    peft_method = config.get("peft_method", "lora")
														
 
															-
														
 
															-    # 预处理数据集
														
 
															-    await engine.preprocess_dataset(dataset_path, processed_path, task_type=task_type, template=template)
														
 
															-
														
 
															-    # 加载模型
														
 
															-    await engine.load_model(model_id, quantization="4bit" if peft_method == "qlora" else None)
														
 
															-
														
 
															-    # 构建 PEFT 配置
														
 
															-    peft_config = engine.get_peft_config(peft_method, config)
														
 
															-
														
 
															-    # 训练
														
 
															-    adapter_path = await engine.train(
														
 
															-        job_id=job_id,
														
 
															-        dataset_path=processed_path,
														
 
															-        peft_config=peft_config,
														
 
															-        training_args=config,
														
 
															-    )
														
 
															-
														
 
															-    logger.info(f"Remote training completed: {job_id} -> {adapter_path}")
														
 
															-    return adapter_path
														
 
															+    _init_log_file(settings.data_dir, job_id)
														
 
															+
														
 
															+    try:
														
 
															+        # 查找数据集
														
 
															+        from app.core.db import async_session, DatasetRecord
														
 
															+        from sqlalchemy import select
														
 
															+
														
 
															+        dataset_path = None
														
 
															+        async with async_session() as session:
														
 
															+            result = await session.execute(select(DatasetRecord).where(
														
 
															+                (DatasetRecord.id == dataset_id) | (DatasetRecord.name == dataset_id)
														
 
															+            ))
														
 
															+            record = result.scalar_one_or_none()
														
 
															+            if record:
														
 
															+                dataset_path = record.file_path
														
 
															+
														
 
															+        if not dataset_path:
														
 
															+            upload_path = settings.uploads_dir / dataset_id
														
 
															+            if upload_path.exists():
														
 
															+                dataset_path = str(upload_path)
														
 
															+
														
 
															+        if not dataset_path:
														
 
															+            raise FileNotFoundError(f"Dataset not found: {dataset_id}")
														
 
															+
														
 
															+        _write_log(type="status", status="preprocessing")
														
 
															+
														
 
															+        # 预处理
														
 
															+        processed_path = str(settings.processed_dir / f"{job_id}_processed.jsonl")
														
 
															+        task_type = config.get("task_type", "sft")
														
 
															+        template = config.get("dataset_template", "alpaca")
														
 
															+
														
 
															+        # 选择引擎
														
 
															+        if model_type == "vision":
														
 
															+            from app.engines.vision_engine import vision_engine
														
 
															+            engine = vision_engine
														
 
															+        elif model_type == "multimodal":
														
 
															+            from app.engines.multimodal_engine import multimodal_engine
														
 
															+            engine = multimodal_engine
														
 
															+        else:
														
 
															+            from app.engines.text_engine import text_engine
														
 
															+            engine = text_engine
														
 
															+
														
 
															+        peft_method = config.get("peft_method", "lora")
														
 
															+
														
 
															+        await engine.preprocess_dataset(dataset_path, processed_path, task_type=task_type, template=template)
														
 
															+
														
 
															+        _write_log(type="status", status="loading_model")
														
 
															+
														
 
															+        # 加载模型
														
 
															+        await engine.load_model(model_id, quantization="4bit" if peft_method == "qlora" else None)
														
 
															+
														
 
															+        # 构建 PEFT 配置
														
 
															+        peft_config = engine.get_peft_config(peft_method, config)
														
 
															+
														
 
															+        _write_log(type="status", status="training")
														
 
															+
														
 
															+        # 训练 — 传入文件日志回调替代 WebSocket 回调
														
 
															+        start_time = time.time()
														
 
															+        file_cb = FileProgressCallback(job_id)
														
 
															+
														
 
															+        adapter_path = await engine.train(
														
 
															+            job_id=job_id,
														
 
															+            dataset_path=processed_path,
														
 
															+            peft_config=peft_config,
														
 
															+            training_args=config,
														
 
															+            callbacks=[file_cb],
														
 
															+        )
														
 
															+
														
 
															+        elapsed = round(time.time() - start_time, 2)
														
 
															+        _write_log(type="completed", adapter_path=str(adapter_path), total_time=elapsed)
														
 
															+
														
 
															+        logger.info(f"Remote training completed: {job_id} -> {adapter_path} ({elapsed}s)")
														
 
															+        return adapter_path
														
 
															+
														
 
															+    except Exception as e:
														
 
															+        _write_log(type="error", message=str(e), traceback=traceback.format_exc())
														
 
															+        logger.error(f"Remote training failed: {job_id} - {e}")
														
 
															+        raise
														
 
															 def main():
														
--- a/backend/app/engines/text_engine.py
+++ b/backend/app/engines/text_engine.py
@@ -126,6 +126,7 @@ class TextEngine(BaseEngine):
 
															         dataset_path: str,
														
 
															         peft_config: Any,
														
 
															         training_args: dict[str, Any],
														
 
															+        callbacks: list | None = None,
														
 
															     ) -> str:
														
 
															         """执行训练。"""
														
 
															         from peft import get_peft_model
														
@@ -167,7 +168,8 @@ class TextEngine(BaseEngine):
 
															             **({"deepspeed": deepspeed_config} if deepspeed_config else {}),
														
 
															         )
														
 
															-        callback = _ProgressCallback(job_id)
														
 
															+        # 本地模式用 WebSocket 回调，远程模式用传入的文件日志回调
														
 
															+        all_callbacks = callbacks if callbacks else [_ProgressCallback(job_id)]
														
 
															         if task_type == "sft":
														
 
															             from transformers import Trainer
														
@@ -177,7 +179,7 @@ class TextEngine(BaseEngine):
 
															                 args=tr_args,
														
 
															                 train_dataset=dataset,
														
 
															                 data_collator=DataCollatorForSeq2Seq(self._tokenizer),
														
 
															-                callbacks=[callback],
														
 
															+                callbacks=all_callbacks,
														
 
															             )
														
 
															         else:
														
 
															             from trl import (
														
@@ -229,7 +231,7 @@ class TextEngine(BaseEngine):
 
															                     args=tr_args,
														
 
															                     train_dataset=dataset,
														
 
															                     data_collator=DataCollatorForSeq2Seq(self._tokenizer),
														
 
															-                    callbacks=[callback],
														
 
															+                    callbacks=all_callbacks,
														
 
															                 )
														
 
															         try:
														
--- a/backend/app/engines/vision_engine.py
+++ b/backend/app/engines/vision_engine.py
@@ -73,6 +73,7 @@ class VisionEngine(BaseEngine):
 
															         dataset_path: str,
														
 
															         peft_config: Any,
														
 
															         training_args: dict[str, Any],
														
 
															+        callbacks: list | None = None,
														
 
															     ) -> str:
														
 
															         from peft import get_peft_model
														
 
															         from transformers import DataCollatorWithPadding, Trainer, TrainingArguments
														
@@ -125,13 +126,13 @@ class VisionEngine(BaseEngine):
 
															             report_to="none",
														
 
															         )
														
 
															-        callback = _ProgressCallback(job_id)
														
 
															+        all_callbacks = callbacks if callbacks else [_ProgressCallback(job_id)]
														
 
															         trainer = Trainer(
														
 
															             model=self._model,
														
 
															             args=tr_args,
														
 
															             train_dataset=hf_dataset,
														
 
															             data_collator=DataCollatorWithPadding(self._processor),
														
 
															-            callbacks=[callback],
														
 
															+            callbacks=all_callbacks,
														
 
															         )
														
 
															         try:
														
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -41,6 +41,7 @@ services:
 
															       - COMPUTE_NODE_SSH_PASSWORD=ictrek
														
 
															       # - COMPUTE_NODE_SSH_KEY=/root/.ssh/id_rsa  # 优先用密钥，密码为备选
														
 
															       - COMPUTE_NODE_PYTHON=/opt/conda/bin/python
														
 
															+      - COMPUTE_NODE_DOCKER_CONTAINER=finetune-trainer
														
 
															       - COMPUTE_NODE_WORKDIR=/root/Fine-tuning/backend
														
 
															       - COMPUTE_NODE_REMOTE_DATA_DIR=/root/Fine-tuning/backend/data
														
 
															       - COMPUTE_NODE_REMOTE_ENV=production
														
--- a/result.txt
+++ b/result.txt
@@ -1,49 +1,19 @@
 
															-(base) [root@localhost Fine-tuning]# docker exec finetune-backend pip install --upgrade datasets
														
 
															-Looking in indexes: http://mirrors.aliyun.com/pypi/simple
														
 
															-Requirement already satisfied: datasets in /opt/conda/lib/python3.10/site-packages (4.8.5)
														
 
															-Requirement already satisfied: filelock in /opt/conda/lib/python3.10/site-packages (from datasets) (3.29.0)
														
 
															-Requirement already satisfied: numpy>=1.17 in /opt/conda/lib/python3.10/site-packages (from datasets) (1.26.4)
														
 
															-Requirement already satisfied: pyarrow>=21.0.0 in /opt/conda/lib/python3.10/site-packages (from datasets) (24.0.0)
														
 
															-Requirement already satisfied: dill<0.4.2,>=0.3.0 in /opt/conda/lib/python3.10/site-packages (from datasets) (0.4.1)
														
 
															-Requirement already satisfied: pandas in /opt/conda/lib/python3.10/site-packages (from datasets) (2.3.3)
														
 
															-Requirement already satisfied: requests>=2.32.2 in /opt/conda/lib/python3.10/site-packages (from datasets) (2.32.3)
														
 
															-Requirement already satisfied: httpx<1.0.0 in /opt/conda/lib/python3.10/site-packages (from datasets) (0.28.1)
														
 
															-Requirement already satisfied: tqdm>=4.66.3 in /opt/conda/lib/python3.10/site-packages (from datasets) (4.67.1)
														
 
															-Requirement already satisfied: xxhash in /opt/conda/lib/python3.10/site-packages (from datasets) (3.7.0)
														
 
															-Requirement already satisfied: multiprocess<0.70.20 in /opt/conda/lib/python3.10/site-packages (from datasets) (0.70.19)
														
 
															-Requirement already satisfied: fsspec<=2026.2.0,>=2023.1.0 in /opt/conda/lib/python3.10/site-packages (from fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (2025.5.1)
														
 
															-Requirement already satisfied: huggingface-hub<2.0,>=0.25.0 in /opt/conda/lib/python3.10/site-packages (from datasets) (1.14.0)
														
 
															-Requirement already satisfied: packaging in /opt/conda/lib/python3.10/site-packages (from datasets) (26.2)
														
 
															-Requirement already satisfied: pyyaml>=5.1 in /opt/conda/lib/python3.10/site-packages (from datasets) (6.0.3)
														
 
															-Requirement already satisfied: aiohttp!=4.0.0a0,!=4.0.0a1 in /opt/conda/lib/python3.10/site-packages (from fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (3.13.5)
														
 
															-Requirement already satisfied: anyio in /opt/conda/lib/python3.10/site-packages (from httpx<1.0.0->datasets) (4.13.0)
														
 
															-Requirement already satisfied: certifi in /opt/conda/lib/python3.10/site-packages (from httpx<1.0.0->datasets) (2026.4.22)
														
 
															-Requirement already satisfied: httpcore==1.* in /opt/conda/lib/python3.10/site-packages (from httpx<1.0.0->datasets) (1.0.9)
														
 
															-Requirement already satisfied: idna in /opt/conda/lib/python3.10/site-packages (from httpx<1.0.0->datasets) (3.10)
														
 
															-Requirement already satisfied: h11>=0.16 in /opt/conda/lib/python3.10/site-packages (from httpcore==1.*->httpx<1.0.0->datasets) (0.16.0)
														
 
															-Requirement already satisfied: hf-xet<2.0.0,>=1.4.3 in /opt/conda/lib/python3.10/site-packages (from huggingface-hub<2.0,>=0.25.0->datasets) (1.4.3)
														
 
															-Requirement already satisfied: typer>=0.20.0 in /opt/conda/lib/python3.10/site-packages (from huggingface-hub<2.0,>=0.25.0->datasets) (0.25.0)
														
 
															-Requirement already satisfied: typing-extensions>=4.1.0 in /opt/conda/lib/python3.10/site-packages (from huggingface-hub<2.0,>=0.25.0->datasets) (4.15.0)
														
 
															-Requirement already satisfied: aiohappyeyeballs>=2.5.0 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (2.6.1)
														
 
															-Requirement already satisfied: aiosignal>=1.4.0 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (1.4.0)
														
 
															-Requirement already satisfied: async-timeout<6.0,>=4.0 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (5.0.1)
														
 
															-Requirement already satisfied: attrs>=17.3.0 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (26.1.0)
														
 
															-Requirement already satisfied: frozenlist>=1.1.1 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (1.8.0)
														
 
															-Requirement already satisfied: multidict<7.0,>=4.5 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (6.7.1)
														
 
															-Requirement already satisfied: propcache>=0.2.0 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (0.4.1)
														
 
															-Requirement already satisfied: yarl<2.0,>=1.17.0 in /opt/conda/lib/python3.10/site-packages (from aiohttp!=4.0.0a0,!=4.0.0a1->fsspec[http]<=2026.2.0,>=2023.1.0->datasets) (1.23.0)
														
 
															-Requirement already satisfied: charset_normalizer<4,>=2 in /opt/conda/lib/python3.10/site-packages (from requests>=2.32.2->datasets) (3.4.1)
														
 
															-Requirement already satisfied: urllib3<3,>=1.21.1 in /opt/conda/lib/python3.10/site-packages (from requests>=2.32.2->datasets) (2.3.0)
														
 
															-Requirement already satisfied: click>=8.2.1 in /opt/conda/lib/python3.10/site-packages (from typer>=0.20.0->huggingface-hub<2.0,>=0.25.0->datasets) (8.2.1)
														
 
															-Requirement already satisfied: shellingham>=1.3.0 in /opt/conda/lib/python3.10/site-packages (from typer>=0.20.0->huggingface-hub<2.0,>=0.25.0->datasets) (1.5.4)
														
 
															-Requirement already satisfied: rich>=13.8.0 in /opt/conda/lib/python3.10/site-packages (from typer>=0.20.0->huggingface-hub<2.0,>=0.25.0->datasets) (15.0.0)
														
 
															-Requirement already satisfied: annotated-doc>=0.0.2 in /opt/conda/lib/python3.10/site-packages (from typer>=0.20.0->huggingface-hub<2.0,>=0.25.0->datasets) (0.0.4)
														
 
															-Requirement already satisfied: markdown-it-py>=2.2.0 in /opt/conda/lib/python3.10/site-packages (from rich>=13.8.0->typer>=0.20.0->huggingface-hub<2.0,>=0.25.0->datasets) (4.0.0)
														
 
															-Requirement already satisfied: pygments<3.0.0,>=2.13.0 in /opt/conda/lib/python3.10/site-packages (from rich>=13.8.0->typer>=0.20.0->huggingface-hub<2.0,>=0.25.0->datasets) (2.19.2)
														
 
															-Requirement already satisfied: mdurl~=0.1 in /opt/conda/lib/python3.10/site-packages (from markdown-it-py>=2.2.0->rich>=13.8.0->typer>=0.20.0->huggingface-hub<2.0,>=0.25.0->datasets) (0.1.2)
														
 
															-Requirement already satisfied: exceptiongroup>=1.0.2 in /opt/conda/lib/python3.10/site-packages (from anyio->httpx<1.0.0->datasets) (1.3.0)
														
 
															-Requirement already satisfied: python-dateutil>=2.8.2 in /opt/conda/lib/python3.10/site-packages (from pandas->datasets) (2.9.0.post0)
														
 
															-Requirement already satisfied: pytz>=2020.1 in /opt/conda/lib/python3.10/site-packages (from pandas->datasets) (2026.1.post1)
														
 
															-Requirement already satisfied: tzdata>=2022.7 in /opt/conda/lib/python3.10/site-packages (from pandas->datasets) (2026.2)
														
 
															-Requirement already satisfied: six>=1.5 in /opt/conda/lib/python3.10/site-packages (from python-dateutil>=2.8.2->pandas->datasets) (1.17.0)
														
 
															-WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager, possibly rendering your system unusable. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv. Use the --root-user-action option if you know what you are doing and want to suppress this warning.
														
 
															+(base) [root@localhost backend]# sshpass -p 'lq123456!' ssh -o StrictHostKeyChecking=no lq@192.168.92.151 "ls -la /home/lq/Fine-tuning/"
														
 
															+total 104
														
 
															+drwxrwxr-x 5 lq lq  4096 May 19 03:50 .
														
 
															+drwxr-xr-x 8 lq lq  4096 May 19 08:05 ..
														
 
															+drwxrwxr-x 4 lq lq  4096 May 19 03:59 backend
														
 
															+-rw-rw-r-- 1 lq lq  5050 May 19 03:49 CLAUDE.md
														
 
															+-rw-rw-r-- 1 lq lq  2031 May 19 03:50 DEPLOY.md
														
 
															+-rw-rw-r-- 1 lq lq  1892 May 19 03:50 docker-compose.yml
														
 
															+-rw-rw-r-- 1 lq lq    86 May 19 03:49 .dockerignore
														
 
															+-rw-rw-r-- 1 lq lq   543 May 19 03:49 .env
														
 
															+-rw-rw-r-- 1 lq lq   375 May 19 03:49 .env.example
														
 
															+drwxrwxr-x 3 lq lq  4096 May 19 03:49 frontend
														
 
															+drwxrwxr-x 8 lq lq  4096 May 19 03:50 .git
														
 
															+-rw-rw-r-- 1 lq lq   210 May 19 03:49 .gitignore
														
 
															+-rw-rw-r-- 1 lq lq     0 May 19 03:49 peft-finetune-frontend@0.1.0
														
 
															+-rw-rw-r-- 1 lq lq  3485 May 19 03:49 README.md
														
 
															+-rw-rw-r-- 1 lq lq  7036 May 19 03:49 result.txt
														
 
															+-rw-rw-r-- 1 lq lq 15237 May 19 03:50 样本中心提供API接口文档_外部.md
														
 
															+-rw-rw-r-- 1 lq lq 20943 May 19 03:50 统一认证平台接入流程及API接口文档(1)(1).md