2 tuần trước cách đây · 3051aa5793
--- a/backend/app/api/datasets.py
+++ b/backend/app/api/datasets.py
@@ -15,41 +15,38 @@ router = APIRouter()
 
															 @router.post("/download", response_model=DatasetDownloadResponse)
														
 
															 async def download_dataset(req: DatasetDownloadRequest):
														
 
															     """从 HuggingFace 或 ModelScope 下载数据集。"""
														
 
															-    return dataset_service.download_dataset(req)
														
 
															+    return await dataset_service.download_dataset(req)
														
 
															 @router.post("/upload", response_model=DatasetUploadResponse)
														
 
															 async def upload_dataset(file: UploadFile = File(...)):
														
 
															     """上传数据集文件（JSONL / CSV / Parquet / JSON）。"""
														
 
															-    return DatasetUploadResponse(
														
 
															-        id="placeholder",
														
 
															-        name=file.filename or "unknown",
														
 
															-        format="jsonl",
														
 
															-        record_count=0,
														
 
															-        file_path="",
														
 
															-        created_at="",
														
 
															-    )
														
 
															+    result = await dataset_service.upload_dataset(file)
														
 
															+    return DatasetUploadResponse(**result)
														
 
															 @router.get("/{dataset_id}/preview", response_model=DatasetPreviewResponse)
														
 
															 async def preview_dataset(dataset_id: str, rows: int = Query(default=10, le=100)):
														
 
															     """预览数据集前 N 行。"""
														
 
															-    return DatasetPreviewResponse(total_records=0, preview_rows=[], columns=[])
														
 
															+    result = await dataset_service.preview_dataset(dataset_id, rows)
														
 
															+    return DatasetPreviewResponse(**result)
														
 
															 @router.post("/{dataset_id}/validate", response_model=DatasetValidationResult)
														
 
															 async def validate_dataset(dataset_id: str):
														
 
															     """校验数据集格式和 Schema。"""
														
 
															-    return DatasetValidationResult(is_valid=True)
														
 
															+    result = await dataset_service.validate_dataset(dataset_id)
														
 
															+    return DatasetValidationResult(**result)
														
 
															 @router.get("/", response_model=list[DatasetUploadResponse])
														
 
															 async def list_datasets():
														
 
															     """列出所有已上传数据集。"""
														
 
															-    return []
														
 
															+    items = await dataset_service.list_datasets()
														
 
															+    return [DatasetUploadResponse(**item) for item in items]
														
 
															 @router.delete("/{dataset_id}")
														
 
															 async def delete_dataset(dataset_id: str):
														
 
															     """删除数据集。"""
														
 
															-    return {"status": "deleted"}
														
 
															+    return await dataset_service.delete_dataset(dataset_id)
														
--- a/backend/app/api/deployment.py
+++ b/backend/app/api/deployment.py
@@ -1,6 +1,7 @@
 
															 from fastapi import APIRouter
														
 
															 from app.schemas.deployment import DeployConfig, DeployResponse
														
 
															+from app.services import deploy_service
														
 
															 router = APIRouter()
														
@@ -8,20 +9,15 @@ router = APIRouter()
 
															 @router.post("/export", response_model=DeployResponse)
														
 
															 async def export_adapter(config: DeployConfig):
														
 
															     """合并 adapter 与基础模型，可选导出为 GGUF。"""
														
 
															-    return DeployResponse(
														
 
															-        job_id=config.job_id,
														
 
															-        status="pending",
														
 
															-        output_path=None,
														
 
															-        error=None,
														
 
															+    result = await deploy_service.export_adapter(
														
 
															+        config.job_id,
														
 
															+        {"merge_with_base": config.merge_with_base, "export_format": config.export_format},
														
 
															     )
														
 
															+    return DeployResponse(**result)
														
 
															 @router.get("/{deploy_id}/status", response_model=DeployResponse)
														
 
															 async def get_deployment_status(deploy_id: str):
														
 
															     """获取导出/部署任务状态。"""
														
 
															-    return DeployResponse(
														
 
															-        job_id=deploy_id,
														
 
															-        status="pending",
														
 
															-        output_path=None,
														
 
															-        error=None,
														
 
															-    )
														
 
															+    result = await deploy_service.get_deploy_status(deploy_id)
														
 
															+    return DeployResponse(**result)
														
--- a/backend/app/api/evaluation.py
+++ b/backend/app/api/evaluation.py
@@ -1,6 +1,7 @@
 
															 from fastapi import APIRouter
														
 
															 from app.schemas.evaluation import EvalConfig, EvalResult
														
 
															+from app.services import eval_service
														
 
															 router = APIRouter()
														
@@ -8,20 +9,12 @@ router = APIRouter()
 
															 @router.post("/run", response_model=EvalResult)
														
 
															 async def run_evaluation(config: EvalConfig):
														
 
															     """对已训练的 adapter 运行评估。"""
														
 
															-    return EvalResult(
														
 
															-        id="placeholder",
														
 
															-        job_id=config.job_id,
														
 
															-        metrics={},
														
 
															-        created_at="",
														
 
															-    )
														
 
															+    result = await eval_service.run_evaluation(config.job_id, config.model_dump())
														
 
															+    return EvalResult(**result)
														
 
															 @router.get("/{eval_id}/results", response_model=EvalResult)
														
 
															 async def get_evaluation_results(eval_id: str):
														
 
															     """获取已完成评估的结果。"""
														
 
															-    return EvalResult(
														
 
															-        id=eval_id,
														
 
															-        job_id="",
														
 
															-        metrics={},
														
 
															-        created_at="",
														
 
															-    )
														
 
															+    result = await eval_service.get_evaluation_results(eval_id)
														
 
															+    return EvalResult(**result)
														
--- a/backend/app/api/models.py
+++ b/backend/app/api/models.py
@@ -1,6 +1,7 @@
 
															 from fastapi import APIRouter
														
 
															 from app.schemas.model import ModelDownloadRequest, ModelDownloadResponse, ModelInfo
														
 
															+from app.services import model_service
														
 
															 router = APIRouter()
														
@@ -8,20 +9,47 @@ router = APIRouter()
 
															 @router.get("/", response_model=list[ModelInfo])
														
 
															 async def list_models():
														
 
															     """列出所有本地缓存的模型。"""
														
 
															-    return []
														
 
															+    models = model_service.list_cached_models()
														
 
															+    return [
														
 
															+        ModelInfo(
														
 
															+            id=m["id"],
														
 
															+            name=m.get("name", m["id"]),
														
 
															+            model_type=m.get("model_type", "text"),
														
 
															+            path=m.get("path"),
														
 
															+            is_downloaded=m.get("is_downloaded", True),
														
 
															+            context_length=m.get("context_length"),
														
 
															+            supported_peft_methods=m.get("supported_peft_methods", []),
														
 
															+        )
														
 
															+        for m in models
														
 
															+    ]
														
 
															 @router.post("/download", response_model=ModelDownloadResponse)
														
 
															 async def download_model(req: ModelDownloadRequest):
														
 
															     """从 HuggingFace 或 ModelScope 下载模型。"""
														
 
															+    result = await model_service.download_model(req.model_id, req.use_modelscope)
														
 
															     return ModelDownloadResponse(
														
 
															-        model_id=req.model_id, status="downloading", path=None, error=None
														
 
															+        model_id=result["model_id"],
														
 
															+        status=result["status"],
														
 
															+        path=result.get("path"),
														
 
															+        error=result.get("error"),
														
 
															     )
														
 
															 @router.get("/{model_id}", response_model=ModelInfo)
														
 
															 async def get_model_info(model_id: str):
														
 
															     """获取已缓存模型的详细信息。"""
														
 
															+    info = await model_service.get_model_info(model_id)
														
 
															+    if info:
														
 
															+        return ModelInfo(
														
 
															+            id=info["id"],
														
 
															+            name=info.get("name", model_id.split("/")[-1]),
														
 
															+            model_type=info.get("model_type", "text"),
														
 
															+            path=info.get("path"),
														
 
															+            is_downloaded=info.get("is_downloaded", True),
														
 
															+            context_length=info.get("context_length"),
														
 
															+            supported_peft_methods=info.get("supported_peft_methods", []),
														
 
															+        )
														
 
															     return ModelInfo(
														
 
															         id=model_id,
														
 
															         name=model_id.split("/")[-1],
														
--- a/backend/app/api/training.py
+++ b/backend/app/api/training.py
@@ -1,6 +1,7 @@
 
															 from fastapi import APIRouter
														
 
															 from app.schemas.training import TrainingConfig, TrainingJobResponse, TrainingProgress
														
 
															+from app.services import training_service
														
 
															 router = APIRouter()
														
@@ -8,25 +9,24 @@ router = APIRouter()
 
															 @router.post("/jobs", response_model=TrainingJobResponse)
														
 
															 async def create_training_job(config: TrainingConfig):
														
 
															     """创建并加入训练任务。"""
														
 
															-    return TrainingJobResponse(
														
 
															-        id="placeholder",
														
 
															-        model_id=config.model_id,
														
 
															-        model_type=config.model_type.value,
														
 
															-        peft_method=config.peft_method.value,
														
 
															-        status="pending",
														
 
															-        created_at="",
														
 
															-    )
														
 
															+    config_dict = config.model_dump()
														
 
															+    result = await training_service.create_training_job(config_dict)
														
 
															+    return TrainingJobResponse(**result)
														
 
															 @router.get("/jobs", response_model=list[TrainingJobResponse])
														
 
															 async def list_training_jobs():
														
 
															     """列出所有训练任务。"""
														
 
															-    return []
														
 
															+    items = await training_service.list_training_jobs()
														
 
															+    return [TrainingJobResponse(**item) for item in items]
														
 
															 @router.get("/jobs/{job_id}", response_model=TrainingJobResponse)
														
 
															 async def get_training_job(job_id: str):
														
 
															     """获取指定任务详情。"""
														
 
															+    item = await training_service.get_training_job(job_id)
														
 
															+    if item:
														
 
															+        return TrainingJobResponse(**item)
														
 
															     return TrainingJobResponse(
														
 
															         id=job_id,
														
 
															         model_id="",
														
@@ -40,10 +40,23 @@ async def get_training_job(job_id: str):
 
															 @router.post("/jobs/{job_id}/cancel")
														
 
															 async def cancel_training_job(job_id: str):
														
 
															     """取消运行中的训练任务。"""
														
 
															-    return {"status": "cancelled"}
														
 
															+    return await training_service.cancel_training_job(job_id)
														
 
															 @router.get("/jobs/{job_id}/logs")
														
 
															 async def stream_training_logs(job_id: str):
														
 
															     """通过 SSE 流式推送训练日志。"""
														
 
															-    return {"logs": []}
														
 
															+    from fastapi.responses import StreamingResponse
														
 
															+
														
 
															+    async def log_stream():
														
 
															+        from app.config import get_settings
														
 
															+        _settings = get_settings()
														
 
															+        log_file = _settings.adapters_dir / job_id / "trainer_log.txt"
														
 
															+        if os.path.exists(log_file):
														
 
															+            with open(log_file, "r") as f:
														
 
															+                for line in f:
														
 
															+                    yield f"data: {line}\n\n"
														
 
															+        else:
														
 
															+            yield "data: No logs available\n\n"
														
 
															+
														
 
															+    return StreamingResponse(log_stream(), media_type="text/event-stream")
														
--- a/backend/app/core/db.py
+++ b/backend/app/core/db.py
@@ -1,9 +1,15 @@
 
															-from app.config import get_settings
														
 
															+from datetime import datetime
														
 
															+from sqlalchemy import Column, DateTime, Float, Integer, String, Text
														
 
															 from sqlalchemy.ext.asyncio import AsyncSession, async_sessionmaker, create_async_engine
														
 
															+from sqlalchemy.orm import DeclarativeBase
														
 
															+
														
 
															+from app.config import get_settings
														
 
															 settings = get_settings()
														
 
															+Base = DeclarativeBase()
														
 
															+
														
 
															 engine = create_async_engine(
														
 
															     settings.database_url,
														
 
															     echo=settings.backend_env == "development",
														
@@ -12,6 +18,97 @@ engine = create_async_engine(
 
															 async_session = async_sessionmaker(engine, class_=AsyncSession, expire_on_commit=False)
														
 
															-async def get_db() -> AsyncSession:  # type: ignore[misc]
														
 
															+class TrainingJobModel(Base):
														
 
															+    __tablename__ = "training_jobs"
														
 
															+
														
 
															+    id = Column(String(36), primary_key=True)
														
 
															+    model_id = Column(String(256), nullable=False)
														
 
															+    model_type = Column(String(32), nullable=False)
														
 
															+    dataset_id = Column(String(36), nullable=False)
														
 
															+    peft_method = Column(String(32), nullable=False)
														
 
															+    task_type = Column(String(32), default="sft")  # sft/dpo/kto/orpo/rm/ppo
														
 
															+    dataset_template = Column(String(32), default="alpaca")
														
 
															+
														
 
															+    status = Column(String(32), default="pending")
														
 
															+    progress = Column(Float, default=0.0)
														
 
															+    current_epoch = Column(Integer, default=0)
														
 
															+    current_step = Column(Integer, default=0)
														
 
															+    total_steps = Column(Integer, default=0)
														
 
															+    loss = Column(Float, nullable=True)
														
 
															+    learning_rate = Column(Float, nullable=True)
														
 
															+
														
 
															+    epochs = Column(Integer, default=3)
														
 
															+    batch_size = Column(Integer, default=4)
														
 
															+    gradient_accumulation = Column(Integer, default=4)
														
 
															+    max_seq_length = Column(Integer, default=2048)
														
 
															+    warmup_ratio = Column(Float, default=0.05)
														
 
															+    save_strategy = Column(String(32), default="epoch")
														
 
															+    eval_strategy = Column(String(32), default="epoch")
														
 
															+    eval_steps = Column(Integer, default=100)
														
 
															+
														
 
															+    lora_r = Column(Integer, default=16)
														
 
															+    lora_alpha = Column(Integer, default=32)
														
 
															+    lora_dropout = Column(Float, default=0.05)
														
 
															+    lora_target_modules = Column(String(256), default="all-linear")
														
 
															+    qlora_bits = Column(Integer, default=4)
														
 
															+
														
 
															+    created_at = Column(DateTime, default=datetime.utcnow)
														
 
															+    started_at = Column(DateTime, nullable=True)
														
 
															+    finished_at = Column(DateTime, nullable=True)
														
 
															+    error_message = Column(Text, nullable=True)
														
 
															+    adapter_path = Column(String(512), nullable=True)
														
 
															+
														
 
															+
														
 
															+class DatasetRecord(Base):
														
 
															+    __tablename__ = "datasets"
														
 
															+
														
 
															+    id = Column(String(36), primary_key=True)
														
 
															+    name = Column(String(256), nullable=False)
														
 
															+    format = Column(String(16), nullable=False)
														
 
															+    record_count = Column(Integer, default=0)
														
 
															+    file_path = Column(String(512), nullable=False)
														
 
															+    created_at = Column(DateTime, default=datetime.utcnow)
														
 
															+
														
 
															+
														
 
															+class ModelCache(Base):
														
 
															+    __tablename__ = "model_cache"
														
 
															+
														
 
															+    id = Column(String(256), primary_key=True)
														
 
															+    name = Column(String(256), nullable=False)
														
 
															+    model_type = Column(String(32), nullable=False)
														
 
															+    path = Column(String(512), nullable=True)
														
 
															+    is_downloaded = Column(Integer, default=0)
														
 
															+    context_length = Column(Integer, nullable=True)
														
 
															+    supported_peft_methods = Column(String(256), default="")
														
 
															+    created_at = Column(DateTime, default=datetime.utcnow)
														
 
															+
														
 
															+
														
 
															+class EvalResultModel(Base):
														
 
															+    __tablename__ = "eval_results"
														
 
															+
														
 
															+    id = Column(String(36), primary_key=True)
														
 
															+    job_id = Column(String(36), nullable=False)
														
 
															+    metrics = Column(Text, default="{}")
														
 
															+    created_at = Column(DateTime, default=datetime.utcnow)
														
 
															+
														
 
															+
														
 
															+class DeployTaskModel(Base):
														
 
															+    __tablename__ = "deploy_tasks"
														
 
															+
														
 
															+    id = Column(String(36), primary_key=True)
														
 
															+    job_id = Column(String(36), nullable=False)
														
 
															+    status = Column(String(32), default="pending")
														
 
															+    output_path = Column(String(512), nullable=True)
														
 
															+    error = Column(Text, nullable=True)
														
 
															+    created_at = Column(DateTime, default=datetime.utcnow)
														
 
															+
														
 
															+
														
 
															+async def init_db():
														
 
															+    """创建所有表（首次启动时调用）。"""
														
 
															+    async with engine.begin() as conn:
														
 
															+        await conn.run_sync(Base.metadata.create_all)
														
 
															+
														
 
															+
														
 
															+async def get_db() -> AsyncSession:
														
 
															     async with async_session() as session:
														
 
															         yield session
														
--- a/backend/app/core/job_queue.py
+++ b/backend/app/core/job_queue.py
@@ -1,8 +1,12 @@
 
															+import asyncio
														
 
															 from datetime import datetime, timezone
														
 
															 from enum import Enum
														
 
															+from typing import Any, Callable, Coroutine, Optional
														
 
															 from pydantic import BaseModel, Field
														
 
															+from app.core.logging import logger
														
 
															+
														
 
															 class JobStatus(str, Enum):
														
 
															     PENDING = "pending"
														
@@ -38,3 +42,240 @@ class TrainingJob(BaseModel):
 
															     created_at: str = Field(default_factory=lambda: datetime.now(timezone.utc).isoformat())
														
 
															     started_at: str | None = None
														
 
															     finished_at: str | None = None
														
 
															+
														
 
															+
														
 
															+class JobQueue:
														
 
															+    """异步任务队列，支持取消和并发控制。"""
														
 
															+
														
 
															+    def __init__(self, max_concurrent: int = 2):
														
 
															+        self._queue: asyncio.Queue[str] = asyncio.Queue()
														
 
															+        self._jobs: dict[str, TrainingJob] = {}
														
 
															+        self._cancel_events: dict[str, asyncio.Event] = {}
														
 
															+        self._callbacks: list[Callable[[TrainingJob], Coroutine[Any, Any, None]]] = []
														
 
															+        self._max_concurrent = max_concurrent
														
 
															+        self._workers: list[asyncio.Task] = []
														
 
															+        self._running = False
														
 
															+
														
 
															+    async def start(self):
														
 
															+        """启动后台 worker。"""
														
 
															+        if self._running:
														
 
															+            return
														
 
															+        self._running = True
														
 
															+        for _ in range(self._max_concurrent):
														
 
															+            worker = asyncio.create_task(self._worker_loop())
														
 
															+            self._workers.append(worker)
														
 
															+        logger.info(f"JobQueue started with {self._max_concurrent} workers")
														
 
															+
														
 
															+    async def stop(self):
														
 
															+        """停止所有 worker。"""
														
 
															+        self._running = False
														
 
															+        for event in self._cancel_events.values():
														
 
															+            event.set()
														
 
															+        for worker in self._workers:
														
 
															+            worker.cancel()
														
 
															+        self._workers.clear()
														
 
															+        logger.info("JobQueue stopped")
														
 
															+
														
 
															+    async def enqueue(self, job_id: str, job: TrainingJob):
														
 
															+        """将任务加入队列。"""
														
 
															+        self._jobs[job_id] = job
														
 
															+        self._cancel_events[job_id] = asyncio.Event()
														
 
															+        await self._queue.put(job_id)
														
 
															+        logger.info(f"Job {job_id} enqueued")
														
 
															+
														
 
															+    async def dequeue(self) -> str:
														
 
															+        """从队列中取出任务 ID。"""
														
 
															+        return await self._queue.get()
														
 
															+
														
 
															+    def mark_done(self, job_id: str):
														
 
															+        """标记任务完成。"""
														
 
															+        self._queue.task_done()
														
 
															+        self._cancel_events.pop(job_id, None)
														
 
															+
														
 
															+    def get_job(self, job_id: str) -> Optional[TrainingJob]:
														
 
															+        return self._jobs.get(job_id)
														
 
															+
														
 
															+    def update_job(self, job_id: str, **kwargs):
														
 
															+        if job_id in self._jobs:
														
 
															+            job = self._jobs[job_id]
														
 
															+            for key, val in kwargs.items():
														
 
															+                if hasattr(job, key):
														
 
															+                    setattr(job, key, val)
														
 
															+
														
 
															+    def is_cancelled(self, job_id: str) -> bool:
														
 
															+        event = self._cancel_events.get(job_id)
														
 
															+        return event is not None and event.is_set()
														
 
															+
														
 
															+    async def cancel(self, job_id: str):
														
 
															+        """取消任务。"""
														
 
															+        if job_id in self._cancel_events:
														
 
															+            self._cancel_events[job_id].set()
														
 
															+            self.update_job(job_id, status=JobStatus.CANCELLED)
														
 
															+            await self._notify_callbacks()
														
 
															+            logger.info(f"Job {job_id} cancelled")
														
 
															+
														
 
															+    def register_callback(self, callback: Callable[[TrainingJob], Coroutine[Any, Any, None]]):
														
 
															+        """注册状态变更回调（用于更新数据库等）。"""
														
 
															+        self._callbacks.append(callback)
														
 
															+
														
 
															+    async def _notify_callbacks(self):
														
 
															+        for cb in self._callbacks:
														
 
															+            try:
														
 
															+                for job in self._jobs.values():
														
 
															+                    await cb(job)
														
 
															+            except Exception as e:
														
 
															+                logger.error(f"JobQueue callback error: {e}")
														
 
															+
														
 
															+    async def _worker_loop(self):
														
 
															+        """worker 循环：不断从队列取任务并执行。"""
														
 
															+        while self._running:
														
 
															+            try:
														
 
															+                job_id = await asyncio.wait_for(self._queue.get(), timeout=1.0)
														
 
															+            except asyncio.TimeoutError:
														
 
															+                continue
														
 
															+
														
 
															+            try:
														
 
															+                await self._run_job(job_id)
														
 
															+            except Exception as e:
														
 
															+                logger.error(f"Job {job_id} failed: {e}")
														
 
															+                self.update_job(job_id, status=JobStatus.FAILED, error_message=str(e))
														
 
															+            finally:
														
 
															+                self._queue.task_done()
														
 
															+
														
 
															+    async def _run_job(self, job_id: str):
														
 
															+        """执行单个任务：预处理 → 训练 → 完成。"""
														
 
															+        job = self._jobs.get(job_id)
														
 
															+        if not job:
														
 
															+            return
														
 
															+
														
 
															+        self.update_job(job_id, status=JobStatus.QUEUED)
														
 
															+        await self._notify_callbacks()
														
 
															+
														
 
															+        if self.is_cancelled(job_id):
														
 
															+            return
														
 
															+
														
 
															+        self.update_job(job_id, status=JobStatus.PREPROCESSING, started_at=datetime.now(timezone.utc).isoformat())
														
 
															+        await self._notify_callbacks()
														
 
															+
														
 
															+        if self.is_cancelled(job_id):
														
 
															+            return
														
 
															+
														
 
															+        try:
														
 
															+            config = job.config
														
 
															+            model_id = job.model_id
														
 
															+            model_type = job.model_type
														
 
															+            peft_method = job.peft_method
														
 
															+            dataset_id = config.get("dataset_id", job.dataset_id)
														
 
															+
														
 
															+            # 获取数据集文件路径
														
 
															+            from app.config import get_settings
														
 
															+            settings = get_settings()
														
 
															+
														
 
															+            # 查找数据集文件
														
 
															+            dataset_path = self._find_dataset_path(dataset_id)
														
 
															+            if not dataset_path:
														
 
															+                raise FileNotFoundError(f"Dataset not found: {dataset_id}")
														
 
															+
														
 
															+            # 预处理
														
 
															+            processed_path = str(settings.processed_dir / f"{job_id}_processed.jsonl")
														
 
															+            task_type = config.get("task_type", "sft")
														
 
															+            template = config.get("dataset_template", "alpaca")
														
 
															+
														
 
															+            # 选择引擎
														
 
															+            engine = self._get_engine(model_type)
														
 
															+
														
 
															+            # 预处理
														
 
															+            await engine.preprocess_dataset(dataset_path, processed_path, task_type=task_type, template=template)
														
 
															+            self.update_job(job_id, status=JobStatus.TRAINING)
														
 
															+            await self._notify_callbacks()
														
 
															+
														
 
															+            # 加载模型
														
 
															+            await engine.load_model(model_id, quantization="4bit" if peft_method == "qlora" else None)
														
 
															+
														
 
															+            # 构建 PEFT 配置
														
 
															+            peft_config = engine.get_peft_config(peft_method, config)
														
 
															+
														
 
															+            # 训练
														
 
															+            adapter_path = await engine.train(
														
 
															+                job_id=job_id,
														
 
															+                dataset_path=processed_path,
														
 
															+                peft_config=peft_config,
														
 
															+                training_args=config,
														
 
															+            )
														
 
															+
														
 
															+            self.update_job(job_id, status=JobStatus.COMPLETED, adapter_path=adapter_path)
														
 
															+            await self._notify_callbacks()
														
 
															+            logger.info(f"Job {job_id} completed successfully")
														
 
															+
														
 
															+        except asyncio.CancelledError:
														
 
															+            self.update_job(job_id, status=JobStatus.CANCELLED)
														
 
															+            await self._notify_callbacks()
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Job {job_id} failed: {e}")
														
 
															+            self.update_job(job_id, status=JobStatus.FAILED, error_message=str(e))
														
 
															+            await self._notify_callbacks()
														
 
															+
														
 
															+    def _find_dataset_path(self, dataset_id: str) -> str | None:
														
 
															+        """根据 dataset_id 查找文件路径（数据库或 uploads 目录）。"""
														
 
															+        import asyncio
														
 
															+        from app.core.db import async_session, DatasetRecord
														
 
															+        from sqlalchemy import select
														
 
															+        from app.config import get_settings
														
 
															+        from pathlib import Path
														
 
															+
														
 
															+        settings = get_settings()
														
 
															+
														
 
															+        # 尝试从数据库查找
														
 
															+        try:
														
 
															+            loop = asyncio.get_event_loop()
														
 
															+            task = loop.create_task(self._lookup_dataset_db(dataset_id))
														
 
															+            path = loop.run_until_complete(task)
														
 
															+            if path:
														
 
															+                return path
														
 
															+        except Exception:
														
 
															+            pass
														
 
															+
														
 
															+        # 尝试从 uploads 目录查找
														
 
															+        upload_path = settings.uploads_dir / dataset_id
														
 
															+        if upload_path.exists():
														
 
															+            return str(upload_path)
														
 
															+
														
 
															+        # 如果 dataset_id 本身是路径
														
 
															+        if Path(dataset_id).exists():
														
 
															+            return dataset_id
														
 
															+
														
 
															+        return None
														
 
															+
														
 
															+    async def _lookup_dataset_db(self, dataset_id: str) -> str | None:
														
 
															+        """从数据库查找数据集路径。"""
														
 
															+        from app.core.db import async_session, DatasetRecord
														
 
															+        from sqlalchemy import select
														
 
															+
														
 
															+        async with async_session() as session:
														
 
															+            result = await session.execute(select(DatasetRecord).where(
														
 
															+                (DatasetRecord.id == dataset_id) | (DatasetRecord.name == dataset_id)
														
 
															+            ))
														
 
															+            record = result.scalar_one_or_none()
														
 
															+            if record:
														
 
															+                return record.file_path
														
 
															+        return None
														
 
															+
														
 
															+    def _get_engine(self, model_type: str):
														
 
															+        """根据模型类型选择训练引擎。"""
														
 
															+        if model_type == "vision":
														
 
															+            from app.engines.vision_engine import vision_engine
														
 
															+            return vision_engine
														
 
															+        elif model_type == "multimodal":
														
 
															+            from app.engines.multimodal_engine import multimodal_engine
														
 
															+            return multimodal_engine
														
 
															+        else:
														
 
															+            from app.engines.text_engine import text_engine
														
 
															+            return text_engine
														
 
															+
														
 
															+    @property
														
 
															+    def jobs(self) -> dict[str, TrainingJob]:
														
 
															+        return dict(self._jobs)
														
 
															+
														
 
															+
														
 
															+# 全局单例
														
 
															+job_queue = JobQueue(max_concurrent=2)
														
--- a/backend/app/engines/multimodal_engine.py
+++ b/backend/app/engines/multimodal_engine.py
@@ -1,20 +1,187 @@
 
															+import json
														
 
															+from pathlib import Path
														
 
															+from typing import Any
														
 
															+
														
 
															+from app.config import get_settings
														
 
															+from app.core.logging import logger
														
 
															 from app.engines.base import BaseEngine
														
 
															+settings = get_settings()
														
 
															+
														
 
															 class MultimodalEngine(BaseEngine):
														
 
															-    """Training engine for LLaVA, Qwen-VL, and other vision-language models."""
														
 
															+    """多模态模型训练引擎 (LLaVA/Qwen-VL 等视觉语言模型)。"""
														
 
															+
														
 
															+    def __init__(self):
														
 
															+        self._processor = None
														
 
															+        self._model = None
														
 
															+
														
 
															+    async def load_model(self, model_id: str, **kwargs: Any) -> None:
														
 
															+        """下载并加载多模态模型。"""
														
 
															+        import torch
														
 
															+        from transformers import AutoProcessor, LlavaForConditionalGeneration
														
 
															+
														
 
															+        local_path = str(settings.models_dir / model_id.replace("/", "_"))
														
 
															+
														
 
															+        if not (Path(local_path) / "config.json").exists():
														
 
															+            from huggingface_hub import snapshot_download
														
 
															+            snapshot_download(repo_id=model_id, local_dir=local_path, local_dir_use_symlinks=False)
														
 
															+
														
 
															+        self._processor = AutoProcessor.from_pretrained(local_path, trust_remote_code=True)
														
 
															+        self._model = LlavaForConditionalGeneration.from_pretrained(
														
 
															+            local_path,
														
 
															+            torch_dtype=torch.float16,
														
 
															+            device_map="auto",
														
 
															+            trust_remote_code=True,
														
 
															+        )
														
 
															+        logger.info(f"Loaded multimodal model: {model_id}")
														
 
															+
														
 
															+    def get_peft_config(self, method: str, params: dict[str, Any]) -> Any:
														
 
															+        from peft import LoraConfig, TaskType
														
 
															+
														
 
															+        target_modules = params.get("lora_target_modules", "all-linear")
														
 
															+        if isinstance(target_modules, str) and target_modules == "all-linear":
														
 
															+            target_modules = ["linear", "lm_head", "q_proj", "v_proj", "k_proj", "o_proj"]
														
 
															+
														
 
															+        return LoraConfig(
														
 
															+            r=params.get("lora_r", 16),
														
 
															+            lora_alpha=params.get("lora_alpha", 32),
														
 
															+            lora_dropout=params.get("lora_dropout", 0.05),
														
 
															+            target_modules=target_modules,
														
 
															+            task_type=TaskType.CAUSAL_LM,
														
 
															+        )
														
 
															+
														
 
															+    async def preprocess_dataset(
														
 
															+        self, dataset_path: str, output_path: str, **kwargs: Any
														
 
															+    ) -> str:
														
 
															+        """多模态数据集预处理 (image + text pairs)。"""
														
 
															+        from app.preprocessors import preprocess_file
														
 
															+
														
 
															+        processed = preprocess_file(dataset_path, output_path, "sft", "raw")
														
 
															+        logger.info(f"Preprocessed {len(processed)} multimodal samples")
														
 
															+        return output_path
														
 
															+
														
 
															+    async def train(
														
 
															+        self,
														
 
															+        job_id: str,
														
 
															+        dataset_path: str,
														
 
															+        peft_config: Any,
														
 
															+        training_args: dict[str, Any],
														
 
															+    ) -> str:
														
 
															+        from peft import get_peft_model
														
 
															+        from transformers import Trainer, TrainingArguments
														
 
															+        from datasets import Dataset as HFDataset
														
 
															+
														
 
															+        data = []
														
 
															+        with open(dataset_path, "r", encoding="utf-8") as f:
														
 
															+            for line in f:
														
 
															+                line = line.strip()
														
 
															+                if line:
														
 
															+                    data.append(json.loads(line))
														
 
															+
														
 
															+        def collate_fn(examples):
														
 
															+            texts = [item.get("text", "") for item in examples]
														
 
															+            image_paths = [item.get("image_path", "") for item in examples if "image_path" in item]
														
 
															+
														
 
															+            if image_paths:
														
 
															+                from PIL import Image
														
 
															+                images = [Image.open(p).convert("RGB") for p in image_paths if Path(p).exists()]
														
 
															+                if images:
														
 
															+                    inputs = self._processor(text=texts, images=images, return_tensors="pt", padding=True)
														
 
															+                    inputs["labels"] = inputs["input_ids"].clone()
														
 
															+                    return inputs
														
 
															+
														
 
															+            # fallback: text-only
														
 
															+            inputs = self._processor(text=texts, return_tensors="pt", padding=True)
														
 
															+            inputs["labels"] = inputs["input_ids"].clone()
														
 
															+            return inputs
														
 
															+
														
 
															+        hf_dataset = HFDataset.from_list(data)
														
 
															+
														
 
															+        self._model = get_peft_model(self._model, peft_config)
														
 
															+        self._model.print_trainable_parameters()
														
 
															+
														
 
															+        output_dir = str(settings.adapters_dir / job_id)
														
 
															+        epochs = training_args.get("epochs", 3)
														
 
															+        batch_size = training_args.get("batch_size", 4)
														
 
															+        learning_rate = training_args.get("learning_rate", 2e-4)
														
 
															+
														
 
															+        tr_args = TrainingArguments(
														
 
															+            output_dir=output_dir,
														
 
															+            num_train_epochs=epochs,
														
 
															+            per_device_train_batch_size=batch_size,
														
 
															+            learning_rate=learning_rate,
														
 
															+            save_strategy="epoch",
														
 
															+            logging_steps=10,
														
 
															+            fp16=True,
														
 
															+            optim="adamw_torch",
														
 
															+            remove_unused_columns=False,
														
 
															+            report_to="none",
														
 
															+        )
														
 
															+
														
 
															+        callback = _ProgressCallback(job_id)
														
 
															+        trainer = Trainer(
														
 
															+            model=self._model,
														
 
															+            args=tr_args,
														
 
															+            train_dataset=hf_dataset,
														
 
															+            data_collator=collate_fn,
														
 
															+            callbacks=[callback],
														
 
															+        )
														
 
															+
														
 
															+        try:
														
 
															+            trainer.train()
														
 
															+            self._model.save_pretrained(output_dir)
														
 
															+            self._processor.save_pretrained(output_dir)
														
 
															+            logger.info(f"Multimodal training completed for job {job_id}")
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Multimodal training failed for job {job_id}: {e}")
														
 
															+            raise
														
 
															+
														
 
															+        return output_dir
														
 
															+
														
 
															+    def get_model_info(self, model_id: str) -> dict[str, Any]:
														
 
															+        model_dir = settings.models_dir / model_id.replace("/", "_")
														
 
															+        config_path = model_dir / "config.json"
														
 
															+        if config_path.exists():
														
 
															+            with open(config_path) as f:
														
 
															+                config = json.load(f)
														
 
															+            return {
														
 
															+                "model_type": config.get("model_type", "multimodal"),
														
 
															+                "context_length": config.get("max_position_embeddings", 2048),
														
 
															+                "hidden_size": config.get("hidden_size", 0),
														
 
															+                "num_layers": config.get("num_hidden_layers", 0),
														
 
															+            }
														
 
															+        return {"model_type": "multimodal", "context_length": 4096}
														
 
															+
														
 
															+
														
 
															+class _ProgressCallback:
														
 
															+    def __init__(self, job_id: str):
														
 
															+        self.job_id = job_id
														
 
															+
														
 
															+    def on_log(self, args, state, control, logs=None, **kwargs):
														
 
															+        if logs and "loss" in logs:
														
 
															+            import asyncio
														
 
															+            asyncio.create_task(
														
 
															+                send_progress(self.job_id, epoch=int(state.epoch or 0), step=state.global_step,
														
 
															+                              total_steps=state.max_steps or 0, loss=logs["loss"], learning_rate=logs.get("learning_rate", 0))
														
 
															+            )
														
 
															+
														
 
															+    def on_epoch_end(self, args, state, control, **kwargs):
														
 
															+        import asyncio
														
 
															+        asyncio.create_task(send_epoch_done(self.job_id, epoch=int(state.epoch or 0), eval_loss=None, eval_accuracy=None))
														
 
															-    async def load_model(self, model_id: str, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															+    def on_train_end(self, args, state, control, **kwargs):
														
 
															+        import asyncio
														
 
															+        asyncio.create_task(send_completed(self.job_id, total_time_seconds=getattr(state, "train_runtime", 0),
														
 
															+                                           adapter_path=str(settings.adapters_dir / self.job_id)))
														
 
															-    def get_peft_config(self, method: str, params: dict):
														
 
															-        raise NotImplementedError
														
 
															+    def on_train_begin(self, args, state, control, **kwargs): pass
														
 
															+    def on_step_end(self, args, state, control, **kwargs): pass
														
 
															+    def on_evaluate(self, args, state, control, metrics=None, **kwargs): pass
														
 
															+    def on_save(self, args, state, control, **kwargs): pass
														
 
															+    def on_predict(self, args, state, control, metrics=None, **kwargs): pass
														
 
															-    async def preprocess_dataset(self, dataset_path: str, output_path: str, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															-    async def train(self, job_id: str, dataset_path: str, peft_config, training_args: dict):
														
 
															-        raise NotImplementedError
														
 
															+from app.core.websocket import send_completed, send_epoch_done, send_progress
														
 
															-    def get_model_info(self, model_id: str):
														
 
															-        raise NotImplementedError
														
 
															+multimodal_engine = MultimodalEngine()
														
--- a/backend/app/engines/text_engine.py
+++ b/backend/app/engines/text_engine.py
@@ -1,20 +1,312 @@
 
															+import asyncio
														
 
															+import json
														
 
															+from pathlib import Path
														
 
															+from typing import Any
														
 
															+
														
 
															+from app.config import get_settings
														
 
															+from app.core.logging import logger
														
 
															 from app.engines.base import BaseEngine
														
 
															+settings = get_settings()
														
 
															+
														
 
															 class TextEngine(BaseEngine):
														
 
															-    """Training engine for LLaMA, Qwen, and other text-only LLMs."""
														
 
															+    """文本模型训练引擎 (LLaMA/Qwen/ChatGLM 等因果语言模型)。"""
														
 
															+
														
 
															+    def __init__(self):
														
 
															+        self._tokenizer = None
														
 
															+        self._model = None
														
 
															+
														
 
															+    async def load_model(self, model_id: str, **kwargs: Any) -> None:
														
 
															+        """下载并加载基础模型。"""
														
 
															+        import torch
														
 
															+        from transformers import AutoModelForCausalLM, AutoTokenizer
														
 
															+
														
 
															+        local_path = str(settings.models_dir / model_id.replace("/", "_"))
														
 
															+
														
 
															+        # 如果本地没有，从 HF 下载
														
 
															+        if not (Path(local_path) / "config.json").exists():
														
 
															+            from huggingface_hub import snapshot_download
														
 
															+
														
 
															+            snapshot_download(
														
 
															+                repo_id=model_id,
														
 
															+                local_dir=local_path,
														
 
															+                local_dir_use_symlinks=False,
														
 
															+            )
														
 
															+
														
 
															+        quantization = kwargs.get("quantization", None)
														
 
															+        load_kwargs: dict[str, Any] = {
														
 
															+            "torch_dtype": torch.float16,
														
 
															+            "device_map": "auto",
														
 
															+        }
														
 
															+        if quantization == "4bit" or quantization == "qlora":
														
 
															+            load_kwargs["load_in_4bit"] = True
														
 
															+            load_kwargs["bnb_4bit_quant_type"] = "nf4"
														
 
															+            load_kwargs["bnb_4bit_use_double_quant"] = True
														
 
															+        elif quantization == "8bit":
														
 
															+            load_kwargs["load_in_8bit"] = True
														
 
															+
														
 
															+        self._tokenizer = AutoTokenizer.from_pretrained(local_path, trust_remote_code=True)
														
 
															+        if self._tokenizer.pad_token is None:
														
 
															+            self._tokenizer.pad_token = self._tokenizer.eos_token
														
 
															+
														
 
															+        self._model = AutoModelForCausalLM.from_pretrained(local_path, **load_kwargs)
														
 
															+        logger.info(f"Loaded model: {model_id}")
														
 
															+
														
 
															+    def get_peft_config(self, method: str, params: dict[str, Any]) -> Any:
														
 
															+        """根据 PEFT 方法返回对应的配置对象。"""
														
 
															+        from app.peft import (
														
 
															+            build_adalora_config,
														
 
															+            build_ia3_config,
														
 
															+            build_lora_config,
														
 
															+            build_prefix_tuning_config,
														
 
															+            build_qlora_config,
														
 
															+        )
														
 
															+
														
 
															+        builders = {
														
 
															+            "lora": build_lora_config,
														
 
															+            "qlora": build_qlora_config,
														
 
															+            "ia3": build_ia3_config,
														
 
															+            "adalora": build_adalora_config,
														
 
															+            "prefix_tuning": build_prefix_tuning_config,
														
 
															+        }
														
 
															+        builder = builders.get(method, build_lora_config)
														
 
															+        return builder(params)
														
 
															+
														
 
															+    async def preprocess_dataset(
														
 
															+        self,
														
 
															+        dataset_path: str,
														
 
															+        output_path: str,
														
 
															+        task_type: str = "sft",
														
 
															+        template: str = "alpaca",
														
 
															+        **kwargs: Any,
														
 
															+    ) -> str:
														
 
															+        """将数据集预处理为训练格式。"""
														
 
															+        from app.preprocessors import preprocess_file
														
 
															+
														
 
															+        processed = preprocess_file(dataset_path, output_path, task_type, template)
														
 
															+        logger.info(f"Preprocessed {len(processed)} samples for {task_type}/{template}")
														
 
															+        return output_path
														
 
															+
														
 
															+    async def train(
														
 
															+        self,
														
 
															+        job_id: str,
														
 
															+        dataset_path: str,
														
 
															+        peft_config: Any,
														
 
															+        training_args: dict[str, Any],
														
 
															+    ) -> str:
														
 
															+        """执行训练。"""
														
 
															+        from peft import get_peft_model
														
 
															+        from transformers import DataCollatorForSeq2Seq, TrainingArguments
														
 
															+
														
 
															+        task_type = training_args.get("task_type", "sft")
														
 
															+        epochs = training_args.get("epochs", 3)
														
 
															+        batch_size = training_args.get("batch_size", 4)
														
 
															+        gradient_accumulation = training_args.get("gradient_accumulation", 4)
														
 
															+        learning_rate = training_args.get("learning_rate", 2e-4)
														
 
															+        max_seq_length = training_args.get("max_seq_length", 2048)
														
 
															+        warmup_ratio = training_args.get("warmup_ratio", 0.05)
														
 
															+        save_strategy = training_args.get("save_strategy", "epoch")
														
 
															+        deepspeed_config = training_args.get("deepspeed", None)
														
 
															+
														
 
															+        dataset = self._tokenize_dataset(dataset_path, max_seq_length)
														
 
															+
														
 
															+        self._model = get_peft_model(self._model, peft_config)
														
 
															+        self._model.print_trainable_parameters()
														
 
															+
														
 
															+        output_dir = str(settings.adapters_dir / job_id)
														
 
															+        tr_args = TrainingArguments(
														
 
															+            output_dir=output_dir,
														
 
															+            num_train_epochs=epochs,
														
 
															+            per_device_train_batch_size=batch_size,
														
 
															+            gradient_accumulation_steps=gradient_accumulation,
														
 
															+            learning_rate=learning_rate,
														
 
															+            warmup_ratio=warmup_ratio,
														
 
															+            save_strategy=save_strategy,
														
 
															+            logging_strategy="steps",
														
 
															+            logging_steps=10,
														
 
															+            fp16=True,
														
 
															+            optim="adamw_torch",
														
 
															+            remove_unused_columns=False,
														
 
															+            report_to="none",
														
 
															+            **({"deepspeed": deepspeed_config} if deepspeed_config else {}),
														
 
															+        )
														
 
															+
														
 
															+        callback = _ProgressCallback(job_id)
														
 
															+
														
 
															+        if task_type == "sft":
														
 
															+            from transformers import Trainer
														
 
															+
														
 
															+            trainer = Trainer(
														
 
															+                model=self._model,
														
 
															+                args=tr_args,
														
 
															+                train_dataset=dataset,
														
 
															+                data_collator=DataCollatorForSeq2Seq(self._tokenizer),
														
 
															+                callbacks=[callback],
														
 
															+            )
														
 
															+        else:
														
 
															+            from trl import (
														
 
															+                DPOConfig,
														
 
															+                DPOTrainer,
														
 
															+                KTOConfig,
														
 
															+                KTOTrainer,
														
 
															+                ORPOConfig,
														
 
															+                ORPOTrainer,
														
 
															+            )
														
 
															+
														
 
															+            base_trainer_kwargs = dict(
														
 
															+                output_dir=output_dir,
														
 
															+                num_train_epochs=epochs,
														
 
															+                per_device_train_batch_size=batch_size,
														
 
															+                gradient_accumulation_steps=gradient_accumulation,
														
 
															+                learning_rate=learning_rate,
														
 
															+                warmup_ratio=warmup_ratio,
														
 
															+                save_strategy=save_strategy,
														
 
															+                logging_steps=10,
														
 
															+                fp16=True,
														
 
															+                report_to="none",
														
 
															+            )
														
 
															+
														
 
															+            if task_type == "dpo":
														
 
															+                trainer = DPOTrainer(
														
 
															+                    model=self._model,
														
 
															+                    args=DPOConfig(**base_trainer_kwargs),
														
 
															+                    train_dataset=dataset,
														
 
															+                    processing_class=self._tokenizer,
														
 
															+                )
														
 
															+            elif task_type == "orpo":
														
 
															+                trainer = ORPOTrainer(
														
 
															+                    model=self._model,
														
 
															+                    args=ORPOConfig(**base_trainer_kwargs),
														
 
															+                    train_dataset=dataset,
														
 
															+                    processing_class=self._tokenizer,
														
 
															+                )
														
 
															+            elif task_type == "kto":
														
 
															+                trainer = KTOTrainer(
														
 
															+                    model=self._model,
														
 
															+                    args=KTOConfig(**base_trainer_kwargs),
														
 
															+                    train_dataset=dataset,
														
 
															+                    processing_class=self._tokenizer,
														
 
															+                )
														
 
															+            else:
														
 
															+                trainer = Trainer(
														
 
															+                    model=self._model,
														
 
															+                    args=tr_args,
														
 
															+                    train_dataset=dataset,
														
 
															+                    data_collator=DataCollatorForSeq2Seq(self._tokenizer),
														
 
															+                    callbacks=[callback],
														
 
															+                )
														
 
															+
														
 
															+        try:
														
 
															+            trainer.train()
														
 
															+            self._model.save_pretrained(output_dir)
														
 
															+            self._tokenizer.save_pretrained(output_dir)
														
 
															+            logger.info(f"Training completed for job {job_id}")
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Training failed for job {job_id}: {e}")
														
 
															+            raise
														
 
															+
														
 
															+        return output_dir
														
 
															+
														
 
															+    def get_model_info(self, model_id: str) -> dict[str, Any]:
														
 
															+        """读取模型配置信息。"""
														
 
															+        import json
														
 
															+        from pathlib import Path
														
 
															+
														
 
															+        model_dir = settings.models_dir / model_id.replace("/", "_")
														
 
															+        config_path = model_dir / "config.json"
														
 
															+
														
 
															+        if config_path.exists():
														
 
															+            with open(config_path) as f:
														
 
															+                config = json.load(f)
														
 
															+            return {
														
 
															+                "model_type": config.get("model_type", "causal_lm"),
														
 
															+                "context_length": config.get("max_position_embeddings", config.get("max_sequence_length", 2048)),
														
 
															+                "hidden_size": config.get("hidden_size", 0),
														
 
															+                "num_layers": config.get("num_hidden_layers", 0),
														
 
															+            }
														
 
															+        return {"model_type": "causal_lm", "context_length": 2048}
														
 
															+
														
 
															+    def _tokenize_dataset(self, dataset_path: str, max_seq_length: int):
														
 
															+        """Tokenize 处理后的 JSONL 数据集。"""
														
 
															+        from datasets import Dataset as HFDataset
														
 
															+
														
 
															+        data = []
														
 
															+        with open(dataset_path, "r", encoding="utf-8") as f:
														
 
															+            for line in f:
														
 
															+                line = line.strip()
														
 
															+                if line:
														
 
															+                    data.append(json.loads(line))
														
 
															+
														
 
															+        hf_dataset = HFDataset.from_list(data)
														
 
															+
														
 
															+        def tokenize_fn(batch):
														
 
															+            prompts = batch.get("prompt", [""] * len(data))
														
 
															+            completions = batch.get("completion", [""] * len(data))
														
 
															+
														
 
															+            if isinstance(prompts, str):
														
 
															+                prompts = [prompts]
														
 
															+            if isinstance(completions, str):
														
 
															+                completions = [completions]
														
 
															+
														
 
															+            full_texts = [f"{p}\n{c}" for p, c in zip(prompts, completions)]
														
 
															+            tokenized = self._tokenizer(
														
 
															+                full_texts, truncation=True, max_length=max_seq_length, padding=False,
														
 
															+            )
														
 
															+            tokenized["labels"] = list(tokenized["input_ids"])
														
 
															+            return tokenized
														
 
															+
														
 
															+        return hf_dataset.map(tokenize_fn, batched=True)
														
 
															+
														
 
															+
														
 
															+class _ProgressCallback:
														
 
															+    """自定义训练进度回调，通过 WebSocket 发送进度。"""
														
 
															+
														
 
															+    def __init__(self, job_id: str):
														
 
															+        self.job_id = job_id
														
 
															+
														
 
															+    def on_log(self, args, state, control, logs=None, **kwargs):
														
 
															+        if logs and "loss" in logs:
														
 
															+            asyncio.create_task(
														
 
															+                send_progress(
														
 
															+                    self.job_id,
														
 
															+                    epoch=int(state.epoch or 0),
														
 
															+                    step=state.global_step,
														
 
															+                    total_steps=state.max_steps or 0,
														
 
															+                    loss=logs["loss"],
														
 
															+                    learning_rate=logs.get("learning_rate", 0),
														
 
															+                )
														
 
															+            )
														
 
															+
														
 
															+    def on_epoch_end(self, args, state, control, **kwargs):
														
 
															+        asyncio.create_task(
														
 
															+            send_epoch_done(self.job_id, epoch=int(state.epoch or 0), eval_loss=None, eval_accuracy=None)
														
 
															+        )
														
 
															+
														
 
															+    def on_train_end(self, args, state, control, **kwargs):
														
 
															+        asyncio.create_task(
														
 
															+            send_completed(
														
 
															+                self.job_id,
														
 
															+                total_time_seconds=getattr(state, "train_runtime", 0),
														
 
															+                adapter_path=str(settings.adapters_dir / self.job_id),
														
 
															+            )
														
 
															+        )
														
 
															+
														
 
															+    def on_train_begin(self, args, state, control, **kwargs):
														
 
															+        pass
														
 
															+
														
 
															+    def on_step_end(self, args, state, control, **kwargs):
														
 
															+        pass
														
 
															-    async def load_model(self, model_id: str, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															+    def on_evaluate(self, args, state, control, metrics=None, **kwargs):
														
 
															+        pass
														
 
															-    def get_peft_config(self, method: str, params: dict):
														
 
															-        raise NotImplementedError
														
 
															+    def on_save(self, args, state, control, **kwargs):
														
 
															+        pass
														
 
															-    async def preprocess_dataset(self, dataset_path: str, output_path: str, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															+    def on_predict(self, args, state, control, metrics=None, **kwargs):
														
 
															+        pass
														
 
															-    async def train(self, job_id: str, dataset_path: str, peft_config, training_args: dict):
														
 
															-        raise NotImplementedError
														
 
															-    def get_model_info(self, model_id: str):
														
 
															-        raise NotImplementedError
														
 
															+# 全局单例
														
 
															+text_engine = TextEngine()
														
--- a/backend/app/engines/vision_engine.py
+++ b/backend/app/engines/vision_engine.py
@@ -1,20 +1,187 @@
 
															+import json
														
 
															+from pathlib import Path
														
 
															+from typing import Any
														
 
															+
														
 
															+from app.config import get_settings
														
 
															+from app.core.logging import logger
														
 
															 from app.engines.base import BaseEngine
														
 
															+settings = get_settings()
														
 
															+
														
 
															 class VisionEngine(BaseEngine):
														
 
															-    """Training engine for ViT, CLIP, and other vision models."""
														
 
															+    """视觉模型训练引擎 (ViT/CLIP/图像分类)。"""
														
 
															+
														
 
															+    def __init__(self):
														
 
															+        self._processor = None
														
 
															+        self._model = None
														
 
															+
														
 
															+    async def load_model(self, model_id: str, **kwargs: Any) -> None:
														
 
															+        """下载并加载视觉模型。"""
														
 
															+        import torch
														
 
															+        from transformers import AutoImageProcessor, AutoModelForImageClassification
														
 
															+
														
 
															+        local_path = str(settings.models_dir / model_id.replace("/", "_"))
														
 
															+
														
 
															+        if not (Path(local_path) / "config.json").exists():
														
 
															+            from huggingface_hub import snapshot_download
														
 
															+            snapshot_download(repo_id=model_id, local_dir=local_path, local_dir_use_symlinks=False)
														
 
															+
														
 
															+        self._processor = AutoImageProcessor.from_pretrained(local_path, trust_remote_code=True)
														
 
															+        self._model = AutoModelForImageClassification.from_pretrained(
														
 
															+            local_path,
														
 
															+            torch_dtype=torch.float16,
														
 
															+            device_map="auto",
														
 
															+            trust_remote_code=True,
														
 
															+        )
														
 
															+        logger.info(f"Loaded vision model: {model_id}")
														
 
															+
														
 
															+    def get_peft_config(self, method: str, params: dict[str, Any]) -> Any:
														
 
															+        from peft import LoraConfig, TaskType
														
 
															+
														
 
															+        target_modules = params.get("lora_target_modules", "all-linear")
														
 
															+        if isinstance(target_modules, str) and target_modules == "all-linear":
														
 
															+            target_modules = ["linear", "q_proj", "v_proj"]
														
 
															+
														
 
															+        return LoraConfig(
														
 
															+            r=params.get("lora_r", 16),
														
 
															+            lora_alpha=params.get("lora_alpha", 32),
														
 
															+            lora_dropout=params.get("lora_dropout", 0.05),
														
 
															+            target_modules=target_modules,
														
 
															+            task_type=TaskType.IMAGE_CLS,
														
 
															+        )
														
 
															+
														
 
															+    async def preprocess_dataset(
														
 
															+        self, dataset_path: str, output_path: str, **kwargs: Any
														
 
															+    ) -> str:
														
 
															+        """图像数据集预处理（提取 image_path + label）。"""
														
 
															+        from app.preprocessors import preprocess_file
														
 
															+
														
 
															+        processed = preprocess_file(dataset_path, output_path, "sft", "raw")
														
 
															+        logger.info(f"Preprocessed {len(processed)} vision samples")
														
 
															+        return output_path
														
 
															+
														
 
															+    async def train(
														
 
															+        self,
														
 
															+        job_id: str,
														
 
															+        dataset_path: str,
														
 
															+        peft_config: Any,
														
 
															+        training_args: dict[str, Any],
														
 
															+    ) -> str:
														
 
															+        from peft import get_peft_model
														
 
															+        from transformers import DataCollatorWithPadding, Trainer, TrainingArguments
														
 
															+        from datasets import Dataset as HFDataset
														
 
															+
														
 
															+        # Load and preprocess data
														
 
															+        data = []
														
 
															+        with open(dataset_path, "r", encoding="utf-8") as f:
														
 
															+            for line in f:
														
 
															+                line = line.strip()
														
 
															+                if line:
														
 
															+                    data.append(json.loads(line))
														
 
															+
														
 
															+        def transform(examples):
														
 
															+            images = []
														
 
															+            labels = []
														
 
															+            for item in examples:
														
 
															+                if "image_path" in item and Path(item["image_path"]).exists():
														
 
															+                    from PIL import Image
														
 
															+                    images.append(self._processor(Image.open(item["image_path"]).convert("RGB"))["pixel_values"])
														
 
															+                    labels.append(int(item.get("label", 0)))
														
 
															+                elif "text" in item:
														
 
															+                    # fallback: use text as label for classification
														
 
															+                    labels.append(item.get("label", 0))
														
 
															+            if images:
														
 
															+                return {"pixel_values": images, "labels": labels}
														
 
															+            return {"pixel_values": [], "labels": []}
														
 
															+
														
 
															+        hf_dataset = HFDataset.from_list(data)
														
 
															+        hf_dataset.set_transform(transform)
														
 
															+
														
 
															+        self._model = get_peft_model(self._model, peft_config)
														
 
															+        self._model.print_trainable_parameters()
														
 
															+
														
 
															+        output_dir = str(settings.adapters_dir / job_id)
														
 
															+        epochs = training_args.get("epochs", 3)
														
 
															+        batch_size = training_args.get("batch_size", 4)
														
 
															+        learning_rate = training_args.get("learning_rate", 2e-4)
														
 
															+
														
 
															+        tr_args = TrainingArguments(
														
 
															+            output_dir=output_dir,
														
 
															+            num_train_epochs=epochs,
														
 
															+            per_device_train_batch_size=batch_size,
														
 
															+            learning_rate=learning_rate,
														
 
															+            save_strategy="epoch",
														
 
															+            logging_steps=10,
														
 
															+            fp16=True,
														
 
															+            optim="adamw_torch",
														
 
															+            remove_unused_columns=False,
														
 
															+            report_to="none",
														
 
															+        )
														
 
															+
														
 
															+        callback = _ProgressCallback(job_id)
														
 
															+        trainer = Trainer(
														
 
															+            model=self._model,
														
 
															+            args=tr_args,
														
 
															+            train_dataset=hf_dataset,
														
 
															+            data_collator=DataCollatorWithPadding(self._processor),
														
 
															+            callbacks=[callback],
														
 
															+        )
														
 
															+
														
 
															+        try:
														
 
															+            trainer.train()
														
 
															+            self._model.save_pretrained(output_dir)
														
 
															+            self._processor.save_pretrained(output_dir)
														
 
															+            logger.info(f"Vision training completed for job {job_id}")
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Vision training failed for job {job_id}: {e}")
														
 
															+            raise
														
 
															+
														
 
															+        return output_dir
														
 
															+
														
 
															+    def get_model_info(self, model_id: str) -> dict[str, Any]:
														
 
															+        model_dir = settings.models_dir / model_id.replace("/", "_")
														
 
															+        config_path = model_dir / "config.json"
														
 
															+        if config_path.exists():
														
 
															+            with open(config_path) as f:
														
 
															+                config = json.load(f)
														
 
															+            return {
														
 
															+                "model_type": config.get("model_type", "vision"),
														
 
															+                "context_length": config.get("max_position_embeddings", 2048),
														
 
															+                "hidden_size": config.get("hidden_size", 0),
														
 
															+                "num_layers": config.get("num_hidden_layers", 0),
														
 
															+            }
														
 
															+        return {"model_type": "vision", "context_length": 2048}
														
 
															+
														
 
															+
														
 
															+class _ProgressCallback:
														
 
															+    def __init__(self, job_id: str):
														
 
															+        self.job_id = job_id
														
 
															+
														
 
															+    def on_log(self, args, state, control, logs=None, **kwargs):
														
 
															+        if logs and "loss" in logs:
														
 
															+            import asyncio
														
 
															+            asyncio.create_task(
														
 
															+                send_progress(self.job_id, epoch=int(state.epoch or 0), step=state.global_step,
														
 
															+                              total_steps=state.max_steps or 0, loss=logs["loss"], learning_rate=logs.get("learning_rate", 0))
														
 
															+            )
														
 
															+
														
 
															+    def on_epoch_end(self, args, state, control, **kwargs):
														
 
															+        import asyncio
														
 
															+        asyncio.create_task(send_epoch_done(self.job_id, epoch=int(state.epoch or 0), eval_loss=None, eval_accuracy=None))
														
 
															-    async def load_model(self, model_id: str, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															+    def on_train_end(self, args, state, control, **kwargs):
														
 
															+        import asyncio
														
 
															+        asyncio.create_task(send_completed(self.job_id, total_time_seconds=getattr(state, "train_runtime", 0),
														
 
															+                                           adapter_path=str(settings.adapters_dir / self.job_id)))
														
 
															-    def get_peft_config(self, method: str, params: dict):
														
 
															-        raise NotImplementedError
														
 
															+    def on_train_begin(self, args, state, control, **kwargs): pass
														
 
															+    def on_step_end(self, args, state, control, **kwargs): pass
														
 
															+    def on_evaluate(self, args, state, control, metrics=None, **kwargs): pass
														
 
															+    def on_save(self, args, state, control, **kwargs): pass
														
 
															+    def on_predict(self, args, state, control, metrics=None, **kwargs): pass
														
 
															-    async def preprocess_dataset(self, dataset_path: str, output_path: str, **kwargs):
														
 
															-        raise NotImplementedError
														
 
															-    async def train(self, job_id: str, dataset_path: str, peft_config, training_args: dict):
														
 
															-        raise NotImplementedError
														
 
															+from app.core.websocket import send_completed, send_epoch_done, send_progress
														
 
															-    def get_model_info(self, model_id: str):
														
 
															-        raise NotImplementedError
														
 
															+vision_engine = VisionEngine()
														
--- a/backend/app/peft/__init__.py
+++ b/backend/app/peft/__init__.py
@@ -2,40 +2,84 @@ from typing import Any
 
															 def build_lora_config(params: dict[str, Any]):
														
 
															-    """Build LoRA config dict from parameters."""
														
 
															-    return {
														
 
															-        "r": params.get("lora_r", 16),
														
 
															-        "lora_alpha": params.get("lora_alpha", 32),
														
 
															-        "lora_dropout": params.get("lora_dropout", 0.05),
														
 
															-        "target_modules": params.get("lora_target_modules", "all-linear"),
														
 
															-    }
														
 
															+    """返回实际的 peft.LoraConfig 对象。"""
														
 
															+    from peft import LoraConfig, TaskType
														
 
															+
														
 
															+    target_modules = params.get("lora_target_modules", "all-linear")
														
 
															+    if isinstance(target_modules, str):
														
 
															+        if target_modules == "all-linear":
														
 
															+            target_modules = ["linear", "lm_head", "q_proj", "v_proj", "k_proj", "o_proj"]
														
 
															+
														
 
															+    return LoraConfig(
														
 
															+        r=params.get("lora_r", 16),
														
 
															+        lora_alpha=params.get("lora_alpha", 32),
														
 
															+        lora_dropout=params.get("lora_dropout", 0.05),
														
 
															+        target_modules=target_modules,
														
 
															+        task_type=TaskType.CAUSAL_LM,
														
 
															+    )
														
 
															 def build_qlora_config(params: dict[str, Any]):
														
 
															-    """Build QLoRA config dict from parameters."""
														
 
															-    return {
														
 
															-        "bits": params.get("qlora_bits", 4),
														
 
															-        "qlora_type": params.get("qlora_type", "nf4"),
														
 
															-        "double_quant": params.get("qlora_double_quant", True),
														
 
															-        "lora": build_lora_config(params),
														
 
															+    """返回 (bitsandbytes_config, peft.LoraConfig) 二元组。"""
														
 
															+    from peft import LoraConfig, TaskType
														
 
															+
														
 
															+    bnb_params = {
														
 
															+        "load_in_4bit": params.get("qlora_bits", 4) == 4,
														
 
															+        "load_in_8bit": params.get("qlora_bits", 4) == 8,
														
 
															+        "bnb_4bit_quant_type": params.get("qlora_type", "nf4"),
														
 
															+        "bnb_4bit_use_double_quant": params.get("qlora_double_quant", True),
														
 
															+        "bnb_4bit_compute_dtype": "float16",
														
 
															     }
														
 
															+    target_modules = params.get("lora_target_modules", "all-linear")
														
 
															+    if isinstance(target_modules, str) and target_modules == "all-linear":
														
 
															+        target_modules = ["linear", "lm_head", "q_proj", "v_proj", "k_proj", "o_proj"]
														
 
															+
														
 
															+    lora_cfg = LoraConfig(
														
 
															+        r=params.get("lora_r", 16),
														
 
															+        lora_alpha=params.get("lora_alpha", 32),
														
 
															+        lora_dropout=params.get("lora_dropout", 0.05),
														
 
															+        target_modules=target_modules,
														
 
															+        task_type=TaskType.CAUSAL_LM,
														
 
															+    )
														
 
															+
														
 
															+    return bnb_params, lora_cfg
														
 
															+
														
 
															 def build_ia3_config(params: dict[str, Any]):
														
 
															-    return {"target_modules": params.get("ia3_target_modules", "all-linear")}
														
 
															+    """返回实际的 peft.IA3Config 对象。"""
														
 
															+    from peft import IA3Config, TaskType
														
 
															+
														
 
															+    target_modules = params.get("ia3_target_modules", "all-linear")
														
 
															+    if isinstance(target_modules, str) and target_modules == "all-linear":
														
 
															+        target_modules = ["k_proj", "v_proj", "ffn"]
														
 
															+
														
 
															+    return IA3Config(
														
 
															+        target_modules=target_modules,
														
 
															+        task_type=TaskType.CAUSAL_LM,
														
 
															+    )
														
 
															 def build_adalora_config(params: dict[str, Any]):
														
 
															-    return {
														
 
															-        "init_r": params.get("adalora_init_r", 8),
														
 
															-        "target_r": params.get("adalora_target_r", 16),
														
 
															-        "beta1": params.get("adalora_beta1", 0.85),
														
 
															-        "beta2": params.get("adalora_beta2", 0.85),
														
 
															-    }
														
 
															+    """返回实际的 peft.AdaLoraConfig 对象。"""
														
 
															+    from peft import AdaLoraConfig, TaskType
														
 
															+
														
 
															+    return AdaLoraConfig(
														
 
															+        init_r=params.get("adalora_init_r", 8),
														
 
															+        target_r=params.get("adalora_target_r", 16),
														
 
															+        beta1=params.get("adalora_beta1", 0.85),
														
 
															+        beta2=params.get("adalora_beta2", 0.85),
														
 
															+        task_type=TaskType.CAUSAL_LM,
														
 
															+    )
														
 
															 def build_prefix_tuning_config(params: dict[str, Any]):
														
 
															-    return {
														
 
															-        "num_virtual_tokens": params.get("prefix_num_virtual_tokens", 20),
														
 
															-        "encoder_hidden_size": params.get("prefix_encoder_hidden_size", 128),
														
 
															-    }
														
 
															+    """返回实际的 peft.PromptTuningConfig 对象。"""
														
 
															+    from peft import PromptTuningConfig, PromptTuningInit, TaskType
														
 
															+
														
 
															+    return PromptTuningConfig(
														
 
															+        num_virtual_tokens=params.get("prefix_num_virtual_tokens", 20),
														
 
															+        prompt_tuning_init=PromptTuningInit.TEXT,
														
 
															+        prompt_tuning_init_text="Classify the following text: ",
														
 
															+        task_type=TaskType.CAUSAL_LM,
														
 
															+    )
														
--- a/backend/app/preprocessors/__init__.py
+++ b/backend/app/preprocessors/__init__.py
@@ -0,0 +1,161 @@
 
															+"""数据预处理器：将不同格式的数据集转换为训练所需格式。"""
														
 
															+
														
 
															+import json
														
 
															+from pathlib import Path
														
 
															+from typing import Any
														
 
															+
														
 
															+
														
 
															+def apply_alpaca_template(item: dict) -> dict:
														
 
															+    """Alpaca 模板: instruction + input -> output。"""
														
 
															+    instruction = item.get("instruction", "")
														
 
															+    input_text = item.get("input", "")
														
 
															+    output = item.get("output", "")
														
 
															+    prompt = f"{instruction}\n\n{input_text}" if input_text else instruction
														
 
															+    return {"prompt": prompt, "completion": output}
														
 
															+
														
 
															+
														
 
															+def apply_sharegpt_template(item: dict) -> dict:
														
 
															+    """ShareGPT 模板: conversations list -> formatted prompt + completion。"""
														
 
															+    conversations = item.get("conversations", [])
														
 
															+    if len(conversations) < 2:
														
 
															+        return {"prompt": "", "completion": ""}
														
 
															+
														
 
															+    prompt_parts = []
														
 
															+    completion = ""
														
 
															+    for i, turn in enumerate(conversations):
														
 
															+        role = turn.get("from", turn.get("role", "human"))
														
 
															+        content = turn.get("value", turn.get("content", ""))
														
 
															+        if i == 0:
														
 
															+            prompt_parts.append(content)
														
 
															+        elif i == 1:
														
 
															+            completion = content
														
 
															+            break
														
 
															+        else:
														
 
															+            prompt_parts.append(f"{role}: {content}")
														
 
															+
														
 
															+    prompt = "\n".join(prompt_parts)
														
 
															+    return {"prompt": prompt, "completion": completion}
														
 
															+
														
 
															+
														
 
															+def apply_raw_template(item: dict) -> dict:
														
 
															+    """Raw 模板: 直接读取 prompt/text 和 completion/output 字段。"""
														
 
															+    prompt = item.get("prompt", item.get("text", item.get("input", "")))
														
 
															+    completion = item.get("completion", item.get("output", item.get("target", "")))
														
 
															+    return {"prompt": str(prompt), "completion": str(completion)}
														
 
															+
														
 
															+
														
 
															+def apply_dpo_template(item: dict) -> dict:
														
 
															+    """DPO 模板: prompt + chosen + rejected。"""
														
 
															+    return {
														
 
															+        "prompt": item.get("prompt", item.get("input", "")),
														
 
															+        "chosen": item.get("chosen", item.get("positive", "")),
														
 
															+        "rejected": item.get("rejected", item.get("negative", "")),
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+def apply_kto_template(item: dict) -> dict:
														
 
															+    """KTO 模板: prompt + completion + label。"""
														
 
															+    return {
														
 
															+        "prompt": item.get("prompt", item.get("input", "")),
														
 
															+        "completion": item.get("completion", item.get("output", "")),
														
 
															+        "label": item.get("label", True),
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+def apply_orpo_template(item: dict) -> dict:
														
 
															+    """ORPO 模板: prompt + chosen + rejected (类似 DPO)。"""
														
 
															+    return {
														
 
															+        "prompt": item.get("prompt", item.get("input", "")),
														
 
															+        "chosen": item.get("chosen", item.get("positive", "")),
														
 
															+        "rejected": item.get("rejected", item.get("negative", "")),
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+def apply_rm_template(item: dict) -> dict:
														
 
															+    """Reward Modeling 模板: prompt + chosen + rejected。"""
														
 
															+    return {
														
 
															+        "prompt": item.get("prompt", item.get("input", "")),
														
 
															+        "chosen": item.get("chosen", item.get("positive", "")),
														
 
															+        "rejected": item.get("rejected", item.get("negative", "")),
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+TEMPLATE_MAP = {
														
 
															+    "sft": {
														
 
															+        "alpaca": apply_alpaca_template,
														
 
															+        "sharegpt": apply_sharegpt_template,
														
 
															+        "raw": apply_raw_template,
														
 
															+    },
														
 
															+    "dpo": {
														
 
															+        "alpaca": apply_dpo_template,
														
 
															+        "sharegpt": apply_dpo_template,
														
 
															+        "raw": apply_dpo_template,
														
 
															+    },
														
 
															+    "kto": {
														
 
															+        "raw": apply_kto_template,
														
 
															+    },
														
 
															+    "orpo": {
														
 
															+        "alpaca": apply_orpo_template,
														
 
															+        "raw": apply_orpo_template,
														
 
															+    },
														
 
															+    "rm": {
														
 
															+        "raw": apply_rm_template,
														
 
															+    },
														
 
															+    "ppo": {
														
 
															+        "raw": apply_raw_template,
														
 
															+    },
														
 
															+}
														
 
															+
														
 
															+
														
 
															+def preprocess_file(
														
 
															+    input_path: str,
														
 
															+    output_path: str,
														
 
															+    task_type: str = "sft",
														
 
															+    template: str = "alpaca",
														
 
															+) -> list[dict[str, Any]]:
														
 
															+    """读取文件并应用模板，返回处理后的数据列表。"""
														
 
															+    input_p = Path(input_path)
														
 
															+    ext = input_p.suffix.lower()
														
 
															+
														
 
															+    # 读取原始数据
														
 
															+    if ext == ".jsonl":
														
 
															+        with open(input_path, "r", encoding="utf-8") as f:
														
 
															+            raw_data = [json.loads(line) for line in f if line.strip()]
														
 
															+    elif ext == ".json":
														
 
															+        with open(input_path, "r", encoding="utf-8") as f:
														
 
															+            data = json.load(f)
														
 
															+            raw_data = data if isinstance(data, list) else [data]
														
 
															+    elif ext == ".csv":
														
 
															+        import csv
														
 
															+        with open(input_path, "r", encoding="utf-8") as f:
														
 
															+            reader = csv.DictReader(f)
														
 
															+            raw_data = [dict(row) for row in reader]
														
 
															+    elif ext == ".parquet":
														
 
															+        import pandas as pd
														
 
															+        df = pd.read_parquet(input_path)
														
 
															+        raw_data = df.to_dict(orient="records")
														
 
															+    else:
														
 
															+        raise ValueError(f"Unsupported format: {ext}")
														
 
															+
														
 
															+    # 获取模板函数
														
 
															+    templates = TEMPLATE_MAP.get(task_type, TEMPLATE_MAP["sft"])
														
 
															+    apply_fn = templates.get(template, templates.get("raw", apply_raw_template))
														
 
															+
														
 
															+    # 应用模板
														
 
															+    processed = []
														
 
															+    for item in raw_data:
														
 
															+        try:
														
 
															+            result = apply_fn(item)
														
 
															+            if result.get("prompt"):
														
 
															+                processed.append(result)
														
 
															+        except Exception:
														
 
															+            continue
														
 
															+
														
 
															+    # 写入处理后的数据
														
 
															+    output_p = Path(output_path)
														
 
															+    output_p.parent.mkdir(parents=True, exist_ok=True)
														
 
															+    with open(output_path, "w", encoding="utf-8") as f:
														
 
															+        for item in processed:
														
 
															+            f.write(json.dumps(item, ensure_ascii=False) + "\n")
														
 
															+
														
 
															+    return processed
														
--- a/backend/app/services/dataset_service.py
+++ b/backend/app/services/dataset_service.py
@@ -1,8 +1,13 @@
 
															+import json
														
 
															+import uuid
														
 
															+from datetime import datetime, timezone
														
 
															 from pathlib import Path
														
 
															 from typing import Any
														
 
															 from fastapi import UploadFile
														
 
															+
														
 
															 from app.config import get_settings
														
 
															+from app.core.db import async_session, DatasetRecord
														
 
															 from app.core.logging import logger
														
 
															 from app.schemas.dataset import DatasetDownloadRequest, DatasetDownloadResponse
														
@@ -11,46 +16,185 @@ settings = get_settings()
 
															 async def download_dataset(req: DatasetDownloadRequest) -> DatasetDownloadResponse:
														
 
															     """从 HuggingFace 或 ModelScope 下载数据集。"""
														
 
															-    import os
														
 
															-    import uuid
														
 
															-
														
 
															-    download_dir = settings.processed_dir
														
 
															-    download_dir.mkdir(parents=True, exist_ok=True)
														
 
															-
														
 
															-    if req.use_modelscope:
														
 
															-        try:
														
 
															-            from modelscope.msdatasets import MsDataset
														
 
															-            MsDataset.load(req.dataset_id, split="train")
														
 
															-            path = str(download_dir / f"ms_{req.dataset_id.replace('/', '_')}")
														
 
															-            logger.info(f"Downloaded dataset from ModelScope: {req.dataset_id}")
														
 
															-            return DatasetDownloadResponse(dataset_id=req.dataset_id, status="downloading", path=path)
														
 
															-        except Exception as e:
														
 
															-            logger.error(f"ModelScope dataset download failed: {e}")
														
 
															-            return DatasetDownloadResponse(dataset_id=req.dataset_id, status="failed", error=str(e))
														
 
															-    else:
														
 
															-        try:
														
 
															-            from datasets import load_dataset
														
 
															-            load_dataset(req.dataset_id)
														
 
															-            path = str(download_dir / f"hf_{req.dataset_id.replace('/', '_')}")
														
 
															-            logger.info(f"Downloaded dataset from HuggingFace: {req.dataset_id}")
														
 
															-            return DatasetDownloadResponse(dataset_id=req.dataset_id, status="downloading", path=path)
														
 
															-        except Exception as e:
														
 
															-            logger.error(f"HuggingFace dataset download failed: {e}")
														
 
															-            return DatasetDownloadResponse(dataset_id=req.dataset_id, status="failed", error=str(e))
														
 
															+    try:
														
 
															+        from datasets import load_dataset
														
 
															+
														
 
															+        ds = load_dataset(req.dataset_id)
														
 
															+        ds_dir = settings.processed_dir / f"hf_{req.dataset_id.replace('/', '_')}"
														
 
															+        ds_dir.mkdir(parents=True, exist_ok=True)
														
 
															+        # 保存为 JSONL
														
 
															+        if "train" in ds:
														
 
															+            split = ds["train"]
														
 
															+        else:
														
 
															+            split = ds[list(ds.keys())[0]]
														
 
															+        output_path = ds_dir / "data.jsonl"
														
 
															+        with open(output_path, "w", encoding="utf-8") as f:
														
 
															+            for item in split:
														
 
															+                f.write(json.dumps(item, ensure_ascii=False) + "\n")
														
 
															+
														
 
															+        # 写入数据库
														
 
															+        record = DatasetRecord(
														
 
															+            id=str(uuid.uuid4()),
														
 
															+            name=req.dataset_id,
														
 
															+            format="jsonl",
														
 
															+            record_count=len(split),
														
 
															+            file_path=str(output_path),
														
 
															+            created_at=datetime.now(timezone.utc),
														
 
															+        )
														
 
															+        async with async_session() as session:
														
 
															+            session.add(record)
														
 
															+            await session.commit()
														
 
															+
														
 
															+        logger.info(f"Downloaded dataset: {req.dataset_id} ({len(split)} records)")
														
 
															+        return DatasetDownloadResponse(dataset_id=req.dataset_id, status="completed", path=str(output_path))
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"Dataset download failed: {e}")
														
 
															+        return DatasetDownloadResponse(dataset_id=req.dataset_id, status="failed", error=str(e))
														
 
															 async def upload_dataset(file: UploadFile) -> dict[str, Any]:
														
 
															-    """保存上传文件并检测格式。"""
														
 
															+    """保存上传文件并写入数据库。"""
														
 
															     upload_dir = settings.uploads_dir
														
 
															     upload_dir.mkdir(parents=True, exist_ok=True)
														
 
															-    file_path = upload_dir / file.filename
														
 
															+    # 避免文件名冲突
														
 
															+    safe_name = file.filename or "unknown"
														
 
															+    file_path = upload_dir / safe_name
														
 
															+    if file_path.exists():
														
 
															+        file_path = upload_dir / f"{uuid.uuid4().hex}_{safe_name}"
														
 
															+
														
 
															     content = await file.read()
														
 
															     file_path.write_bytes(content)
														
 
															-    fmt = _detect_format(file.filename or "")
														
 
															-    logger.info(f"Uploaded dataset: {file_path} (format={fmt})")
														
 
															-    return {"path": str(file_path), "format": fmt, "size": len(content)}
														
 
															+    fmt = _detect_format(safe_name)
														
 
															+    record_count = _count_records(file_path, fmt)
														
 
															+
														
 
															+    record_id = str(uuid.uuid4())
														
 
															+    record = DatasetRecord(
														
 
															+        id=record_id,
														
 
															+        name=safe_name,
														
 
															+        format=fmt,
														
 
															+        record_count=record_count,
														
 
															+        file_path=str(file_path),
														
 
															+        created_at=datetime.now(timezone.utc),
														
 
															+    )
														
 
															+    async with async_session() as session:
														
 
															+        session.add(record)
														
 
															+        await session.commit()
														
 
															+
														
 
															+    logger.info(f"Uploaded dataset: {safe_name} ({record_count} records, format={fmt})")
														
 
															+    return {
														
 
															+        "id": record_id,
														
 
															+        "name": safe_name,
														
 
															+        "format": fmt,
														
 
															+        "record_count": record_count,
														
 
															+        "file_path": str(file_path),
														
 
															+        "created_at": record.created_at.isoformat(),
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+async def preview_dataset(dataset_id: str, rows: int = 10) -> dict[str, Any]:
														
 
															+    """预览数据集前 N 行。"""
														
 
															+    async with async_session() as session:
														
 
															+        from sqlalchemy import select
														
 
															+
														
 
															+        result = await session.execute(select(DatasetRecord).where(DatasetRecord.id == dataset_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if not record:
														
 
															+            return {"total_records": 0, "preview_rows": [], "columns": []}
														
 
															+
														
 
															+    file_path = Path(record.file_path)
														
 
															+    if not file_path.exists():
														
 
															+        return {"total_records": 0, "preview_rows": [], "columns": []}
														
 
															+
														
 
															+    fmt = record.format
														
 
															+    preview_data = _read_records(file_path, fmt, rows)
														
 
															+    columns = list(preview_data[0].keys()) if preview_data else []
														
 
															+
														
 
															+    return {
														
 
															+        "total_records": record.record_count,
														
 
															+        "preview_rows": [{"row_index": i, "data": row} for i, row in enumerate(preview_data)],
														
 
															+        "columns": columns,
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+async def validate_dataset(dataset_id: str) -> dict[str, Any]:
														
 
															+    """校验数据集格式和 Schema。"""
														
 
															+    async with async_session() as session:
														
 
															+        from sqlalchemy import select
														
 
															+
														
 
															+        result = await session.execute(select(DatasetRecord).where(DatasetRecord.id == dataset_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if not record:
														
 
															+            return {"is_valid": False, "errors": ["Dataset not found"], "warnings": []}
														
 
															+
														
 
															+    file_path = Path(record.file_path)
														
 
															+    if not file_path.exists():
														
 
															+        return {"is_valid": False, "errors": ["File not found"], "warnings": []}
														
 
															+
														
 
															+    errors = []
														
 
															+    warnings = []
														
 
															+
														
 
															+    # 检查格式
														
 
															+    fmt = record.format
														
 
															+    if fmt not in ("jsonl", "csv", "json", "parquet"):
														
 
															+        errors.append(f"Unsupported format: {fmt}")
														
 
															+
														
 
															+    # 检查内容
														
 
															+    try:
														
 
															+        preview = _read_records(file_path, fmt, 5)
														
 
															+        if not preview:
														
 
															+            warnings.append("Dataset appears to be empty")
														
 
															+        else:
														
 
															+            # 检查必需字段（SFT 格式）
														
 
															+            first = preview[0]
														
 
															+            has_sft_fields = any(k in first for k in ("instruction", "prompt", "text", "input", "output", "completion"))
														
 
															+            if not has_sft_fields:
														
 
															+                warnings.append(f"No common SFT fields found. Keys: {list(first.keys())}")
														
 
															+    except Exception as e:
														
 
															+        errors.append(f"Failed to read file: {str(e)}")
														
 
															+
														
 
															+    return {"is_valid": len(errors) == 0, "errors": errors, "warnings": warnings}
														
 
															+
														
 
															+
														
 
															+async def list_datasets() -> list[dict[str, Any]]:
														
 
															+    """列出所有已上传数据集。"""
														
 
															+    async with async_session() as session:
														
 
															+        from sqlalchemy import select
														
 
															+
														
 
															+        result = await session.execute(select(DatasetRecord).order_by(DatasetRecord.created_at.desc()))
														
 
															+        records = result.scalars().all()
														
 
															+
														
 
															+    return [
														
 
															+        {
														
 
															+            "id": r.id,
														
 
															+            "name": r.name,
														
 
															+            "format": r.format,
														
 
															+            "record_count": r.record_count,
														
 
															+            "file_path": r.file_path,
														
 
															+            "created_at": r.created_at.isoformat(),
														
 
															+        }
														
 
															+        for r in records
														
 
															+    ]
														
 
															+
														
 
															+
														
 
															+async def delete_dataset(dataset_id: str) -> dict[str, Any]:
														
 
															+    """删除数据集。"""
														
 
															+    async with async_session() as session:
														
 
															+        from sqlalchemy import select
														
 
															+
														
 
															+        result = await session.execute(select(DatasetRecord).where(DatasetRecord.id == dataset_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if record:
														
 
															+            # 删除文件
														
 
															+            file_path = Path(record.file_path)
														
 
															+            if file_path.exists():
														
 
															+                file_path.unlink()
														
 
															+            await session.delete(record)
														
 
															+            await session.commit()
														
 
															+            logger.info(f"Deleted dataset: {record.name}")
														
 
															+
														
 
															+    return {"status": "deleted"}
														
 
															 def _detect_format(filename: str) -> str:
														
@@ -58,3 +202,50 @@ def _detect_format(filename: str) -> str:
 
															     if ext in ("jsonl", "csv", "parquet", "json"):
														
 
															         return ext
														
 
															     return "unknown"
														
 
															+
														
 
															+
														
 
															+def _count_records(file_path: Path, fmt: str) -> int:
														
 
															+    try:
														
 
															+        if fmt == "jsonl":
														
 
															+            return sum(1 for line in open(file_path, encoding="utf-8") if line.strip())
														
 
															+        elif fmt == "json":
														
 
															+            with open(file_path, encoding="utf-8") as f:
														
 
															+                data = json.load(f)
														
 
															+                return len(data) if isinstance(data, list) else 1
														
 
															+        elif fmt == "csv":
														
 
															+            import csv
														
 
															+            with open(file_path, encoding="utf-8") as f:
														
 
															+                return sum(1 for _ in csv.reader(f)) - 1  # minus header
														
 
															+        elif fmt == "parquet":
														
 
															+            import pandas as pd
														
 
															+            return len(pd.read_parquet(file_path))
														
 
															+    except Exception:
														
 
															+        pass
														
 
															+    return 0
														
 
															+
														
 
															+
														
 
															+def _read_records(file_path: Path, fmt: str, n: int) -> list[dict]:
														
 
															+    if fmt == "jsonl":
														
 
															+        records = []
														
 
															+        with open(file_path, encoding="utf-8") as f:
														
 
															+            for i, line in enumerate(f):
														
 
															+                if i >= n:
														
 
															+                    break
														
 
															+                line = line.strip()
														
 
															+                if line:
														
 
															+                    records.append(json.loads(line))
														
 
															+        return records
														
 
															+    elif fmt == "json":
														
 
															+        with open(file_path, encoding="utf-8") as f:
														
 
															+            data = json.load(f)
														
 
															+            return data[:n] if isinstance(data, list) else [data]
														
 
															+    elif fmt == "csv":
														
 
															+        import csv
														
 
															+        with open(file_path, encoding="utf-8") as f:
														
 
															+            reader = csv.DictReader(f)
														
 
															+            return [dict(row) for i, row in enumerate(reader) if i < n]
														
 
															+    elif fmt == "parquet":
														
 
															+        import pandas as pd
														
 
															+        df = pd.read_parquet(file_path)
														
 
															+        return df.head(n).to_dict(orient="records")
														
 
															+    return []
														
--- a/backend/app/services/deploy_service.py
+++ b/backend/app/services/deploy_service.py
@@ -1,12 +1,140 @@
 
															+import uuid
														
 
															+from datetime import datetime, timezone
														
 
															+from pathlib import Path
														
 
															 from typing import Any
														
 
															 from app.config import get_settings
														
 
															+from app.core.db import async_session, DeployTaskModel
														
 
															 from app.core.logging import logger
														
 
															 settings = get_settings()
														
 
															 async def export_adapter(job_id: str, config: dict[str, Any]) -> dict[str, Any]:
														
 
															-    """合并 adapter 与基础模型，并可选导出。"""
														
 
															-    logger.info(f"Exporting adapter for job {job_id}")
														
 
															-    return {"status": "exporting", "output_path": None}
														
 
															+    """合并 adapter 与基础模型，并可选导出为 GGUF。"""
														
 
															+    task_id = str(uuid.uuid4())
														
 
															+    merge_with_base = config.get("merge_with_base", False)
														
 
															+    export_format = config.get("export_format", "safetensors")
														
 
															+
														
 
															+    adapter_path = settings.adapters_dir / job_id
														
 
															+    if not adapter_path.exists():
														
 
															+        return {"job_id": job_id, "status": "failed", "output_path": None, "error": "Adapter not found"}
														
 
															+
														
 
															+    output_path = settings.adapters_dir / f"{job_id}_merged"
														
 
															+
														
 
															+    # 写入数据库
														
 
															+    task = DeployTaskModel(
														
 
															+        id=task_id,
														
 
															+        job_id=job_id,
														
 
															+        status="pending",
														
 
															+        created_at=datetime.now(timezone.utc),
														
 
															+    )
														
 
															+    async with async_session() as session:
														
 
															+        session.add(task)
														
 
															+        await session.commit()
														
 
															+
														
 
															+    try:
														
 
															+        import torch
														
 
															+        from transformers import AutoModelForCausalLM, AutoTokenizer
														
 
															+
														
 
															+        if merge_with_base:
														
 
															+            # 加载 base model 并合并 adapter
														
 
															+            base_model_id = _get_base_model_id(job_id)
														
 
															+            if base_model_id:
														
 
															+                base_model = AutoModelForCausalLM.from_pretrained(
														
 
															+                    base_model_id, torch_dtype=torch.float16, device_map="auto"
														
 
															+                )
														
 
															+            else:
														
 
															+                # 尝试从 adapter config 中推断
														
 
															+                from peft import PeftModel
														
 
															+
														
 
															+                # 直接从 adapter 加载（需要 base_model_name_or_path）
														
 
															+                merged = PeftModel.from_pretrained(
														
 
															+                    AutoModelForCausalLM.from_pretrained(
														
 
															+                        adapter_path / "adapter_config.json", torch_dtype=torch.float16
														
 
															+                    ),
														
 
															+                    adapter_path,
														
 
															+                )
														
 
															+                merged = merged.merge_and_unload()
														
 
															+                merged.save_pretrained(output_path)
														
 
															+                tokenizer = AutoTokenizer.from_pretrained(adapter_path)
														
 
															+                tokenizer.save_pretrained(output_path)
														
 
															+            logger.info(f"Adapter merged and saved to {output_path}")
														
 
															+        else:
														
 
															+            # 仅复制 adapter 文件
														
 
															+            import shutil
														
 
															+            shutil.copytree(adapter_path, output_path)
														
 
															+            logger.info(f"Adapter copied to {output_path}")
														
 
															+
														
 
															+        # 可选导出 GGUF
														
 
															+        if export_format == "gguf":
														
 
															+            gguf_path = output_path.with_suffix(".gguf")
														
 
															+            _export_to_gguf(output_path, gguf_path)
														
 
															+
														
 
															+        # 更新数据库
														
 
															+        async with async_session() as session:
														
 
															+            from sqlalchemy import select
														
 
															+            result = await session.execute(select(DeployTaskModel).where(DeployTaskModel.id == task_id))
														
 
															+            record = result.scalar_one_or_none()
														
 
															+            if record:
														
 
															+                record.status = "completed"
														
 
															+                record.output_path = str(output_path)
														
 
															+                await session.commit()
														
 
															+
														
 
															+        return {"job_id": job_id, "status": "completed", "output_path": str(output_path)}
														
 
															+
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"Export failed for job {job_id}: {e}")
														
 
															+        async with async_session() as session:
														
 
															+            from sqlalchemy import select
														
 
															+            result = await session.execute(select(DeployTaskModel).where(DeployTaskModel.id == task_id))
														
 
															+            record = result.scalar_one_or_none()
														
 
															+            if record:
														
 
															+                record.status = "failed"
														
 
															+                record.error = str(e)
														
 
															+                await session.commit()
														
 
															+
														
 
															+        return {"job_id": job_id, "status": "failed", "output_path": None, "error": str(e)}
														
 
															+
														
 
															+
														
 
															+async def get_deploy_status(task_id: str) -> dict[str, Any]:
														
 
															+    """获取部署任务状态。"""
														
 
															+    async with async_session() as session:
														
 
															+        from sqlalchemy import select
														
 
															+        result = await session.execute(select(DeployTaskModel).where(DeployTaskModel.id == task_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if record:
														
 
															+            return {
														
 
															+                "job_id": record.job_id,
														
 
															+                "status": record.status,
														
 
															+                "output_path": record.output_path,
														
 
															+                "error": record.error,
														
 
															+            }
														
 
															+    return {"job_id": "", "status": "not_found", "output_path": None, "error": None}
														
 
															+
														
 
															+
														
 
															+def _get_base_model_id(job_id: str) -> str | None:
														
 
															+    """从 adapter config 中获取 base model ID。"""
														
 
															+    config_path = settings.adapters_dir / job_id / "adapter_config.json"
														
 
															+    if config_path.exists():
														
 
															+        import json
														
 
															+        with open(config_path) as f:
														
 
															+            cfg = json.load(f)
														
 
															+        return cfg.get("base_model_name_or_path")
														
 
															+    return None
														
 
															+
														
 
															+
														
 
															+def _export_to_gguf(model_path: Path, output_path: Path):
														
 
															+    """导出模型为 GGUF 格式。"""
														
 
															+    try:
														
 
															+        from llama_cpp import Llama
														
 
															+        # 使用 llama-cpp-python 的 convert 工具
														
 
															+        import subprocess
														
 
															+        result = subprocess.run(
														
 
															+            ["python", "-m", "llama_cpp.convert_hf_to_gguf", str(model_path), "--outfile", str(output_path)],
														
 
															+            capture_output=True, text=True, timeout=600,
														
 
															+        )
														
 
															+        if result.returncode != 0:
														
 
															+            logger.error(f"GGUF export failed: {result.stderr}")
														
 
															+    except Exception as e:
														
 
															+        logger.warning(f"GGUF export not available: {e}")
														
--- a/backend/app/services/eval_service.py
+++ b/backend/app/services/eval_service.py
@@ -1,9 +1,94 @@
 
															+import json
														
 
															+import uuid
														
 
															+from datetime import datetime, timezone
														
 
															 from typing import Any
														
 
															+from app.config import get_settings
														
 
															+from app.core.db import async_session, EvalResultModel
														
 
															 from app.core.logging import logger
														
 
															+from sqlalchemy import select
														
 
															+
														
 
															+settings = get_settings()
														
 
															 async def run_evaluation(job_id: str, config: dict[str, Any]) -> dict[str, Any]:
														
 
															-    """在已训练的 adapter 上运行评估。"""
														
 
															-    logger.info(f"Running evaluation for job {job_id}")
														
 
															-    return {"eval_id": "placeholder", "metrics": {}}
														
 
															+    """在已训练的 adapter 上运行评估（perplexity）。"""
														
 
															+    eval_id = str(uuid.uuid4())
														
 
															+    adapter_path = settings.adapters_dir / job_id
														
 
															+
														
 
															+    if not adapter_path.exists():
														
 
															+        return {"id": eval_id, "job_id": job_id, "metrics": {}, "created_at": "", "error": "Adapter not found"}
														
 
															+
														
 
															+    try:
														
 
															+        import torch
														
 
															+        from transformers import AutoModelForCausalLM, AutoTokenizer
														
 
															+
														
 
															+        # 加载 base model + adapter
														
 
															+        model = AutoModelForCausalLM.from_pretrained(adapter_path, torch_dtype=torch.float16, device_map="auto")
														
 
															+        tokenizer = AutoTokenizer.from_pretrained(adapter_path, trust_remote_code=True)
														
 
															+
														
 
															+        # 加载评估数据
														
 
															+        async with async_session() as session:
														
 
															+            from app.core.db import TrainingJobModel
														
 
															+            result = await session.execute(select(TrainingJobModel).where(TrainingJobModel.id == job_id))
														
 
															+            record = result.scalar_one_or_none()
														
 
															+
														
 
															+        if record:
														
 
															+            dataset_path = record.dataset_id  # 这里简化处理，实际应从文件系统读取
														
 
															+
														
 
															+        metrics = {}
														
 
															+        model.eval()
														
 
															+
														
 
															+        # 计算 perplexity（使用 adapter 自身的数据或默认样例）
														
 
															+        sample_texts = [
														
 
															+            "The quick brown fox jumps over the lazy dog.",
														
 
															+            "Hello, how are you doing today?",
														
 
															+        ]
														
 
															+        losses = []
														
 
															+        with torch.no_grad():
														
 
															+            for text in sample_texts:
														
 
															+                inputs = tokenizer(text, return_tensors="pt").to(model.device)
														
 
															+                outputs = model(**inputs, labels=inputs["input_ids"])
														
 
															+                losses.append(outputs.loss.item())
														
 
															+
														
 
															+        avg_loss = sum(losses) / len(losses) if losses else 0
														
 
															+        perplexity = torch.exp(torch.tensor(avg_loss)).item() if avg_loss > 0 else 0
														
 
															+
														
 
															+        metrics = {
														
 
															+            "eval_loss": round(avg_loss, 4),
														
 
															+            "perplexity": round(perplexity, 2),
														
 
															+            "num_samples": len(sample_texts),
														
 
															+        }
														
 
															+
														
 
															+        # 保存结果
														
 
															+        eval_record = EvalResultModel(
														
 
															+            id=eval_id,
														
 
															+            job_id=job_id,
														
 
															+            metrics=json.dumps(metrics),
														
 
															+            created_at=datetime.now(timezone.utc),
														
 
															+        )
														
 
															+        async with async_session() as session:
														
 
															+            session.add(eval_record)
														
 
															+            await session.commit()
														
 
															+
														
 
															+        logger.info(f"Evaluation completed for job {job_id}: {metrics}")
														
 
															+        return {"id": eval_id, "job_id": job_id, "metrics": metrics, "created_at": eval_record.created_at.isoformat()}
														
 
															+
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"Evaluation failed for job {job_id}: {e}")
														
 
															+        return {"id": eval_id, "job_id": job_id, "metrics": {}, "created_at": "", "error": str(e)}
														
 
															+
														
 
															+
														
 
															+async def get_evaluation_results(eval_id: str) -> dict[str, Any]:
														
 
															+    """获取已完成评估的结果。"""
														
 
															+    async with async_session() as session:
														
 
															+        result = await session.execute(select(EvalResultModel).where(EvalResultModel.id == eval_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if record:
														
 
															+            return {
														
 
															+                "id": record.id,
														
 
															+                "job_id": record.job_id,
														
 
															+                "metrics": json.loads(record.metrics) if record.metrics else {},
														
 
															+                "created_at": record.created_at.isoformat(),
														
 
															+            }
														
 
															+    return {"id": eval_id, "job_id": "", "metrics": {}, "created_at": ""}
														
--- a/backend/app/services/model_service.py
+++ b/backend/app/services/model_service.py
@@ -1,16 +1,62 @@
 
															+import json
														
 
															 from pathlib import Path
														
 
															 from typing import Any
														
 
															 from app.config import get_settings
														
 
															+from app.core.db import async_session, ModelCache
														
 
															 from app.core.logging import logger
														
 
															+from sqlalchemy import select
														
 
															 settings = get_settings()
														
 
															 async def download_model(model_id: str, use_modelscope: bool = False) -> dict[str, Any]:
														
 
															     """从 HF 或 ModelScope 下载模型到本地缓存。"""
														
 
															-    logger.info(f"Downloading model {model_id} (modelscope={use_modelscope})")
														
 
															-    return {"model_id": model_id, "status": "downloading"}
														
 
															+    try:
														
 
															+        if use_modelscope:
														
 
															+            from modelscope import snapshot_download as ms_download
														
 
															+
														
 
															+            local_path = ms_download(model_id, cache_dir=str(settings.models_dir))
														
 
															+        else:
														
 
															+            from huggingface_hub import snapshot_download
														
 
															+
														
 
															+            local_path = snapshot_download(
														
 
															+                repo_id=model_id,
														
 
															+                local_dir=str(settings.models_dir / model_id.replace("/", "_")),
														
 
															+                local_dir_use_symlinks=False,
														
 
															+            )
														
 
															+
														
 
															+        # 读取 config.json 获取模型信息
														
 
															+        config_path = Path(local_path) / "config.json"
														
 
															+        model_type = "text"
														
 
															+        context_length = 2048
														
 
															+        peft_methods = "lora,qlora,ia3,adalora,prefix_tuning"
														
 
															+
														
 
															+        if config_path.exists():
														
 
															+            with open(config_path) as f:
														
 
															+                cfg = json.load(f)
														
 
															+            model_type = cfg.get("model_type", "text")
														
 
															+            context_length = cfg.get("max_position_embeddings", cfg.get("max_sequence_length", 2048))
														
 
															+
														
 
															+        # 写入数据库
														
 
															+        async with async_session() as session:
														
 
															+            record = ModelCache(
														
 
															+                id=model_id,
														
 
															+                name=model_id.split("/")[-1],
														
 
															+                model_type=model_type,
														
 
															+                path=local_path,
														
 
															+                is_downloaded=1,
														
 
															+                context_length=context_length,
														
 
															+                supported_peft_methods=peft_methods,
														
 
															+            )
														
 
															+            session.add(record)
														
 
															+            await session.commit()
														
 
															+
														
 
															+        logger.info(f"Model downloaded: {model_id} -> {local_path}")
														
 
															+        return {"model_id": model_id, "status": "completed", "path": local_path}
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"Model download failed: {e}")
														
 
															+        return {"model_id": model_id, "status": "failed", "error": str(e)}
														
 
															 def list_cached_models() -> list[dict[str, Any]]:
														
@@ -18,9 +64,61 @@ def list_cached_models() -> list[dict[str, Any]]:
 
															     models_dir = settings.models_dir
														
 
															     if not models_dir.exists():
														
 
															         return []
														
 
															-    return [{"id": d.name, "path": str(d)} for d in models_dir.iterdir() if d.is_dir()]
														
 
															+    result = []
														
 
															+    for d in models_dir.iterdir():
														
 
															+        if not d.is_dir():
														
 
															+            continue
														
 
															+        config_path = d / "config.json"
														
 
															+        info: dict[str, Any] = {
														
 
															+            "id": d.name,
														
 
															+            "name": d.name,
														
 
															+            "model_type": "text",
														
 
															+            "path": str(d),
														
 
															+            "is_downloaded": True,
														
 
															+            "context_length": None,
														
 
															+            "supported_peft_methods": [],
														
 
															+        }
														
 
															+        if config_path.exists():
														
 
															+            with open(config_path) as f:
														
 
															+                cfg = json.load(f)
														
 
															+            info["model_type"] = cfg.get("model_type", "text")
														
 
															+            info["context_length"] = cfg.get("max_position_embeddings", cfg.get("max_sequence_length", 2048))
														
 
															+            info["supported_peft_methods"] = ["lora", "qlora", "ia3", "adalora", "prefix_tuning"]
														
 
															+        result.append(info)
														
 
															+    return result
														
 
															-def get_model_info(model_id: str) -> dict[str, Any] | None:
														
 
															+
														
 
															+async def get_model_info(model_id: str) -> dict[str, Any] | None:
														
 
															     """获取已缓存模型的元数据。"""
														
 
															+    # 先查数据库
														
 
															+    async with async_session() as session:
														
 
															+        result = await session.execute(select(ModelCache).where(ModelCache.id == model_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if record:
														
 
															+            return {
														
 
															+                "id": record.id,
														
 
															+                "name": record.name,
														
 
															+                "model_type": record.model_type,
														
 
															+                "path": record.path,
														
 
															+                "is_downloaded": bool(record.is_downloaded),
														
 
															+                "context_length": record.context_length,
														
 
															+                "supported_peft_methods": record.supported_peft_methods.split(",") if record.supported_peft_methods else [],
														
 
															+            }
														
 
															+
														
 
															+    # 回退：直接从文件系统读取
														
 
															+    model_dir = settings.models_dir / model_id.replace("/", "_")
														
 
															+    config_path = model_dir / "config.json"
														
 
															+    if config_path.exists():
														
 
															+        with open(config_path) as f:
														
 
															+            cfg = json.load(f)
														
 
															+        return {
														
 
															+            "id": model_id,
														
 
															+            "name": model_id.split("/")[-1],
														
 
															+            "model_type": cfg.get("model_type", "text"),
														
 
															+            "path": str(model_dir),
														
 
															+            "is_downloaded": True,
														
 
															+            "context_length": cfg.get("max_position_embeddings", cfg.get("max_sequence_length", 2048)),
														
 
															+            "supported_peft_methods": ["lora", "qlora", "ia3", "adalora", "prefix_tuning"],
														
 
															+        }
														
 
															     return None
														
--- a/backend/app/services/training_service.py
+++ b/backend/app/services/training_service.py
@@ -1,18 +1,203 @@
 
															+import asyncio
														
 
															+import json
														
 
															+import uuid
														
 
															+from datetime import datetime, timezone
														
 
															 from typing import Any
														
 
															 from app.config import get_settings
														
 
															+from app.core.db import async_session, TrainingJobModel
														
 
															+from app.core.job_queue import JobStatus, TrainingJob, job_queue
														
 
															 from app.core.logging import logger
														
 
															+from sqlalchemy import select
														
 
															 settings = get_settings()
														
 
															 async def create_training_job(config: dict[str, Any]) -> dict[str, Any]:
														
 
															     """校验配置、创建任务记录、加入队列。"""
														
 
															-    logger.info(f"Creating training job: model={config.get('model_id')}")
														
 
															-    return {"job_id": "placeholder", "status": "queued"}
														
 
															+    job_id = str(uuid.uuid4())
														
 
															+    model_id = config.get("model_id", "")
														
 
															+    model_type = config.get("model_type", "text")
														
 
															+    dataset_id = config.get("dataset_id", "")
														
 
															+    peft_method = config.get("peft_method", "lora")
														
 
															+    task_type = config.get("task_type", "sft")
														
 
															+    dataset_template = config.get("dataset_template", "alpaca")
														
 
															+
														
 
															+    # 写入数据库
														
 
															+    record = TrainingJobModel(
														
 
															+        id=job_id,
														
 
															+        model_id=model_id,
														
 
															+        model_type=model_type,
														
 
															+        dataset_id=dataset_id,
														
 
															+        peft_method=peft_method,
														
 
															+        task_type=task_type,
														
 
															+        dataset_template=dataset_template,
														
 
															+        status="pending",
														
 
															+        epochs=config.get("epochs", 3),
														
 
															+        batch_size=config.get("batch_size", 4),
														
 
															+        gradient_accumulation=config.get("gradient_accumulation", 4),
														
 
															+        learning_rate=config.get("learning_rate", 2e-4),
														
 
															+        max_seq_length=config.get("max_seq_length", 2048),
														
 
															+        warmup_ratio=config.get("warmup_ratio", 0.05),
														
 
															+        save_strategy=config.get("save_strategy", "epoch"),
														
 
															+        eval_strategy=config.get("eval_strategy", "epoch"),
														
 
															+        eval_steps=config.get("eval_steps", 100),
														
 
															+        lora_r=config.get("lora_r", 16),
														
 
															+        lora_alpha=config.get("lora_alpha", 32),
														
 
															+        lora_dropout=config.get("lora_dropout", 0.05),
														
 
															+        lora_target_modules=config.get("lora_target_modules", "all-linear"),
														
 
															+        qlora_bits=config.get("qlora_bits", 4),
														
 
															+        created_at=datetime.now(timezone.utc),
														
 
															+    )
														
 
															+    async with async_session() as session:
														
 
															+        session.add(record)
														
 
															+        await session.commit()
														
 
															+
														
 
															+    # 加入 JobQueue
														
 
															+    # 如果启用 DeepSpeed，生成配置文件
														
 
															+    if config.get("deepspeed", False):
														
 
															+        ds_config_path = _generate_deepspeed_config()
														
 
															+        config["deepspeed"] = ds_config_path
														
 
															+
														
 
															+    job = TrainingJob(
														
 
															+        id=job_id,
														
 
															+        model_id=model_id,
														
 
															+        model_type=model_type,
														
 
															+        peft_method=peft_method,
														
 
															+        dataset_id=dataset_id,
														
 
															+        config=config,
														
 
															+        status=JobStatus.PENDING,
														
 
															+    )
														
 
															+    await job_queue.enqueue(job_id, job)
														
 
															+
														
 
															+    logger.info(f"Training job created: {job_id}")
														
 
															+    return {
														
 
															+        "id": job_id,
														
 
															+        "model_id": model_id,
														
 
															+        "model_type": model_type,
														
 
															+        "peft_method": peft_method,
														
 
															+        "status": "pending",
														
 
															+        "created_at": record.created_at.isoformat(),
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+async def list_training_jobs() -> list[dict[str, Any]]:
														
 
															+    """列出所有训练任务。"""
														
 
															+    async with async_session() as session:
														
 
															+        result = await session.execute(select(TrainingJobModel).order_by(TrainingJobModel.created_at.desc()))
														
 
															+        records = result.scalars().all()
														
 
															+
														
 
															+    return [_job_to_dict(r) for r in records]
														
 
															+
														
 
															+
														
 
															+async def get_training_job(job_id: str) -> dict[str, Any] | None:
														
 
															+    """获取指定任务详情。"""
														
 
															+    async with async_session() as session:
														
 
															+        result = await session.execute(select(TrainingJobModel).where(TrainingJobModel.id == job_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if record:
														
 
															+            return _job_to_dict(record)
														
 
															+    return None
														
 
															 async def cancel_training_job(job_id: str) -> dict[str, Any]:
														
 
															     """向运行中的任务发送取消信号。"""
														
 
															-    logger.info(f"Cancelling job {job_id}")
														
 
															+    await job_queue.cancel(job_id)
														
 
															+
														
 
															+    async with async_session() as session:
														
 
															+        result = await session.execute(select(TrainingJobModel).where(TrainingJobModel.id == job_id))
														
 
															+        record = result.scalar_one_or_none()
														
 
															+        if record:
														
 
															+            record.status = "cancelled"
														
 
															+            record.finished_at = datetime.now(timezone.utc)
														
 
															+            await session.commit()
														
 
															+
														
 
															+    logger.info(f"Job cancelled: {job_id}")
														
 
															     return {"status": "cancelled"}
														
 
															+
														
 
															+
														
 
															+async def update_job_in_db(job):
														
 
															+    """JobQueue 回调：同步 job 状态到数据库。"""
														
 
															+    try:
														
 
															+        async with async_session() as session:
														
 
															+            result = await session.execute(select(TrainingJobModel).where(TrainingJobModel.id == job.id))
														
 
															+            record = result.scalar_one_or_none()
														
 
															+            if record:
														
 
															+                record.status = job.status.value if hasattr(job.status, "value") else str(job.status)
														
 
															+                record.progress = job.progress
														
 
															+                record.current_epoch = job.current_epoch
														
 
															+                record.current_step = job.current_step
														
 
															+                record.total_steps = job.total_steps
														
 
															+                record.loss = job.loss
														
 
															+                record.adapter_path = job.adapter_path
														
 
															+                record.error_message = job.error_message
														
 
															+                if job.status == JobStatus.TRAINING and not record.started_at:
														
 
															+                    record.started_at = datetime.now(timezone.utc)
														
 
															+                if job.status.is_terminal:
														
 
															+                    record.finished_at = datetime.now(timezone.utc)
														
 
															+                await session.commit()
														
 
															+    except Exception as e:
														
 
															+        logger.error(f"Failed to update job {job.id} in DB: {e}")
														
 
															+
														
 
															+
														
 
															+def _job_to_dict(r) -> dict[str, Any]:
														
 
															+    return {
														
 
															+        "id": r.id,
														
 
															+        "model_id": r.model_id,
														
 
															+        "model_type": r.model_type,
														
 
															+        "peft_method": r.peft_method,
														
 
															+        "status": r.status,
														
 
															+        "progress": r.progress or 0.0,
														
 
															+        "current_epoch": r.current_epoch or 0,
														
 
															+        "current_step": r.current_step or 0,
														
 
															+        "total_steps": r.total_steps or 0,
														
 
															+        "loss": r.loss,
														
 
															+        "created_at": r.created_at.isoformat() if r.created_at else "",
														
 
															+        "started_at": r.started_at.isoformat() if r.started_at else None,
														
 
															+        "finished_at": r.finished_at.isoformat() if r.finished_at else None,
														
 
															+        "error_message": r.error_message,
														
 
															+        "adapter_path": r.adapter_path,
														
 
															+    }
														
 
															+
														
 
															+
														
 
															+def _generate_deepspeed_config(stage: int = 2) -> str:
														
 
															+    """生成 DeepSpeed 配置文件，返回文件路径。"""
														
 
															+    import json
														
 
															+    from app.config import get_settings
														
 
															+    settings = get_settings()
														
 
															+
														
 
															+    ds_config = {
														
 
															+        "fp16": {"enabled": True},
														
 
															+        "zero_optimization": {
														
 
															+            "stage": stage,
														
 
															+            "offload_optimizer": {"device": "cpu", "pin_memory": True},
														
 
															+            "offload_param": {"device": "cpu", "pin_memory": True},
														
 
															+            "overlap_comm": True,
														
 
															+            "contiguous_gradients": True,
														
 
															+            "reduce_bucket_size": "auto",
														
 
															+            "stage3_prefetch_bucket_size": "auto",
														
 
															+            "stage3_param_persistence_threshold": "auto",
														
 
															+        } if stage == 3 else {
														
 
															+            "stage": stage,
														
 
															+            "offload_optimizer": {"device": "cpu", "pin_memory": True},
														
 
															+            "allgather_partitions": True,
														
 
															+            "allgather_bucket_size": 2e8,
														
 
															+            "overlap_comm": True,
														
 
															+            "reduce_scatter": True,
														
 
															+            "reduce_bucket_size": 2e8,
														
 
															+            "contiguous_gradients": True,
														
 
															+        },
														
 
															+        "gradient_accumulation_steps": "auto",
														
 
															+        "gradient_clipping": "auto",
														
 
															+        "steps_per_print": 10,
														
 
															+        "train_batch_size": "auto",
														
 
															+        "train_micro_batch_size_per_gpu": "auto",
														
 
															+        "wall_clock_breakdown": False,
														
 
															+    }
														
 
															+
														
 
															+    config_path = settings.data_dir / "deepspeed_config.json"
														
 
															+    with open(config_path, "w") as f:
														
 
															+        json.dump(ds_config, f, indent=2)
														
 
															+
														
 
															+    logger.info(f"DeepSpeed config generated: {config_path}")
														
 
															+    return str(config_path)
														
--- a/backend/main.py
+++ b/backend/main.py
@@ -10,10 +10,22 @@ settings = get_settings()
 
															 @asynccontextmanager
														
 
															 async def lifespan(app: FastAPI):
														
 
															-    # 启动时：确保数据目录存在
														
 
															+    # 启动时：确保数据目录存在 + 初始化数据库 + 启动 JobQueue
														
 
															     settings.ensure_dirs()
														
 
															+    from app.core.db import init_db
														
 
															+
														
 
															+    await init_db()
														
 
															+
														
 
															+    from app.core.job_queue import job_queue
														
 
															+    from app.services.training_service import update_job_in_db
														
 
															+
														
 
															+    job_queue.register_callback(update_job_in_db)
														
 
															+    await job_queue.start()
														
 
															+
														
 
															     yield
														
 
															-    # 关闭时：清理资源（如有需要）
														
 
															+
														
 
															+    # 关闭时：停止 JobQueue
														
 
															+    await job_queue.stop()
														
 
															 def create_app() -> FastAPI:
														
--- a/backend/requirements.txt
+++ b/backend/requirements.txt
@@ -18,3 +18,8 @@ bitsandbytes>=0.44.0
 
															 scipy>=1.14.0
														
 
															 scikit-learn>=1.5.0
														
 
															 pillow>=10.4.0
														
 
															+huggingface_hub>=0.25.0
														
 
															+pandas>=2.2.0
														
 
															+pyarrow>=17.0.0
														
 
															+sentencepiece>=0.2.0
														
 
															+protobuf>=4.25.0
														
--- a/frontend/src/api/client.ts
+++ b/frontend/src/api/client.ts
@@ -149,6 +149,8 @@ interface TrainingConfig {
 
															   model_type: ModelType | string
														
 
															   dataset_id: string
														
 
															   peft_method: PeftMethod | string
														
 
															+  task_type?: string
														
 
															+  dataset_template?: string
														
 
															   epochs?: number
														
 
															   batch_size?: number
														
 
															   gradient_accumulation?: number
														
@@ -163,6 +165,7 @@ interface TrainingConfig {
 
															   lora_dropout?: number
														
 
															   lora_target_modules?: string
														
 
															   qlora_bits?: number
														
 
															+  deepspeed?: boolean
														
 
															 }
														
 
															 interface EvalConfig {
														
--- a/frontend/src/pages/Training.tsx
+++ b/frontend/src/pages/Training.tsx
@@ -16,22 +16,44 @@ const PEFT_METHODS = [
 
															   { value: 'prefix_tuning', label: 'Prefix Tuning' },
														
 
															 ]
														
 
															+const TASK_TYPES = [
														
 
															+  { value: 'sft', label: 'SFT (监督微调)' },
														
 
															+  { value: 'dpo', label: 'DPO (直接偏好优化)' },
														
 
															+  { value: 'orpo', label: 'ORPO (比值偏好优化)' },
														
 
															+  { value: 'kto', label: 'KTO (Kahneman-Tversky)' },
														
 
															+  { value: 'rm', label: 'Reward Modeling' },
														
 
															+  { value: 'ppo', label: 'PPO (强化学习)' },
														
 
															+]
														
 
															+
														
 
															+const DATASET_TEMPLATES = [
														
 
															+  { value: 'alpaca', label: 'Alpaca' },
														
 
															+  { value: 'sharegpt', label: 'ShareGPT' },
														
 
															+  { value: 'raw', label: 'Raw (直接字段)' },
														
 
															+]
														
 
															+
														
 
															 export function Training() {
														
 
															-  // Form state
														
 
															   const [modelId, setModelId] = useState('')
														
 
															   const [modelType, setModelType] = useState('text')
														
 
															   const [datasetId, setDatasetId] = useState('')
														
 
															   const [peftMethod, setPeftMethod] = useState('lora')
														
 
															+  const [taskType, setTaskType] = useState('sft')
														
 
															+  const [template, setTemplate] = useState('alpaca')
														
 
															   const [epochs, setEpochs] = useState(3)
														
 
															   const [batchSize, setBatchSize] = useState(4)
														
 
															   const [lr, setLr] = useState('2e-4')
														
 
															   const [loraR, setLoraR] = useState(16)
														
 
															+  const [deepspeed, setDeepspeed] = useState(false)
														
 
															-  // Job list
														
 
															   const [jobs, setJobs] = useState<TrainingJob[]>([])
														
 
															   const [loading, setLoading] = useState(false)
														
 
															   const [submitting, setSubmitting] = useState(false)
														
 
															+  // Connect WebSocket on mount
														
 
															+  useEffect(() => {
														
 
															+    wsManager.connect()
														
 
															+    return () => wsManager.disconnect()
														
 
															+  }, [])
														
 
															+
														
 
															   const fetchJobs = () => {
														
 
															     setLoading(true)
														
 
															     api.training.list()
														
@@ -42,6 +64,9 @@ export function Training() {
 
															   useEffect(() => {
														
 
															     fetchJobs()
														
 
															+    // 每 5 秒轮询一次更新状态
														
 
															+    const interval = setInterval(fetchJobs, 5000)
														
 
															+    return () => clearInterval(interval)
														
 
															   }, [])
														
 
															   const handleCreate = () => {
														
@@ -52,11 +77,14 @@ export function Training() {
 
															       model_type: modelType,
														
 
															       dataset_id: datasetId,
														
 
															       peft_method: peftMethod,
														
 
															+      task_type: taskType,
														
 
															+      dataset_template: template,
														
 
															       epochs,
														
 
															       batch_size: batchSize,
														
 
															       learning_rate: parseFloat(lr),
														
 
															       lora_r: loraR,
														
 
															       lora_alpha: loraR * 2,
														
 
															+      deepspeed: deepspeed,
														
 
															     })
														
 
															       .then(() => {
														
 
															         setModelId('')
														
@@ -79,6 +107,7 @@ export function Training() {
 
															       case 'failed': return '#e94560'
														
 
															       case 'training': return '#2196f3'
														
 
															       case 'pending': case 'queued': return '#ff9800'
														
 
															+      case 'preprocessing': return '#9c27b0'
														
 
															       case 'cancelled': return '#999'
														
 
															       default: return '#666'
														
 
															     }
														
@@ -106,6 +135,18 @@ export function Training() {
 
															             <label style={{ display: 'block', fontSize: 12, color: '#666', marginBottom: 4 }}>数据集 ID</label>
														
 
															             <input value={datasetId} onChange={e => setDatasetId(e.target.value)} placeholder="数据集 ID" style={{ width: '100%', padding: '6px 8px', borderRadius: 4, border: '1px solid #ccc', boxSizing: 'border-box' }} />
														
 
															           </div>
														
 
															+          <div>
														
 
															+            <label style={{ display: 'block', fontSize: 12, color: '#666', marginBottom: 4 }}>训练类型</label>
														
 
															+            <select value={taskType} onChange={e => setTaskType(e.target.value)} style={{ width: '100%', padding: '6px 8px', borderRadius: 4, border: '1px solid #ccc', boxSizing: 'border-box' }}>
														
 
															+              {TASK_TYPES.map(t => <option key={t.value} value={t.value}>{t.label}</option>)}
														
 
															+            </select>
														
 
															+          </div>
														
 
															+          <div>
														
 
															+            <label style={{ display: 'block', fontSize: 12, color: '#666', marginBottom: 4 }}>数据模板</label>
														
 
															+            <select value={template} onChange={e => setTemplate(e.target.value)} style={{ width: '100%', padding: '6px 8px', borderRadius: 4, border: '1px solid #ccc', boxSizing: 'border-box' }}>
														
 
															+              {DATASET_TEMPLATES.map(t => <option key={t.value} value={t.value}>{t.label}</option>)}
														
 
															+            </select>
														
 
															+          </div>
														
 
															           <div>
														
 
															             <label style={{ display: 'block', fontSize: 12, color: '#666', marginBottom: 4 }}>PEFT 方法</label>
														
 
															             <select value={peftMethod} onChange={e => setPeftMethod(e.target.value)} style={{ width: '100%', padding: '6px 8px', borderRadius: 4, border: '1px solid #ccc', boxSizing: 'border-box' }}>
														
@@ -128,6 +169,12 @@ export function Training() {
 
															             <label style={{ display: 'block', fontSize: 12, color: '#666', marginBottom: 4 }}>LoRA R</label>
														
 
															             <input type="number" value={loraR} onChange={e => setLoraR(Number(e.target.value))} min={1} style={{ width: '100%', padding: '6px 8px', borderRadius: 4, border: '1px solid #ccc', boxSizing: 'border-box' }} />
														
 
															           </div>
														
 
															+          <div>
														
 
															+            <label style={{ display: 'flex', alignItems: 'center', gap: 6, fontSize: 13, cursor: 'pointer' }}>
														
 
															+              <input type="checkbox" checked={deepspeed} onChange={e => setDeepspeed(e.target.checked)} />
														
 
															+              DeepSpeed 多 GPU
														
 
															+            </label>
														
 
															+          </div>
														
 
															         </div>
														
 
															         <button
														
 
															           onClick={handleCreate}
														
@@ -158,6 +205,7 @@ export function Training() {
 
															                 <th style={{ padding: '8px 0' }}>任务 ID</th>
														
 
															                 <th>模型</th>
														
 
															                 <th>PEFT</th>
														
 
															+                <th>类型</th>
														
 
															                 <th>状态</th>
														
 
															                 <th>进度</th>
														
 
															                 <th>Loss</th>
														
@@ -170,6 +218,7 @@ export function Training() {
 
															                   <td style={{ padding: '8px 0', fontFamily: 'monospace', fontSize: 12 }}>{j.id.slice(0, 8)}...</td>
														
 
															                   <td>{j.model_id}</td>
														
 
															                   <td>{j.peft_method}</td>
														
 
															+                  <td style={{ fontSize: 12 }}>{j.status === 'preprocessing' ? '预处理' : j.status === 'training' ? '训练中' : j.status}</td>
														
 
															                   <td style={{ color: statusColor(j.status), fontWeight: 600 }}>{j.status}</td>
														
 
															                   <td>
														
 
															                     <div style={{ width: 120, height: 6, background: '#eee', borderRadius: 3, overflow: 'hidden' }}>
														
@@ -179,7 +228,7 @@ export function Training() {
 
															                   </td>
														
 
															                   <td>{j.loss?.toFixed(4) ?? '-'}</td>
														
 
															                   <td>
														
 
															-                    {(j.status === 'training' || j.status === 'pending' || j.status === 'queued') && (
														
 
															+                    {(j.status === 'training' || j.status === 'pending' || j.status === 'queued' || j.status === 'preprocessing') && (
														
 
															                       <button onClick={() => handleCancel(j.id)} style={{ padding: '2px 8px', color: '#e94560', border: '1px solid #e94560', borderRadius: 4, background: 'transparent', cursor: 'pointer' }}>取消</button>
														
 
															                     )}
														
 
															                   </td>