Maas2-group/maas-base: Maas的gpu底座 @ 20f4ddc6bf1feec3a8a96a66e2abdce596c3852e

概要

GPUStackは、効率的なAIモデルデプロイメントのために設計されたオープンソースのGPUクラスタマネージャーです。推論エンジン（vLLM、SGLang、TensorRT-LLM、またはカスタムエンジン）を構成・オーケストレーションし、GPUクラスタ全体のパフォーマンスを最適化します。主な機能は以下の通りです：

マルチクラスタGPU管理。 複数の環境にわたるGPUクラスタを管理します。これには、オンプレミスサーバー、Kubernetesクラスタ、およびクラウドプロバイダが含まれます。
プラグ可能な推論エンジン。 vLLM、SGLang、TensorRT-LLMなどの高性能推論エンジンを自動的に設定します。必要に応じてカスタム推論エンジンを追加することもできます。
Day 0モデルサポート。 GPUStackのプラグ可能なエンジンアーキテクチャにより、新しいモデルがリリースされた当日にデプロイできます。
パフォーマンス最適化設定。 低レイテンシまたは高スループット向けの事前調整済みモードを提供します。GPUStackは、LMCacheやHiCacheなどの拡張KVキャッシュシステムをサポートし、TTFTを削減します。また、EAGLE3、MTP、N-gramなどの投機的デコード手法の組み込みサポートも含まれます。
エンタープライズグレードの運用。 自動化された障害回復、負荷分散、監視、認証、およびアクセス制御のサポートを提供します。

アーキテクチャ

GPUStackは、開発チーム、IT組織、およびサービスプロバイダーが大規模なモデルサービスを提供できるようにします。LLM、音声、画像、ビデオモデル向けの業界標準APIをサポートしています。このプラットフォームには、組み込みのユーザー認証とアクセス制御、GPUパフォーマンスと使用率のリアルタイム監視、トークン使用量とAPIリクエストレートの詳細なメータリングが含まれています。

以下の図は、単一のGPUStackサーバーがオンプレミスとクラウド環境の両方にまたがる複数のGPUクラスタをどのように管理できるかを示しています。GPUStackスケジューラは、リソース使用率を最大化するためにGPUを割り当て、最適なパフォーマンスを得るために適切な推論エンジンを選択します。管理者は、統合されたGrafanaおよびPrometheusダッシュボードを通じて、システムの健全性とメトリクスに関する完全な可視性も得ます。

最適化された推論パフォーマンス

GPUStackの自動化されたエンジン選択とパラメータ最適化により、すぐに使える強力な推論パフォーマンスを提供します。以下の図は、デフォルトのvLLM設定と比較したスループットの向上を示しています：

詳細なベンチマーク方法と結果については、推論パフォーマンスラボをご覧ください。

サポートされているアクセラレータ

GPUStack は AI 推論用の幅広いアクセラレータをサポートしています：

NVIDIA GPU
AMD GPU
Ascend NPU
Hygon DCU
MThreads GPU
Iluvatar GPU
MetaX GPU
Cambricon MLU
T-Head PPU

詳細な要件とセットアップ手順については、インストール要件ドキュメントを参照してください。

クイックスタート

前提条件

少なくとも1つの NVIDIA GPU を搭載したノード。他の GPU タイプについては、GPUStack UI で worker を追加する際のガイドラインを参照するか、詳細についてはインストールドキュメントを参照してください。
worker ノードに NVIDIA ドライバー、Docker、NVIDIA Container Toolkit がインストールされていることを確認してください。
（オプション）GPUStack server をホストするための CPU ノード。GPUStack server は GPU を必要とせず、CPU のみのマシンで実行できます。Docker がインストールされている必要があります。Docker Desktop（Windows および macOS 用）もサポートされています。専用の CPU ノードがない場合は、GPU worker ノードと同じマシンに GPUStack server をインストールできます。
GPUStack worker ノードは Linux のみをサポートしています。Windows を使用する場合は、WSL2 の使用を検討し、Docker Desktop の使用は避けてください。macOS は GPUStack worker ノードとしてサポートされていません。

GPUStack のインストール

以下のコマンドを実行して、Docker を使用して GPUStack server をインストールし起動します：

sudo docker run -d --name gpustack \
    --restart unless-stopped \
    -p 80:80 \
    --volume gpustack-data:/var/lib/gpustack \
    gpustack/gpustack

代替案：Quay コンテナレジストリミラーの使用

`Docker Hub` からイメージをプルできない場合やダウンロードが非常に遅い場合は、`quay.io` を指定することで当社のミラーを使用できます： ```bash sudo docker run -d --name gpustack \ --restart unless-stopped \ -p 80:80 \ --volume gpustack-data:/var/lib/gpustack \ quay.io/gpustack/gpustack \ --system-default-container-registry quay.io ```

GPUStack の起動ログを確認します：

sudo docker logs -f gpustack

GPUStack が起動したら、以下のコマンドを実行してデフォルトの管理者パスワードを取得します：

sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password

ブラウザを開き、http://あなたのホストIP にアクセスして GPUStack UI にアクセスします。デフォルトのユーザー名 admin と上記で取得したパスワードを使用してログインします。

GPU クラスターのセットアップ

GPUStack UI で、Clusters ページに移動します。
Add Cluster ボタンをクリックします。
クラスタープロバイダーとして Docker を選択します。
新しいクラスターの Name と Description フィールドに入力し、Save ボタンをクリックします。

UI のガイドラインに従って新しい worker ノードを設定します。worker ノードを GPUStack server に接続するには、worker ノードで Docker コマンドを実行する必要があります。コマンドは以下のようになります：

sudo docker run -d --name gpustack-worker \
      --restart=unless-stopped \
      --privileged \
      --network=host \
      --volume /var/run/docker.sock:/var/run/docker.sock \
      --volume gpustack-data:/var/lib/gpustack \
      --runtime nvidia \
      gpustack/gpustack \
      --server-url http://your_gpustack_server_url \
      --token your_worker_token \
      --advertise-address 192.168.1.2

worker ノードでこのコマンドを実行して GPUStack server に接続します。
worker ノードが正常に接続されると、GPUStack UI の Workers ページに表示されます。

モデルのデプロイ

GPUStack UIのCatalogページに移動します。
利用可能なモデルのリストからQwen3 0.6Bモデルを選択します。
デプロイ互換性チェックが通過した後、Saveボタンをクリックしてモデルをデプロイします。

GPUStackはモデルファイルのダウンロードとモデルのデプロイを開始します。デプロイステータスがRunningと表示されたら、モデルは正常にデプロイされています。

ナビゲーションメニューでPlayground - Chatをクリックし、右上のModelドロップダウンからモデルqwen3-0.6bが選択されていることを確認します。これでUIプレイグラウンドでモデルとチャットできるようになります。

API経由でモデルを使用

ユーザーアバターにカーソルを合わせてAPI Keysページに移動し、New API Keyボタンをクリックします。
Nameを入力し、Saveボタンをクリックします。
生成されたAPIキーをコピーし、安全な場所に保存します。このキーは作成時に一度しか確認できないことに注意してください。

これで、このAPIキーを使用して、GPUStackが提供するOpenAI互換のAPIエンドポイントにアクセスできます。例えば、以下のようにcurlを使用します：

# `your_api_key` と `your_gpustack_server_url` を
# 実際のAPIキーとGPUStackサーバーのURLに置き換えてください。
export GPUSTACK_API_KEY=your_api_key
curl http://your_gpustack_server_url/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "qwen3-0.6b",
"messages": [
  {
    "role": "system",
    "content": "あなたは役立つアシスタントです。"
  },
  {
    "role": "user",
    "content": "ジョークを教えてください。"
  }
],
"stream": true
}'

ドキュメント

完全なドキュメントについては、公式ドキュメントサイトを参照してください。

ビルド

Python（バージョン3.10から3.12）をインストールします。
make buildを実行します。

ビルドされたwheelパッケージはdistディレクトリにあります。

貢献

GPUStackへの貢献に興味がある場合は、貢献ガイドをお読みください。

コミュニティに参加

問題がある場合、または提案がある場合は、お気軽に私たちのコミュニティに参加してサポートを受けてください。

ライセンス

Apache License, Version 2.0（「ライセンス」）に基づいてライセンスされます。ライセンスに準拠しない限り、このファイルを使用することはできません。ライセンスのコピーはLICENSEファイルで入手できます。

適用される法律で要求されない限り、または書面で合意されない限り、本ライセンスに基づいて配布されるソフトウェアは、明示黙示を問わず、いかなる保証も条件もなしに「現状のまま」配布されます。ライセンスの権利と制限を規定する特定の言語については、ライセンスを参照してください。

README_JP.md 13 KB Histórico Raw

概要