GPUStackは、効率的なAIモデルデプロイメントのために設計されたオープンソースのGPUクラスタマネージャーです。推論エンジン(vLLM、SGLang、TensorRT-LLM、またはカスタムエンジン)を構成・オーケストレーションし、GPUクラスタ全体のパフォーマンスを最適化します。主な機能は以下の通りです:
GPUStackは、開発チーム、IT組織、およびサービスプロバイダーが大規模なモデルサービスを提供できるようにします。LLM、音声、画像、ビデオモデル向けの業界標準APIをサポートしています。このプラットフォームには、組み込みのユーザー認証とアクセス制御、GPUパフォーマンスと使用率のリアルタイム監視、トークン使用量とAPIリクエストレートの詳細なメータリングが含まれています。
以下の図は、単一のGPUStackサーバーがオンプレミスとクラウド環境の両方にまたがる複数のGPUクラスタをどのように管理できるかを示しています。GPUStackスケジューラは、リソース使用率を最大化するためにGPUを割り当て、最適なパフォーマンスを得るために適切な推論エンジンを選択します。管理者は、統合されたGrafanaおよびPrometheusダッシュボードを通じて、システムの健全性とメトリクスに関する完全な可視性も得ます。
GPUStackの自動化されたエンジン選択とパラメータ最適化により、すぐに使える強力な推論パフォーマンスを提供します。以下の図は、デフォルトのvLLM設定と比較したスループットの向上を示しています:
詳細なベンチマーク方法と結果については、推論パフォーマンスラボをご覧ください。
GPUStack は AI 推論用の幅広いアクセラレータをサポートしています:
詳細な要件とセットアップ手順については、インストール要件ドキュメントを参照してください。
以下のコマンドを実行して、Docker を使用して GPUStack server をインストールし起動します:
sudo docker run -d --name gpustack \
--restart unless-stopped \
-p 80:80 \
--volume gpustack-data:/var/lib/gpustack \
gpustack/gpustack
GPUStack の起動ログを確認します:
sudo docker logs -f gpustack
GPUStack が起動したら、以下のコマンドを実行してデフォルトの管理者パスワードを取得します:
sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password
ブラウザを開き、http://あなたのホストIP にアクセスして GPUStack UI にアクセスします。デフォルトのユーザー名 admin と上記で取得したパスワードを使用してログインします。
Clusters ページに移動します。Add Cluster ボタンをクリックします。Docker を選択します。Name と Description フィールドに入力し、Save ボタンをクリックします。UI のガイドラインに従って新しい worker ノードを設定します。worker ノードを GPUStack server に接続するには、worker ノードで Docker コマンドを実行する必要があります。コマンドは以下のようになります:
sudo docker run -d --name gpustack-worker \
--restart=unless-stopped \
--privileged \
--network=host \
--volume /var/run/docker.sock:/var/run/docker.sock \
--volume gpustack-data:/var/lib/gpustack \
--runtime nvidia \
gpustack/gpustack \
--server-url http://your_gpustack_server_url \
--token your_worker_token \
--advertise-address 192.168.1.2
worker ノードでこのコマンドを実行して GPUStack server に接続します。
worker ノードが正常に接続されると、GPUStack UI の Workers ページに表示されます。
GPUStack UIのCatalogページに移動します。
利用可能なモデルのリストからQwen3 0.6Bモデルを選択します。
デプロイ互換性チェックが通過した後、Saveボタンをクリックしてモデルをデプロイします。
Runningと表示されたら、モデルは正常にデプロイされています。Playground - Chatをクリックし、右上のModelドロップダウンからモデルqwen3-0.6bが選択されていることを確認します。これでUIプレイグラウンドでモデルとチャットできるようになります。ユーザーアバターにカーソルを合わせてAPI Keysページに移動し、New API Keyボタンをクリックします。
Nameを入力し、Saveボタンをクリックします。
生成されたAPIキーをコピーし、安全な場所に保存します。このキーは作成時に一度しか確認できないことに注意してください。
これで、このAPIキーを使用して、GPUStackが提供するOpenAI互換のAPIエンドポイントにアクセスできます。例えば、以下のようにcurlを使用します:
# `your_api_key` と `your_gpustack_server_url` を
# 実際のAPIキーとGPUStackサーバーのURLに置き換えてください。
export GPUSTACK_API_KEY=your_api_key
curl http://your_gpustack_server_url/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "qwen3-0.6b",
"messages": [
{
"role": "system",
"content": "あなたは役立つアシスタントです。"
},
{
"role": "user",
"content": "ジョークを教えてください。"
}
],
"stream": true
}'
完全なドキュメントについては、公式ドキュメントサイトを参照してください。
Python(バージョン3.10から3.12)をインストールします。
make buildを実行します。
ビルドされたwheelパッケージはdistディレクトリにあります。
GPUStackへの貢献に興味がある場合は、貢献ガイドをお読みください。
問題がある場合、または提案がある場合は、お気軽に私たちのコミュニティに参加してサポートを受けてください。
Copyright (c) 2024-2026 The GPUStack authors
Apache License, Version 2.0(「ライセンス」)に基づいてライセンスされます。 ライセンスに準拠しない限り、このファイルを使用することはできません。 ライセンスのコピーはLICENSEファイルで入手できます。
適用される法律で要求されない限り、または書面で合意されない限り、本ライセンスに基づいて配布されるソフトウェアは、明示黙示を問わず、いかなる保証も条件もなしに「現状のまま」配布されます。 ライセンスの権利と制限を規定する特定の言語については、ライセンスを参照してください。