GPUStack 是一个开源的 GPU 集群管理器,专为高效的 AI 模型部署而设计。它配置和编排推理引擎(vLLM、SGLang、TensorRT-LLM 或您自定义的引擎),以优化跨 GPU 集群的性能。其核心功能包括:
GPUStack 使开发团队、IT 组织和服务提供商能够大规模地提供模型即服务。它支持用于 LLM、语音、图像和视频模型的行业标准 API。该平台内置用户认证和访问控制、GPU 性能和利用率的实时监控,以及令牌使用量和 API 请求率的详细计量。
下图展示了单个 GPUStack 服务器如何管理跨本地和云环境的多个 GPU 集群。GPUStack 调度器分配 GPU 以最大化资源利用率,并选择合适的推理引擎以实现最佳性能。管理员还可以通过集成的 Grafana 和 Prometheus 仪表板全面了解系统运行状况和指标。
GPUStack 的自动化引擎选择和参数优化可开箱即用地提供强大的推理性能。下图展示了相较于默认 vLLM 配置的吞吐量提升:
有关详细的基准测试方法和结果,请访问我们的 推理性能实验室。
GPUStack 支持多种 AI 推理加速器:
有关详细的要求和设置说明,请参阅安装要求文档。
运行以下命令,使用 Docker 安装并启动 GPUStack server:
sudo docker run -d --name gpustack \
--restart unless-stopped \
-p 80:80 \
--volume gpustack-data:/var/lib/gpustack \
gpustack/gpustack
检查 GPUStack 启动日志:
sudo docker logs -f gpustack
GPUStack 启动后,运行以下命令获取默认管理员密码:
sudo docker exec gpustack cat /var/lib/gpustack/initial_admin_password
打开浏览器,访问 http://你的主机IP 以进入 GPUStack UI。使用默认用户名 admin 和上面获取的密码登录。
集群 页面。添加集群 按钮。Docker 作为集群提供商。名称 和 描述 字段,然后点击 保存 按钮。按照界面指南配置新的 worker 节点。你需要在 worker 节点上运行一个 Docker 命令以将其连接到 GPUStack server。命令将类似于以下内容:
sudo docker run -d --name gpustack-worker \
--restart=unless-stopped \
--privileged \
--network=host \
--volume /var/run/docker.sock:/var/run/docker.sock \
--volume gpustack-data:/var/lib/gpustack \
--runtime nvidia \
gpustack/gpustack \
--server-url http://你的_gpustack_server_url \
--token 你的_worker_token \
--advertise-address 192.168.1.2
在 worker 节点上执行该命令以连接到 GPUStack server。
worker 节点成功连接后,它将出现在 GPUStack UI 的 Workers 页面中。
Catalog 页面。Qwen3 0.6B 模型。Save 按钮部署模型。Running 时,表示模型已成功部署。Playground - Chat,检查右上角 Model 下拉菜单中是否选中了 qwen3-0.6b 模型。现在您可以在 UI playground 中与模型聊天了。API Keys 页面,然后点击 New API Key 按钮。Name 并点击 Save 按钮。您现在可以使用该 API 密钥访问 GPUStack 提供的 OpenAI 兼容 API 端点。例如,使用 curl 如下所示:
# 将 `your_api_key` 和 `your_gpustack_server_url`
# 替换为您实际的 API 密钥和 GPUStack 服务器 URL。
export GPUSTACK_API_KEY=your_api_key
curl http://your_gpustack_server_url/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "qwen3-0.6b",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Tell me a joke."
}
],
"stream": true
}'
请参阅 官方文档站点 获取完整文档。
make build。您可以在 dist 目录中找到构建好的 wheel 包。
如果您有兴趣为 GPUStack 做贡献,请阅读 贡献指南。
扫码加入社区群:
版权所有 (c) 2024-2026 GPUStack 作者
根据 Apache License, Version 2.0("许可证")授权; 除非符合许可证,否则您不得使用此文件。 您可以在 LICENSE 文件中获取许可证副本。
除非适用法律要求或书面同意,根据许可证分发的软件按"原样"分发,无任何明示或暗示的担保或条件。 请参阅许可证中规定的特定语言管理权限及许可证下的限制。