GPUStack: 대규모 언어 모델을 실행하고 LLM을 위한 공통 추론 서비스를 빠르게 통합하기 위해 GPU 클러스터를 관리합니다.

최신 AI 도구8 개월 전에 게시 됨 Sharenet.ai
1.4K 0
吐司AI

일반 소개

GPUStack 是一个开源的 GPU 集群管理工具,专为运行大语言模型(LLMs)而设计。它支持多种硬件,包括 Apple MacBooks、Windows PCs 和 Linux 服务器,能够轻松扩展 GPU 数量和节点,以满足不断增长的计算需求。GPUStack 提供分布式推理功能,支持单节点多 GPU 和多节点推理与服务,兼容 OpenAI API,简化用户和 API 密钥管理,并实时监控 GPU 性能和利用率。其轻量级 Python 包设计,确保最小的依赖和操作开销,是开发者和研究人员的理想选择。

GPUStack:管理GPU集群运行大语言模型,快速集成LLMs常用推理服务。

 

기능 목록

  • 支持多种硬件:兼容 Apple Metal、NVIDIA CUDA、Ascend CANN、Moore Threads MUSA 等。
  • 分布式推理:支持单节点多 GPU 和多节点推理与服务。
  • 多种推理后端:支持 llama-box(llama.cpp)和 vLLM。
  • 轻量级 Python 包:最小依赖和操作开销。
  • OpenAI 兼容 API:提供与 OpenAI 标准兼容的 API 服务。
  • 用户和 API 密钥管理:简化用户和 API 密钥管理。
  • GPU 性能监控:实时监控 GPU 性能和利用率。
  • 令牌使用和速率监控:有效管理令牌使用和速率限制。

 

도움말 사용

설치 프로세스

Linux 或 MacOS

  1. 打开终端。
  2. 运行以下命令安装 GPUStack:
   curl -sfL https://get.gpustack.ai | sh -s -
  1. 安装完成后,GPUStack 将作为服务运行在 systemd 或 launchd 系统上。

Windows(컴퓨터)

  1. 以管理员身份运行 PowerShell(避免使用 PowerShell ISE)。
  2. 运行以下命令安装 GPUStack:
   Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content

사용 가이드라인

初始设置

  1. 访问 GPUStack UI:在浏览器中打开 http://myserver.
  2. 使用默认用户名 admin 和初始密码登录。获取初始密码的方法:
    • Linux 或 MacOS:运行 cat /var/lib/gpustack/initial_admin_password.
    • Windows:运行 Get-Content -Path "$env:APPDATA\gpustack\initial_admin_password" -Raw.

创建 API 密钥

  1. 登录 GPUStack UI 后,点击导航菜单中的“API Keys”。
  2. 点击“New API Key”按钮,填写名称并保存。
  3. 复制生成的 API 密钥并妥善保存(仅在创建时可见)。

使用 API

  1. 환경 변수 설정하기:
   export GPUSTACK_API_KEY=myapikey
  1. 使用 curl 访问 OpenAI 兼容 API:
   curl http://myserver/v1-openai/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GPUSTACK_API_KEY" \
-d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"stream": true
}'

运行和聊天

  1. 在终端中运行以下命令与 llama3.2 模型聊天:
   gpustack chat llama3.2 "tell me a joke."
  1. 在 GPUStack UI 中点击“Playground”进行交互。

监控和管理

  1. 实时监控 GPU 性能和利用率。
  2. 管理用户和 API 密钥,跟踪令牌使用和速率。

支持的模型和平台

  • 支持的模型:LLaMA、Mistral 7B、Mixtral MoE、Falcon、Baichuan、Yi、Deepseek、Qwen、Phi、Grok-1 等。
  • 支持的多模态模型:Llama3.2-Vision、Pixtral、Qwen2-VL、LLaVA、InternVL2 等。
  • 支持的平台:MacOS、Linux、Windows。
  • 支持的加速器:Apple Metal、NVIDIA CUDA、Ascend CANN、Moore Threads MUSA,未来计划支持 AMD ROCm、Intel oneAPI、Qualcomm AI Engine。

文档和社区

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...