Docker多gpu运行VLLM
sudo docker run --runtime nvidia --gpus '"device=0,1"' --ipc=host -p 18434:8000 \
  -v hf_cache:/root/.cache/huggingface \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e HF_HUB_ENABLE_HF_TRANSFER=0 \
  --name qwen2-vl \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2-VL-7B-Instruct-GPTQ-Int4 \
  --max-model-len 16384 \
  --tensor-parallel-size 2

说明

  • –gpus ‘”device=0,1″‘ 允许容器使用显卡0&显卡1
  • -v hf_cache:/root/.cache/huggingface 创建hf_cache卷用于存储hf下载的模型,多个容器共用不用担心容器删了模型重新下一遍
  • -e HF_ENDPOINT=https://hf-mirror.com \
    -e HF_HUB_ENABLE_HF_TRANSFER=0 \
    hf镜像加速
  • –max-model-len 16384 设置模型上下文
  • –tensor-parallel-size 2 设置vllm最多使用两张显卡进行推理

另一个例子:

sudo docker run --runtime nvidia --gpus '"device=0,1"' --ipc=host -p 18434:8000 \
  -v hf_cache:/root/.cache/huggingface \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e HF_HUB_ENABLE_HF_TRANSFER=0 \
  --name qwen32b \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4 \
  --max-model-len 28000 \
  --tensor-parallel-size 2 \
  --dtype half \
  --kv_cache_dtype fp8_e5m2
  • –dtype half 为不支持bf16精度的显卡更改dtype
  • –kv_cache_dtype fp8_e5m2 设置kv_cache的量化,需要查看模型文档查看支持的kv_cache_dtype
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇