Docker多gpu运行VLLM – Motor's Blog

Docker多gpu运行VLLM

2025-1-03 15:49

|

378

|

0

|

AI/ML,服务器/网络相关

181 字

|

2 分钟

sudo docker run --runtime nvidia --gpus '"device=0,1"' --ipc=host -p 18434:8000 \
  -v hf_cache:/root/.cache/huggingface \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e HF_HUB_ENABLE_HF_TRANSFER=0 \
  --name qwen2-vl \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2-VL-7B-Instruct-GPTQ-Int4 \
  --max-model-len 16384 \
  --tensor-parallel-size 2

说明

–gpus ‘”device=0,1″‘ 允许容器使用显卡0&显卡1
-v hf_cache:/root/.cache/huggingface 创建hf_cache卷用于存储hf下载的模型，多个容器共用不用担心容器删了模型重新下一遍
-e HF_ENDPOINT=https://hf-mirror.com \
-e HF_HUB_ENABLE_HF_TRANSFER=0 \
hf镜像加速
–max-model-len 16384 设置模型上下文
–tensor-parallel-size 2 设置vllm最多使用两张显卡进行推理

另一个例子：

sudo docker run --runtime nvidia --gpus '"device=0,1"' --ipc=host -p 18434:8000 \
  -v hf_cache:/root/.cache/huggingface \
  -e HF_ENDPOINT=https://hf-mirror.com \
  -e HF_HUB_ENABLE_HF_TRANSFER=0 \
  --name qwen32b \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4 \
  --max-model-len 28000 \
  --tensor-parallel-size 2 \
  --dtype half \
  --kv_cache_dtype fp8_e5m2

–dtype half 为不支持bf16精度的显卡更改dtype
–kv_cache_dtype fp8_e5m2 设置kv_cache的量化，需要查看模型文档查看支持的kv_cache_dtype

相关

作者：motorbottle
链接： https://blog.motorbottle.site/archives/368
来源：Motor's Blog
版权声明：本博客所有文章除特别声明（如【转载】）外，均采用CC BY-NC-SA 4.0许可协议。文章版权归作者所有，未经允许请勿转载！

暂无评论

发送评论编辑评论

Markdown

|´・ω・)ノ

ヾ(≧∇≦*)ゝ

(☆ω☆)

（╯‵□′）╯︵┴─┴

￣﹃￣

(/ω＼)

∠( ᐛ 」∠)＿

(๑•̀ㅁ•́ฅ)

→_→

୧(๑•̀⌄•́๑)૭

٩(ˊᗜˋ*)و

(ノ°ο°)ノ

(´இ皿இ｀)

⌇●﹏●⌇

(ฅ´ω`ฅ)

(╯°A°)╯︵○○○

φ(￣∇￣o)

ヾ(´･･｀｡)ノ"

( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃

(ó﹏ò｡)

Σ(っ °Д °;)っ

( ,,´･ω･)ﾉ"(´っω･｀｡)

╮(╯▽╰)╭

o(*////▽////*)q

＞﹏＜

( ๑´•ω•) "(ㆆᴗㆆ)

颜文字

Emoji

小恐龙

花!