sudo docker run --runtime nvidia --gpus '"device=0,1"' --ipc=host -p 18434:8000 \
-v hf_cache:/root/.cache/huggingface \
-e HF_ENDPOINT=https://hf-mirror.com \
-e HF_HUB_ENABLE_HF_TRANSFER=0 \
--name qwen2-vl \
vllm/vllm-openai:latest \
--model Qwen/Qwen2-VL-7B-Instruct-GPTQ-Int4 \
--max-model-len 16384 \
--tensor-parallel-size 2
说明
- –gpus ‘”device=0,1″‘ 允许容器使用显卡0&显卡1
- -v hf_cache:/root/.cache/huggingface 创建hf_cache卷用于存储hf下载的模型,多个容器共用不用担心容器删了模型重新下一遍
- -e HF_ENDPOINT=https://hf-mirror.com \
-e HF_HUB_ENABLE_HF_TRANSFER=0 \
hf镜像加速 - –max-model-len 16384 设置模型上下文
- –tensor-parallel-size 2 设置vllm最多使用两张显卡进行推理
另一个例子:
sudo docker run --runtime nvidia --gpus '"device=0,1"' --ipc=host -p 18434:8000 \
-v hf_cache:/root/.cache/huggingface \
-e HF_ENDPOINT=https://hf-mirror.com \
-e HF_HUB_ENABLE_HF_TRANSFER=0 \
--name qwen32b \
vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4 \
--max-model-len 28000 \
--tensor-parallel-size 2 \
--dtype half \
--kv_cache_dtype fp8_e5m2
- –dtype half 为不支持bf16精度的显卡更改dtype
- –kv_cache_dtype fp8_e5m2 设置kv_cache的量化,需要查看模型文档查看支持的kv_cache_dtype