关于 vLLM

vLLM 是一个快速且易于使用的大语言模型(LLM)推理与服务库。

最初由 加州大学伯克利分校 Sky Computing Lab 开发,vLLM 现已发展为一个由学术界和工业界共同驱动的开源项目。


🚀 vLLM 的高性能特性

  • 最先进的推理吞吐量
  • PagedAttention 技术,实现高效的注意力键值(KV)内存管理
  • 连续批处理(Continuous Batching)优化请求处理
  • CUDA/HIP 图计算(CUDA/HIP Graph)加速模型执行
  • 多种量化技术:GPTQ、AWQ、INT4、INT8、FP8
  • 优化的 CUDA 内核,支持 FlashAttention 和 FlashInfer 集成
  • 推测解码(Speculative Decoding)
  • 分块预填充(Chunked Prefill)

📊 性能基准测试
vLLM 的性能基准测试数据可在官方博客中查看,支持 TensorRT-LLM、SGLang 和 LMDeploy 的对比测试。测试实现可在 nightly-benchmarks 目录下找到,并可使用一键运行脚本复现。


🛠 vLLM 的灵活性与易用性

  • 无缝兼容 Hugging Face 生态,支持热门开源 LLM
  • 高吞吐推理,支持 并行采样、束搜索等解码算法
  • 分布式推理:支持 张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)
  • 流式输出(Streaming Outputs)
  • OpenAI 兼容 API 服务器
  • 广泛的硬件支持
    • NVIDIA GPU
    • AMD CPU & GPU
    • Intel CPU & GPU
    • PowerPC CPU
    • TPU
    • AWS Neuron
  • 前缀缓存(Prefix Caching)
  • 多 LoRA 支持(Multi-LoRA)

📌 支持的模型

vLLM 兼容 Hugging Face 上的 主流开源模型,包括:

  • 类 Transformer 结构的 LLM(如 Llama
  • 专家混合(MoE)模型(如 Mixtral、Deepseek-V2/V3
  • 嵌入模型(如 E5-Mistral
  • 多模态 LLM(如 LLaVA

📜 完整支持模型列表 👉 点击查看


📌 快速上手

📥 安装 vLLM

pip install vllm

📖 查看官方文档 👉 点击这里

🔹 安装指南
🔹 快速入门
🔹 支持的模型列表
🔹 如何贡献


🤝 贡献与支持

我们欢迎 社区贡献者 共同推进 vLLM 的发展!请查阅 贡献指南 参与其中。

💰 资金支持

感谢以下组织对 vLLM 社区的资助!

💸 现金捐助方

  • a16z
  • Dropbox
  • 红杉资本(Sequoia Capital)
  • Skywork AI
  • 真格基金(ZhenFund)

🖥️ 计算资源提供方

  • AMD、AWS、Google Cloud、NVIDIA
  • Anyscale、Databricks、DeepInfra
  • Crusoe Cloud、Lambda Lab、Nebius
  • Novita AI、Replicate、Roblox
  • RunPod、Trainy
  • UC Berkeley、UC San Diego

📌 Slack 赞助方Anyscale
📌 官方募资渠道OpenCollective


📚 论文引用

如果 vLLM 对您的研究有帮助,请引用以下论文:

@inproceedings{kwon2023efficient,
  title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
  author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
  booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
  year={2023}
}

📞 联系我们

📢 媒体使用:如需使用 vLLM 的 Logo,请参考 媒体资源库


vLLM,助力高效 LLM 推理!🚀