关于 vLLM
vLLM 是一个快速且易于使用的大语言模型(LLM)推理与服务库。
最初由 加州大学伯克利分校 Sky Computing Lab 开发,vLLM 现已发展为一个由学术界和工业界共同驱动的开源项目。
vLLM 的高性能特性
- 最先进的推理吞吐量
- PagedAttention 技术,实现高效的注意力键值(KV)内存管理
- 连续批处理(Continuous Batching)优化请求处理
- CUDA/HIP 图计算(CUDA/HIP Graph)加速模型执行
- 多种量化技术:GPTQ、AWQ、INT4、INT8、FP8
- 优化的 CUDA 内核,支持 FlashAttention 和 FlashInfer 集成
- 推测解码(Speculative Decoding)
- 分块预填充(Chunked Prefill)
性能基准测试
vLLM 的性能基准测试数据可在官方博客中查看,支持 TensorRT-LLM、SGLang 和 LMDeploy 的对比测试。测试实现可在 nightly-benchmarks
目录下找到,并可使用一键运行脚本复现。
vLLM 的灵活性与易用性
- 无缝兼容 Hugging Face 生态,支持热门开源 LLM
- 高吞吐推理,支持 并行采样、束搜索等解码算法
- 分布式推理:支持 张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)
- 流式输出(Streaming Outputs)
- OpenAI 兼容 API 服务器
- 广泛的硬件支持:
- NVIDIA GPU
- AMD CPU & GPU
- Intel CPU & GPU
- PowerPC CPU
- TPU
- AWS Neuron
- 前缀缓存(Prefix Caching)
- 多 LoRA 支持(Multi-LoRA)
支持的模型
vLLM 兼容 Hugging Face 上的 主流开源模型,包括:
- 类 Transformer 结构的 LLM(如 Llama)
- 专家混合(MoE)模型(如 Mixtral、Deepseek-V2/V3)
- 嵌入模型(如 E5-Mistral)
- 多模态 LLM(如 LLaVA)
完整支持模型列表
点击查看
快速上手
安装 vLLM
pip install vllm
查看官方文档
点击这里
贡献与支持
我们欢迎 社区贡献者 共同推进 vLLM 的发展!请查阅 贡献指南 参与其中。
资金支持
感谢以下组织对 vLLM 社区的资助!
现金捐助方:
- a16z
- Dropbox
- 红杉资本(Sequoia Capital)
- Skywork AI
- 真格基金(ZhenFund)
计算资源提供方:
- AMD、AWS、Google Cloud、NVIDIA
- Anyscale、Databricks、DeepInfra
- Crusoe Cloud、Lambda Lab、Nebius
- Novita AI、Replicate、Roblox
- RunPod、Trainy
- UC Berkeley、UC San Diego
Slack 赞助方:Anyscale
官方募资渠道:OpenCollective
论文引用
如果 vLLM 对您的研究有帮助,请引用以下论文:
@inproceedings{kwon2023efficient,
title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
year={2023}
}
联系我们
- 技术问题 & 功能请求:请在 GitHub Issues 或 Discussions 提问
- 社区讨论 & 贡献协作:加入 Slack 频道
- 安全问题披露:请使用 GitHub 的 Security Advisory 功能
- 合作 & 商务联系:请发送邮件至 vllm-questions@lists.berkeley.edu
媒体使用:如需使用 vLLM 的 Logo,请参考 媒体资源库
vLLM,助力高效 LLM 推理!