### 关于 vLLM vLLM 是一个快速且易于使用的大语言模型（LLM）推理与服务库。最初由 **加州大学伯克利分校 Sky Computing Lab** 开发，vLLM 现已发展为一个由学术界和工业界共同驱动的开源项目。 --- ### 🚀 **vLLM 的高性能特性** - **最先进的推理吞吐量** - **PagedAttention** 技术，实现高效的注意力键值（KV）内存管理 - **连续批处理**（Continuous Batching）优化请求处理 - **CUDA/HIP 图计算**（CUDA/HIP Graph）加速模型执行 - **多种量化技术**：GPTQ、AWQ、INT4、INT8、FP8 - **优化的 CUDA 内核**，支持 FlashAttention 和 FlashInfer 集成 - **推测解码**（Speculative Decoding） - **分块预填充**（Chunked Prefill） 📊 **性能基准测试** vLLM 的性能基准测试数据可在官方博客中查看，支持 TensorRT-LLM、SGLang 和 LMDeploy 的对比测试。测试实现可在 `nightly-benchmarks` 目录下找到，并可使用一键运行脚本复现。 --- ### 🛠 **vLLM 的灵活性与易用性** - **无缝兼容 Hugging Face 生态**，支持热门开源 LLM - **高吞吐推理**，支持 **并行采样、束搜索等解码算法** - **分布式推理**：支持 **张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）** - **流式输出**（Streaming Outputs） - **OpenAI 兼容 API 服务器** - **广泛的硬件支持**： - **NVIDIA GPU** - **AMD CPU & GPU** - **Intel CPU & GPU** - **PowerPC CPU** - **TPU** - **AWS Neuron** - **前缀缓存（Prefix Caching）** - **多 LoRA 支持（Multi-LoRA）** ### 📌 **支持的模型** vLLM 兼容 Hugging Face 上的 **主流开源模型**，包括： - **类 Transformer 结构的 LLM**（如 **Llama**） - **专家混合（MoE）模型**（如 **Mixtral、Deepseek-V2/V3**） - **嵌入模型**（如 **E5-Mistral**） - **多模态 LLM**（如 **LLaVA**） 📜 **完整支持模型列表** 👉 [点击查看](https://github.com/vllm/vllm) --- ### 📌 **快速上手** 📥 **安装 vLLM** ```sh pip install vllm ``` 📖 **查看官方文档** 👉 [点击这里](https://github.com/vllm/vllm) 🔹 [安装指南](https://github.com/vllm/vllm#installation) 🔹 [快速入门](https://github.com/vllm/vllm#quickstart) 🔹 [支持的模型列表](https://github.com/vllm/vllm#list-of-supported-models) 🔹 [如何贡献](https://github.com/vllm/vllm/blob/main/CONTRIBUTING.md) --- ### 🤝 **贡献与支持** 我们欢迎 **社区贡献者** 共同推进 vLLM 的发展！请查阅 [贡献指南](https://github.com/vllm/vllm/blob/main/CONTRIBUTING.md) 参与其中。 #### 💰 **资金支持** 感谢以下组织对 vLLM 社区的资助！ **💸 现金捐助方**： - **a16z** - **Dropbox** - **红杉资本（Sequoia Capital）** - **Skywork AI** - **真格基金（ZhenFund）** **🖥️ 计算资源提供方**： - **AMD、AWS、Google Cloud、NVIDIA** - **Anyscale、Databricks、DeepInfra** - **Crusoe Cloud、Lambda Lab、Nebius** - **Novita AI、Replicate、Roblox** - **RunPod、Trainy** - **UC Berkeley、UC San Diego** 📌 **Slack 赞助方**：**Anyscale** 📌 **官方募资渠道**：[OpenCollective](https://opencollective.com/vllm) --- ### 📚 **论文引用** 如果 vLLM 对您的研究有帮助，请引用以下论文： ```bibtex @inproceedings{kwon2023efficient, title={Efficient Memory Management for Large Language Model Serving with PagedAttention}, author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica}, booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles}, year={2023} } ``` --- ### 📞 **联系我们** - **技术问题 & 功能请求**：请在 [GitHub Issues](https://github.com/vllm/vllm/issues) 或 [Discussions](https://github.com/vllm/vllm/discussions) 提问 - **社区讨论 & 贡献协作**：加入 [Slack](https://vllm.slack.com) 频道 - **安全问题披露**：请使用 GitHub 的 **Security Advisory** 功能 - **合作 & 商务联系**：请发送邮件至 **vllm-questions@lists.berkeley.edu** 📢 **媒体使用**：如需使用 vLLM 的 Logo，请参考 [媒体资源库](https://github.com/vllm/media-kit) --- **vLLM，助力高效 LLM 推理！🚀**

关于 vLLM

Taimu

关于 vLLM

vLLM 是一个快速且易于使用的大语言模型（LLM）推理与服务库。

最初由 加州大学伯克利分校 Sky Computing Lab 开发，vLLM 现已发展为一个由学术界和工业界共同驱动的开源项目。

🚀 vLLM 的高性能特性

最先进的推理吞吐量
PagedAttention 技术，实现高效的注意力键值（KV）内存管理
连续批处理（Continuous Batching）优化请求处理
CUDA/HIP 图计算（CUDA/HIP Graph）加速模型执行
多种量化技术：GPTQ、AWQ、INT4、INT8、FP8
优化的 CUDA 内核，支持 FlashAttention 和 FlashInfer 集成
推测解码（Speculative Decoding）
分块预填充（Chunked Prefill）

📊 性能基准测试
vLLM 的性能基准测试数据可在官方博客中查看，支持 TensorRT-LLM、SGLang 和 LMDeploy 的对比测试。测试实现可在 nightly-benchmarks 目录下找到，并可使用一键运行脚本复现。

🛠 vLLM 的灵活性与易用性

无缝兼容 Hugging Face 生态，支持热门开源 LLM
高吞吐推理，支持 并行采样、束搜索等解码算法
分布式推理：支持 张量并行（Tensor Parallelism）和流水线并行（Pipeline Parallelism）
流式输出（Streaming Outputs）
OpenAI 兼容 API 服务器
广泛的硬件支持：
- NVIDIA GPU
- AMD CPU & GPU
- Intel CPU & GPU
- PowerPC CPU
- TPU
- AWS Neuron
前缀缓存（Prefix Caching）
多 LoRA 支持（Multi-LoRA）

📌 支持的模型

vLLM 兼容 Hugging Face 上的 主流开源模型，包括：

类 Transformer 结构的 LLM（如 Llama）
专家混合（MoE）模型（如 Mixtral、Deepseek-V2/V3）
嵌入模型（如 E5-Mistral）
多模态 LLM（如 LLaVA）

📜 完整支持模型列表 👉 点击查看

📌 快速上手

📥 安装 vLLM

pip install vllm

📖 查看官方文档 👉 点击这里

🔹 安装指南
🔹 快速入门
🔹 支持的模型列表
🔹 如何贡献

🤝 贡献与支持

我们欢迎 社区贡献者 共同推进 vLLM 的发展！请查阅贡献指南参与其中。

💰 资金支持

感谢以下组织对 vLLM 社区的资助！

💸 现金捐助方：

a16z
Dropbox
红杉资本（Sequoia Capital）
Skywork AI
真格基金（ZhenFund）

🖥️ 计算资源提供方：

AMD、AWS、Google Cloud、NVIDIA
Anyscale、Databricks、DeepInfra
Crusoe Cloud、Lambda Lab、Nebius
Novita AI、Replicate、Roblox
RunPod、Trainy
UC Berkeley、UC San Diego

📌 Slack 赞助方：Anyscale
📌 官方募资渠道：OpenCollective

📚 论文引用

如果 vLLM 对您的研究有帮助，请引用以下论文：

@inproceedings{kwon2023efficient,
  title={Efficient Memory Management for Large Language Model Serving with PagedAttention},
  author={Woosuk Kwon and Zhuohan Li and Siyuan Zhuang and Ying Sheng and Lianmin Zheng and Cody Hao Yu and Joseph E. Gonzalez and Hao Zhang and Ion Stoica},
  booktitle={Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles},
  year={2023}
}

📞 联系我们

技术问题 & 功能请求：请在 GitHub Issues 或 Discussions 提问
社区讨论 & 贡献协作：加入 Slack 频道
安全问题披露：请使用 GitHub 的 Security Advisory 功能
合作 & 商务联系：请发送邮件至 vllm-questions@lists.berkeley.edu

📢 媒体使用：如需使用 vLLM 的 Logo，请参考媒体资源库

vLLM，助力高效 LLM 推理！🚀