根据补充的资料，我完善了关于 **OpenWebUI** 和 **SGLang** 的信息，并补全了主要开发者国籍及 CPU 支持情况： | 平台名称 | 开发语言 | 主要功能 | 优势 | 劣势 | 适用场景 | 主要开发者国籍 | CPU支持情况 | |---|---|---|---|---|---|---|---| | vLLM | Python | 基于PagedAttention技术的高效LLM推理和服务框架 | 高吞吐量、内存高效、支持多种模型 | 需要GPU支持，配置相对复杂 | 各种NLP任务的高效推理 | 美国 | 对CPU支持有限，主要优化针对GPU | | SGLang | Python | 高效LLM推理框架，支持RadixAttention、批量调度等优化 | 适用于推理、控制流管理，支持多种模型 | 需要GPU支持，配置要求高 | LLM推理、高效推理服务 | 美国 | 有优化但仍主要依赖GPU，在CPU上性能有限 | | llama.cpp | C++ | 优化LLM在多种硬件上的推理性能 | 高性能、支持多种硬件、模型量化 | 模型支持有限，需要构建工具 | 在多种硬件上高效运行LLM | 美国 | 优化了CPU推理性能，支持在CPU上高效运行 | | Ollama | C++ | 提供用户友好的LLM本地部署和运行 | 易于安装和使用、支持多种模型、运行速度快 | 模型库有限，需要用户自行管理模型 | 本地环境中快速部署和运行LLM | 美国 | 支持CPU和GPU运行，优化了CPU性能 | | OpenWebUI | Python, TypeScript | 自托管AI平台，支持Ollama/OpenAI API，具备RAG推理 | 易部署，支持多种插件和访问控制 | 需要手动配置API | 适用于本地私有LLM部署、API管理 | 韩国 | 主要作为Web UI，依赖底层模型的CPU/GPU支持 | | Transformers | Python | 提供丰富的预训练模型和工具，简化LLM的使用 | 自动模型下载、丰富的代码示例、适合实验和学习 | 需要深入的ML和NLP知识，编码和配置要求高 | 实验和学习LLM，快速原型开发 | 法国 | 支持CPU和GPU，但在CPU上性能相对较低 | | LightLLM | Python | 轻量级、高性能的LLM推理和服务框架 | 高吞吐量、内存高效、支持多种模型 | 需要GPU支持，配置相对复杂 | 各种NLP任务的高效推理 | 中国 | 主要优化针对GPU，对CPU支持有限 | | LocalAI | C++ | 在本地环境中快速搭建和运行AI应用 | 离线运行、简洁的API接口、跨平台支持 | 可能缺乏对最新模型的支持 | 智能家居、移动应用、企业内部工具等 | 信息有限 | 主要针对CPU优化，适合在CPU上运行 | 其中： - **OpenWebUI** 的开发者为 **韩国** 的 Timothy Jaeryang Baek。 - **SGLang** 由 **LMSYS CORP** 牵头，主要开发者来自 **美国**（包括斯坦福、UC伯克利等机构）。 - **CPU 支持情况** 主要根据项目的优化方向和适用性补充，SGLang 主要依赖 GPU，但在 CPU 端也有一定优化。

运行模型的平台对比

根据补充的资料，我完善了关于 OpenWebUI 和 SGLang 的信息，并补全了主要开发者国籍及 CPU 支持情况：

其中：