概述
jina/jina-embeddings-v2-base-en
是由 Jina AI 开发的文本嵌入模型,支持长达 8192 个 token 的输入序列。
- 模型架构:JinaBERT (对称双向 ALiBi 支持长序列)
- 参数量:137M
- 量化:F16
- 模型大小:274MB
- 许可协议:Apache License 2.0
- 更新时间:8个月前
主要特点:
- 专为英文单语嵌入任务设计。
- 支持长文档处理(语义检索、文本相似性、推荐系统、RAG、LLM 生成搜索等)。
- 模型基于 C4 数据集预训练,并进一步在 Jina AI 的 4 亿多句对和 Hard Negative 样本上进行训练。
模型信息与用途
- 支持序列长度:基础训练支持 512 tokens,但通过 ALiBi 技术扩展到 8192 tokens 或更长。
- 训练数据:C4 数据集 + Jina AI 精选的多领域句对和负样本。
- 适用场景:长文档检索、语义相似性、文本重排、推荐系统、RAG、生成式搜索等。
- 推理建议:推荐使用单 GPU 进行推理。
Jina 提供以下相关模型:
- jina-embeddings-v2-small-en:33M 参数。
- jina-embeddings-v2-base-en:137M 参数(当前模型)。
- jina-embeddings-v2-base-de:德语-英语双语嵌入模型。
- jina-embeddings-v2-base-es:西班牙语-英语双语嵌入模型。
使用方法
1. 拉取模型到本地
运行以下命令将模型拉取到本地磁盘:
ollama pull jina/jina-embeddings-v2-base-en
2. 嵌入模型应用
该模型为嵌入模型,可生成文本的稠密向量。支持通过 REST API、Python 和 JavaScript 调用。
1. 使用 REST API
curl http://localhost:11434/api/embeddings -d '{
"model": "jina/jina-embeddings-v2-base-en",
"prompt": "The sky is blue because of Rayleigh scattering"
}'
2. 使用 Python API
ollama.embeddings(model='jina/jina-embeddings-v2-base-en', prompt='The sky is blue because of Rayleigh scattering')
3. 使用 JavaScript API
ollama.embeddings({ model: 'jina/jina-embeddings-v2-base-en', prompt: 'The sky is blue because of Rayleigh scattering' });
RAG 使用案例
根据 LLamaIndex 的最新博客:
- 在命中率和 MRR(平均排名倒数)方面,使用 OpenAI 或 JinaAI-Base 嵌入模型 与 CohereRerank/bge-reranker-large 重排器的组合表现最佳。
技术报告与参考文档
总结
jina/jina-embeddings-v2-base-en
是一个强大的长文本嵌入模型,具有以下特点:
- 支持长序列:得益于 ALiBi 技术,支持最长 8192 tokens 的输入序列。
- 多任务能力:适用于检索、推荐系统、RAG 和 LLM 生成等任务。
- 高效推理:137M 参数,推理速度快,性能优异。
非常适合处理长文档语义相关任务,是文本嵌入任务的理想选择。