模型简介
模型特点
模型能力
使用案例
🚀 Salesforce/SFR-Embedding-Code-2B_R
SFR-Embedding 由 Salesforce Research 研发。
Salesforce/SFR-Embedding-Code 是一个通用的嵌入模型家族,用于多语言和多任务的代码与文本检索。在多个代码检索任务中,与各种开源代码嵌入模型相比,它表现出了卓越的性能。
查看我们的 论文 以了解更多详情!
我们还提供 400M 规模的模型 Salesforce/SFR-Embedding-Code-400_R
🚀 快速开始
运行示例
本项目提供了使用 Transformers
和 Sentence Transformers
库运行模型的示例代码,你可以参考以下代码进行尝试。
✨ 主要特性
- 多语言多任务支持:适用于多语言和多任务的代码与文本检索。
- 性能卓越:在多个代码检索任务中,相比各种开源代码嵌入模型表现更优。
📚 详细文档
伦理考量
本版本仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前,评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导,请参考我们的 AUP 和 AI AUP。
许可证声明
用户需要自行评估与原始数据集和数据对应的许可证或条款和条件下的任何义务或责任。本版本仅用于支持学术论文的研究目的。
此发布的模型是 Gemma 的微调版本,Gemma 是根据 ai.google.dev/gemma/terms 中的 Gemma 使用条款提供并受其约束。此外,此模型的使用受到 ai.google.dev/gemma/prohibited_use_policy(“禁止使用政策”)中规定的限制,该政策特此通过引用并入本协议。
CoIR 基准测试性能
模型 | 模型大小 | CoIR AVG (NDCG@10) |
---|---|---|
SFR-Embedding-Code | 2B | 67.4 |
CodeSage-Large-v2 | 1.3B | 64.2 |
CodeSage-Large | 1.3B | 61.0 |
SFR-Embedding-Code | 400M | 61.9 |
CodeRankEmbed | 137M | 60.1 |
CodeSage-Base | 356M | 57.5 |
Voyage-Code-002 | - | 56.3 |
CodeSage-Small | 130M | 54.4 |
团队成员
SFR-Embedding 团队(† 表示联合负责人)
- Ye Liu
- Rui Meng
- Shafiq Rayhan Joty
- Silvio Savarese
- Caiming Xiong †
- Yingbo Zhou †
- Semih Yavuz †
💻 使用示例
基础用法
Transformers
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]
# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]
# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)
# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)
# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
# [[69.26929473876953, 58.41606903076172]]
Sentence Transformers
from sentence_transformers import SentenceTransformer
# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Instruct: Given Code or Text, retrieval relevant content\nQuery: "
queries = ["how to implement quick sort in Python?"]
# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]
# Load the Sentence Transformer model, including pooling
model = SentenceTransformer('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)
# Compute the embeddings for both queries and passages. Use 'prompt' for queries only
query_embeddings = model.encode(queries, prompt=query_instruction_example)
passage_embeddings = model.encode(passages)
# Compute the similarities between the queries and passages
similarities = model.similarity(query_embeddings, passage_embeddings)
print(similarities)
# tensor([[0.6927, 0.5842]])
引用
@article{liu2024codexembed,
title={CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval},
author={Liu, Ye and Meng, Rui and Jot, Shafiq and Savarese, Silvio and Xiong, Caiming and Zhou, Yingbo and Yavuz, Semih},
journal={arXiv preprint arXiv:2411.12644},
year={2024}
}
📄 许可证
本项目采用 CC BY-NC 4.0 许可证。用户需要自行评估与原始数据集和数据对应的许可证或条款和条件下的任何义务或责任。此发布的模型是 Gemma 的微调版本,Gemma 是根据 ai.google.dev/gemma/terms 中的 Gemma 使用条款提供并受其约束。此外,此模型的使用受到 ai.google.dev/gemma/prohibited_use_policy(“禁止使用政策”)中规定的限制。







