🚀 Sarashina-Embedding-v1-1B
"Sarashina-Embedding-v1-1B" 是一个日语文本嵌入模型,它基于拥有 12 亿参数的日语大语言模型 "Sarashina2.1-1B"。该模型通过多阶段对比学习进行训练,在 JMTEB(日语大规模文本嵌入基准测试)的 16 个数据集中取得了最先进的平均分数。此模型可将句子和段落映射到 1792 维的密集向量空间,适用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等应用场景。
🚀 快速开始
安装依赖
首先,你需要安装 Sentence Transformers
库:
pip install -U sentence-transformers
加载模型并进行推理
以下是一个使用示例:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
sentences = [
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
注意事项
⚠️ 重要提示
✨ 主要特性
- 基于 12 亿参数的日语大语言模型 "Sarashina2.1-1B" 构建。
- 通过多阶段对比学习训练,在 JMTEB 基准测试中表现优异。
- 可将文本映射到 1792 维的密集向量空间,适用于多种自然语言处理任务。
📚 详细文档
模型详情
模型描述
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel
(1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)
训练过程
"Sarashina-Embedding-v1-1B" 是通过以下两阶段学习过程创建的:
阶段 1:弱监督学习
为了在广泛的领域中实现通用的文本嵌入性能,我们对由自有网络爬取数据和开放数据组成的弱监督数据进行了对比训练。
数据集
数据集 |
数量 |
Auto Wiki QA/NLI |
50,521,135 |
网络爬取数据(自有) |
47,370,649 |
MQA |
12,941,472 |
llm-japanese-dataset |
9,074,340 |
Wikipedia |
5,555,212 |
问答数据集(自有) |
988,478 |
Natural Questions |
132,796 |
JSQuAD |
62,859 |
SNOW(T15+T23) |
62,758 |
JaQuAD |
31,746 |
MKQA |
3,318 |
总计 |
126,744,763 |
步骤 2:有监督微调
为了使模型能够学习更准确的查询 - 文档相似度,我们使用以下数据集进行了有监督微调。
数据集
📄 许可证
此模型遵循 Sarashina 模型非商业许可协议。
如果您有商业使用此模型的意向,请通过 联系页面 与我们联系。
[^oai]: 于 2024 年 4 月 23 日进行基准测试。
日本語のREADME/Japanese README