🚀 Sarashina-Embedding-v1-1B
"Sarashina-Embedding-v1-1B" 是一個日語文本嵌入模型,它基於擁有 12 億參數的日語大語言模型 "Sarashina2.1-1B"。該模型通過多階段對比學習進行訓練,在 JMTEB(日語大規模文本嵌入基準測試)的 16 個數據集中取得了最先進的平均分數。此模型可將句子和段落映射到 1792 維的密集向量空間,適用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等應用場景。
🚀 快速開始
安裝依賴
首先,你需要安裝 Sentence Transformers
庫:
pip install -U sentence-transformers
加載模型並進行推理
以下是一個使用示例:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
sentences = [
'更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
注意事項
⚠️ 重要提示
✨ 主要特性
- 基於 12 億參數的日語大語言模型 "Sarashina2.1-1B" 構建。
- 通過多階段對比學習訓練,在 JMTEB 基準測試中表現優異。
- 可將文本映射到 1792 維的密集向量空間,適用於多種自然語言處理任務。
📚 詳細文檔
模型詳情
模型描述
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel
(1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)
訓練過程
"Sarashina-Embedding-v1-1B" 是通過以下兩階段學習過程創建的:
階段 1:弱監督學習
為了在廣泛的領域中實現通用的文本嵌入性能,我們對由自有網絡爬取數據和開放數據組成的弱監督數據進行了對比訓練。
數據集
數據集 |
數量 |
Auto Wiki QA/NLI |
50,521,135 |
網絡爬取數據(自有) |
47,370,649 |
MQA |
12,941,472 |
llm-japanese-dataset |
9,074,340 |
Wikipedia |
5,555,212 |
問答數據集(自有) |
988,478 |
Natural Questions |
132,796 |
JSQuAD |
62,859 |
SNOW(T15+T23) |
62,758 |
JaQuAD |
31,746 |
MKQA |
3,318 |
總計 |
126,744,763 |
步驟 2:有監督微調
為了使模型能夠學習更準確的查詢 - 文檔相似度,我們使用以下數據集進行了有監督微調。
數據集
📄 許可證
此模型遵循 Sarashina 模型非商業許可協議。
如果您有商業使用此模型的意向,請通過 聯繫頁面 與我們聯繫。
[^oai]: 於 2024 年 4 月 23 日進行基準測試。
日本語のREADME/Japanese README