開源免費sarashina-embedding-v1-1b文本嵌入模型，在日語處理上表現優異

首頁

Sarashina Embedding V1 1b

由sbintuitions開發

基於12億參數日語大語言模型開發的文本嵌入模型，在JMTEB基準測試中表現優異

文本嵌入

Transformers

支持多種語言#日語文本嵌入 #8192長文本支持 #1792維稠密向量

下載量 23.85k

發布時間 : 11/22/2024

模型概述

更級嵌入模型v1-1B是基於日語大語言模型的文本嵌入模型，能將句子和段落映射到1792維稠密向量空間，適用於語義文本相似度計算、語義搜索等多種場景

模型特點

高維稠密向量

輸出1792維稠密向量，能更精細地捕捉語義信息

長文本支持

最大支持8192個token的長文本處理

多階段訓練

通過弱監督學習和監督微調兩階段訓練，提升模型性能

日語優化

專門針對日語文本進行優化，在JMTEB基準測試中表現優異

模型能力

語義文本相似度計算

語義搜索

複述挖掘

文本分類

聚類分析

使用案例

信息檢索

文檔檢索

根據查詢語義快速檢索相關文檔

在JMTEB檢索任務中得分77.61

文本分析

文本相似度計算

計算兩段文本的語義相似度

在JMTEB語義相似度任務中得分82.71

文本聚類

將語義相似的文本自動分組

在JMTEB聚類任務中得分53.86

🚀 Sarashina-Embedding-v1-1B

"Sarashina-Embedding-v1-1B" 是一個日語文本嵌入模型，它基於擁有 12 億參數的日語大語言模型 "Sarashina2.1-1B"。該模型通過多階段對比學習進行訓練，在 JMTEB（日語大規模文本嵌入基準測試）的 16 個數據集中取得了最先進的平均分數。此模型可將句子和段落映射到 1792 維的密集向量空間，適用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等應用場景。

🚀 快速開始

安裝依賴

首先，你需要安裝 Sentence Transformers 庫：

pip install -U sentence-transformers

加載模型並進行推理

以下是一個使用示例：

from sentence_transformers import SentenceTransformer

# 從 🤗 Hub 下載模型
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
# 運行推理
sentences = [
    '更級日記は、平安時代中期に菅原孝標女によって書かれた回想録です。',
    'Sarashinaは、SB Intuitionsが開発した日本語大規模言語モデルです。これまでに7B, 13B, 70B, 8x70Bのモデルが公開されています。',
    'サラシナエンベディングは日本語言語モデルをベースにした日本語埋め込みモデルです。'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1792]

# 獲取嵌入向量之間的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

注意事項

⚠️ 重要提示

輸入句子開頭無需添加 "Query: " 和 "Document: " 等前綴。

此模型遵循 Sarashina 模型非商業許可協議，對商業使用有一定限制。如果您有商業使用需求，請通過聯繫頁面與我們聯繫。

✨ 主要特性

基於 12 億參數的日語大語言模型 "Sarashina2.1-1B" 構建。
通過多階段對比學習訓練，在 JMTEB 基準測試中表現優異。
可將文本映射到 1792 維的密集向量空間，適用於多種自然語言處理任務。

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
模型類型	Sentence Transformer
基礎模型	Sarashina2.1-1B
最大序列長度	8192 個詞元
輸出維度	1792 維
相似度函數	餘弦相似度
語言	日語
許可證	Sarashina 模型非商業許可協議

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel 
  (1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)

訓練過程

"Sarashina-Embedding-v1-1B" 是通過以下兩階段學習過程創建的：

階段 1：弱監督學習

為了在廣泛的領域中實現通用的文本嵌入性能，我們對由自有網絡爬取數據和開放數據組成的弱監督數據進行了對比訓練。

數據集

數據集	數量
Auto Wiki QA/NLI	50,521,135
網絡爬取數據（自有）	47,370,649
MQA	12,941,472
llm-japanese-dataset	9,074,340
Wikipedia	5,555,212
問答數據集（自有）	988,478
Natural Questions	132,796
JSQuAD	62,859
SNOW(T15+T23)	62,758
JaQuAD	31,746
MKQA	3,318
總計	126,744,763

步驟 2：有監督微調

為了使模型能夠學習更準確的查詢 - 文檔相似度，我們使用以下數據集進行了有監督微調。

數據集

數據集	數量
JSNLI	141,388
NU-MNLI	67,987
Mr. TyDi（僅日語子集）	3,697
Natural Questions（採樣）	20,000
總計	233,072

評估結果（使用 JMTEB）

模型	最大詞元數	平均分	檢索	STS	分類	重排序	聚類	成對分類
OpenAI/text-embedding-3-large[^oai]	8191	74.05	74.48	82.52	77.58	93.58	53.32	62.35
cl-nagoya/ruri-large	512	73.31	73.02	83.13	77.43	92.99	51.82	62.29
pkshatech/GLuCoSE-base-ja-v2	512	72.23	73.36	82.96	74.21	93.01	48.65	62.37
pkshatech/RoSEtta-base-ja	1024	72.04	73.21	81.39	72.41	92.69	53.23	61.74
intfloat/multilingual-e5-large	512	70.90	70.98	79.70	72.89	92.96	51.24	62.15
Sarashina-Embedding-v1-1B（本模型）	8192	75.50	77.61	82.71	78.37	93.74	53.86	62.00