🚀 Ruri:日語通用文本嵌入模型
Ruri v3 是一個基於 ModernBERT-Ja 構建的通用日語文本嵌入模型。它在日語文本嵌入任務中具有顯著的技術優勢,能夠高效處理長文本,為自然語言處理領域提供了強大的支持。
✨ 主要特性
- 卓越性能:在日語文本嵌入任務中表現出色,達到了當前的先進水平。
- 長序列支持:支持最長達 8192 個標記的序列長度,相比之前版本(v1、v2)的 512 個標記有了顯著提升。
- 擴展詞彙表:詞彙表擴展到 100K 個標記,而 v1 和 v2 僅為 32K。更大的詞彙表使輸入序列更短,提高了效率。
- 集成 FlashAttention:採用 ModernBERT 架構,集成了 FlashAttention,實現了更快的推理和微調。
- 單一分詞器:僅使用 SentencePiece 作為分詞器,無需外部分詞工具,與之前依賴特定日語 BERT 分詞器且需要預分詞輸入的版本不同。
📦 安裝指南
你可以使用 transformers
庫 v4.48.0 或更高版本直接使用我們的模型:
pip install -U "transformers>=4.48.0" sentence-transformers
此外,如果你的 GPU 支持 Flash Attention 2,我們建議使用 Flash Attention 2 運行模型:
pip install flash-attn --no-build-isolation
💻 使用示例
基礎用法
import torch
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SentenceTransformer("cl-nagoya/ruri-v3-70m", device=device)
sentences = [
"川べりでサーフボードを持った人たちがいます",
"サーファーたちが川べりに立っています",
"トピック: 瑠璃色のサーファー",
"検索クエリ: 瑠璃色はどんな色?",
"検索文書: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略號 dp-pB)と定義している[1][2]。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
📚 詳細文檔
模型系列
我們提供了多種尺寸的 Ruri-v3 模型,以下是每個模型的概要:
基準測試
JMTEB
使用 JMTEB 進行評估:
模型詳情
模型描述
屬性 |
詳情 |
模型類型 |
句子轉換器 |
基礎模型 |
cl-nagoya/ruri-v3-pt-70m |
最大序列長度 |
8192 個標記 |
輸出維度 |
384 |
相似度函數 |
餘弦相似度 |
語言 |
日語 |
許可證 |
Apache 2.0 |
論文 |
https://arxiv.org/abs/2409.07737 |
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
🔧 技術細節
Ruri v3 在日語文本嵌入任務中展現了卓越的性能,主要得益於其先進的架構和技術創新。它基於 ModernBERT-Ja 構建,集成了 FlashAttention 技術,實現了更快的推理和微調。同時,擴展的詞彙表和對長序列的支持,使得模型在處理複雜的日語文本時更加高效和準確。
📄 許可證
本模型根據 Apache 許可證 2.0 版 發佈。
引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}