🚀 瑠璃(Ruri):日語通用文本嵌入模型
瑠璃(Ruri)是一款用於日語文本的嵌入模型,能夠將文本轉換為向量表示,可廣泛應用於句子相似度計算、特徵提取等任務,為日語自然語言處理提供了強大的支持。
🚀 快速開始
注意事項
注意:v3 版本模型已發佈! 我們建議後續使用以下 v3 版本模型。
✨ 主要特性
- 多場景適用:可用於句子相似度計算、特徵提取等多種自然語言處理任務。
- 高性能表現:在 JMTEB 基準測試中取得了優異的成績。
📦 安裝指南
直接使用(Sentence Transformers)
首先安裝 Sentence Transformers 庫:
pip install -U sentence-transformers fugashi sentencepiece unidic-lite
💻 使用示例
基礎用法
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("cl-nagoya/ruri-base")
sentences = [
"クエリ: 瑠璃色はどんな色?",
"文章: 瑠璃色(るりいろ)は、紫みを帯びた濃い青。名は、半貴石の瑠璃(ラピスラズリ、英: lapis lazuli)による。JIS慣用色名では「こい紫みの青」(略號 dp-pB)と定義している[1][2]。",
"クエリ: ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総稱して「何類」というでしょう?",
"文章: ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4屬を含めている。",
]
embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)
📚 詳細文檔
基準測試
JMTEB
使用 JMTEB 進行評估。
模型詳情
模型描述
屬性 |
詳情 |
模型類型 |
Sentence Transformer |
基礎模型 |
cl-nagoya/ruri-pt-base |
最大序列長度 |
512 個詞元 |
輸出維度 |
768 |
相似度函數 |
餘弦相似度 |
語言 |
日語 |
許可證 |
Apache 2.0 |
論文 |
https://arxiv.org/abs/2409.07737 |
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
框架版本
- Python: 3.10.13
- Sentence Transformers: 3.0.0
- Transformers: 4.41.2
- PyTorch: 2.3.1+cu118
- Accelerate: 0.30.1
- Datasets: 2.19.1
- Tokenizers: 0.19.1
🔧 技術細節
本模型基於 Sentence Transformer 架構,使用了預訓練的 cl-nagoya/ruri-pt-base 模型,並在日語數據集上進行了微調。通過池化層將輸入文本轉換為固定長度的向量表示,使用餘弦相似度計算句子之間的相似度。
📄 許可證
本模型根據 Apache License, Version 2.0 發佈。
引用
@misc{
Ruri,
title={{Ruri: Japanese General Text Embeddings}},
author={Hayato Tsukagoshi and Ryohei Sasano},
year={2024},
eprint={2409.07737},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.07737},
}