ruri-base-v2オープンソース日本语文本埋め込みモデル - 文の類似度計算と特徴抽出に無料で利用可能

ホーム

Ruri Base V2

cl-nagoyaによって開発

Ruriは日本語に最適化された汎用テキスト埋め込みモデルで、Sentence Transformersアーキテクチャに基づき、文の類似度計算や特徴抽出タスクに特化して設計されています。

テキスト埋め込み

Safetensors

日本語オープンソースライセンス:Apache-2.0 #日本語テキスト埋め込み #高精度意味類似度 #検索拡張生成

ダウンロード数 12.77k

リリース時間 : 12/5/2024

モデル概要

このモデルは主に日本語テキストの意味類似度計算と特徴抽出に使用され、検索、分類、クラスタリングなど様々な自然言語処理タスクで利用可能です。

モデル特徴

日本語最適化

日本語テキストに特化して最適化されており、日本語の意味理解タスクで優れた性能を発揮します

プレフィックス認識

クエリとドキュメントの区別処理をサポートし、プレフィックス(クエリ/文章)を追加することで意味理解の精度を向上させます

効率的な推論

軽量なアーキテクチャ設計に基づき、高性能を維持しながら高速な推論を実現します

マルチタスクサポート

検索、意味類似度、分類、再ランキングなど様々なタスクでバランスの取れた性能を発揮します

モデル能力

日本語テキスト特徴抽出

文類似度計算

意味検索

テキスト分類

情報再ランキング

テキストクラスタリング

使用事例

情報検索

質問応答システム

ユーザークエリと知識ベース内の関連回答をマッチングするために使用

JMTEB検索タスクで72.33点を獲得

ドキュメント類似度分析

ドキュメント間の意味類似度を計算し、重複排除や推薦に利用

JMTEB意味類似度タスクで83.03点を獲得

コンテンツ整理

テキストクラスタリング

意味類似度に基づいて大量のテキストを自動的にグループ化

JMTEBクラスタリングタスクで51.38点を獲得

コンテンツ分類

テキストの意味的特徴に基づいて分類

JMTEB分類タスクで75.34点を獲得

🚀 瑠璃 (Ruri): 日本語汎用テキスト埋め込みモデル

注意: v3モデルがリリースされました！
今後は以下のv3モデルの使用をおすすめします。

ID	パラメータ数	最大シーケンス長	JMTEB平均スコア
cl-nagoya/ruri-v3-30m	37M	8192	74.51
cl-nagoya/ruri-v3-70m	70M	8192	75.48
cl-nagoya/ruri-v3-130m	132M	8192	76.55
cl-nagoya/ruri-v3-310m	315M	8192	77.24

🚀 クイックスタート

📦 インストール

まずはSentence Transformersライブラリをインストールします。

pip install -U sentence-transformers fugashi sentencepiece unidic-lite

💻 使用例

基本的な使用法

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 🤗 Hubからモデルをダウンロード
model = SentenceTransformer("cl-nagoya/ruri-base-v2")

# クエリ側のテキストには「クエリ: 」、文章側のテキストには「文章: 」の接頭辞を忘れないでください。
sentences = [
    "クエリ: 瑠璃色はどんな色？",
    "文章: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
    "クエリ: ワシやタカのように、鋭いくちばしと爪を持った大型の鳥類を総称して「何類」というでしょう?",
    "文章: ワシ、タカ、ハゲワシ、ハヤブサ、コンドル、フクロウが代表的である。これらの猛禽類はリンネ前後の時代(17~18世紀)には鷲類・鷹類・隼類及び梟類に分類された。ちなみにリンネは狩りをする鳥を単一の目(もく)にまとめ、vultur(コンドル、ハゲワシ)、falco(ワシ、タカ、ハヤブサなど)、strix(フクロウ)、lanius(モズ)の4属を含めている。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [4, 768]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)

📚 ドキュメント

ベンチマーク

JMTEB

JMTEBを使用して評価されています。

モデル	パラメータ数	平均スコア	検索	STS	分類	再ランキング	クラスタリング	ペア分類
cl-nagoya/sup-simcse-ja-base	111M	68.56	49.64	82.05	73.47	91.83	51.79	62.57
cl-nagoya/sup-simcse-ja-large	337M	66.51	37.62	83.18	73.73	91.48	50.56	62.51
cl-nagoya/unsup-simcse-ja-base	111M	65.07	40.23	78.72	73.07	91.16	44.77	62.44
cl-nagoya/unsup-simcse-ja-large	337M	66.27	40.53	80.56	74.66	90.95	48.41	62.49
pkshatech/GLuCoSE-base-ja	133M	70.44	59.02	78.71	76.82	91.90	49.78	66.39

sentence-transformers/LaBSE	472M	64.70	40.12	76.56	72.66	91.63	44.88	62.33
intfloat/multilingual-e5-small	118M	69.52	67.27	80.07	67.62	93.03	46.91	62.19
intfloat/multilingual-e5-base	278M	70.12	68.21	79.84	69.30	92.85	48.26	62.26
intfloat/multilingual-e5-large	560M	71.65	70.98	79.70	72.89	92.96	51.24	62.15

OpenAI/text-embedding-ada-002	-	69.48	64.38	79.02	69.75	93.04	48.30	62.40
OpenAI/text-embedding-3-small	-	70.86	66.39	79.46	73.06	92.92	51.06	62.27
OpenAI/text-embedding-3-large	-	73.97	74.48	82.52	77.58	93.58	53.32	62.35

Ruri-Small	68M	71.53	69.41	82.79	76.22	93.00	51.19	62.11
Ruri-Small v2	68M	73.30	73.94	82.91	76.17	93.20	51.58	62.32
Ruri-Base	111M	71.91	69.82	82.87	75.58	92.91	54.16	62.38
Ruri-Base v2 (このモデル)	111M	72.48	72.33	83.03	75.34	93.17	51.38	62.35
Ruri-Large	337M	73.31	73.02	83.13	77.43	92.99	51.82	62.29
Ruri-Large v2	337M	74.55	76.34	83.17	77.18	93.21	52.14	62.27

🔧 技術詳細

モデルの説明

属性	詳情
モデルタイプ	Sentence Transformer
ベースモデル	cl-nagoya/ruri-pt-base-v2
最大シーケンス長	512トークン
出力次元数	768
類似度関数	コサイン類似度
言語	日本語
ライセンス	Apache 2.0
論文	https://arxiv.org/abs/2409.07737

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

フレームワークのバージョン

Python: 3.10.13
Sentence Transformers: 3.0.0
Transformers: 4.41.2
PyTorch: 2.3.1+cu118
Accelerate: 0.30.1
Datasets: 2.19.1
Tokenizers: 0.19.1

📄 ライセンス

このモデルはApache License, Version 2.0の下で公開されています。

📖 引用

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}