ruri-v3-pt-30mオープンソースの日本語テキスト埋め込みモデル - 複数のパラメータバージョンをサポートして多様なテキストタスクを処理

ホーム

Ruri V3 Pt 30m

cl-nagoyaによって開発

RuriはModernBERT-Jaを基に構築された日本語汎用テキスト埋め込みモデルで、さまざまなパラメータサイズのバージョンを提供し、多様なテキスト処理タスクに適しています。

テキスト埋め込み

Safetensors

日本語オープンソースライセンス:Apache-2.0 #日本語テキスト埋め込み #マルチプレフィックスエンコーディング #軽量BERT

ダウンロード数 250

リリース時間 : 3/20/2025

モデル概要

Ruriは日本語汎用テキスト埋め込みモデルで、主に文の類似性計算と特徴抽出に使用されます。ModernBERT-Jaアーキテクチャを基にしており、複数のテキストタイプのプレフィックス区別をサポートしています。

モデル特徴

マルチパラメータサイズバージョン

30Mから310Mまでの異なるパラメータサイズのモデルバージョンを提供し、さまざまな計算リソース要件に対応

1+3プレフィックス方式

テキストタイプを区別する特殊プレフィックスを使用：空文字列は意味的エンコーディング用、'トピック:'は分類/クラスタリング用、'検索クエリ:'は検索クエリ用、'検索文書:'は検索対象文書用

高性能

JMTEBベンチマークで74.51から77.24の平均スコア（異なるサイズバージョン）を達成

モデル能力

文の類似性計算

テキスト特徴抽出

意味的エンコーディング

分類/クラスタリングエンコーディング

検索クエリエンコーディング

文書検索エンコーディング

使用事例

情報検索

文書検索

'検索クエリ:'と'検索文書:'プレフィックスを使用してクエリと文書をエンコードし、効率的な検索を実現

テキスト分析

トピック分類

'トピック:'プレフィックスを使用してテキストをトピックエンコード

意味的類似性計算

異なるテキストの埋め込みベクトルを比較して意味的類似性を計算

🚀 Ruri: 日本語汎用テキスト埋め込みモデル

Ruriは、日本語のテキストをベクトル表現に変換する汎用的なモデルです。このモデルは、文章の類似度計算や特徴抽出など、様々な自然言語処理タスクに利用できます。

🚀 クイックスタート

注意事項

このモデルは事前学習済みのバージョンであり、ファインチューニングされていません。ファインチューニングされたバージョンを使用する場合は、cl-nagoya/ruri-v3-30m を利用してください！

モデル情報

属性	详情
モデルタイプ	文章類似度計算、特徴抽出
ベースモデル	sbintuitions/modernbert-ja-30m
パイプラインタグ	文章類似度
データセット	cl-nagoya/ruri-v3-dataset-pt
ライセンス	Apache License 2.0

ファインチューニング済みモデルシリーズ

Ruri v3は、ModernBERT-Ja をベースに構築された汎用的な日本語テキスト埋め込みモデルです。我々は、いくつかのモデルサイズでRuri-v3を提供しています。以下は各モデルの概要です。

ID	#パラメータ	#パラメータ（埋め込みなし）	次元数	レイヤー数	平均JMTEB
cl-nagoya/ruri-v3-30m	37M	10M	256	10	74.51
cl-nagoya/ruri-v3-70m	70M	31M	384	13	75.48
cl-nagoya/ruri-v3-130m	132M	80M	512	19	76.55
cl-nagoya/ruri-v3-310m	315M	236M	768	25	77.24

💻 使用例

基本的な使用法

このモデルは、transformersライブラリv4.48.0以上で直接使用できます。

pip install -U "transformers>=4.48.0" sentence-transformers

さらに、GPUがFlash Attention 2をサポートしている場合は、Flash Attention 2を使用することをおすすめします。

pip install flash-attn --no-build-isolation

その後、モデルをロードして推論を実行できます。

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("cl-nagoya/ruri-v3-pt-30m")

# Ruri v3は、異なるタイプのテキスト入力を区別するために、1+3のプレフィックス方式を採用しています。
# ""（空文字列）は、意味的な意味をエンコードするために使用されます。
# "トピック: "は、分類、クラスタリング、およびトピック情報のエンコードに使用されます。
# "検索クエリ: "は、検索タスクのクエリに使用されます。
# "検索文書: "は、検索対象の文書に使用されます。
sentences = [
    "川べりでサーフボードを持った人たちがいます",
    "サーファーたちが川べりに立っています",
    "トピック: 瑠璃色のサーファー",
    "検索クエリ: 瑠璃色はどんな色？",
    "検索文書: 瑠璃色（るりいろ）は、紫みを帯びた濃い青。名は、半貴石の瑠璃（ラピスラズリ、英: lapis lazuli）による。JIS慣用色名では「こい紫みの青」（略号 dp-pB）と定義している[1][2]。",
]

embeddings = model.encode(sentences, convert_to_tensor=True)
print(embeddings.size())
# [5, 256]

similarities = F.cosine_similarity(embeddings.unsqueeze(0), embeddings.unsqueeze(1), dim=2)
print(similarities)

📚 ドキュメント

引用

@misc{
  Ruri,
  title={{Ruri: Japanese General Text Embeddings}}, 
  author={Hayato Tsukagoshi and Ryohei Sasano},
  year={2024},
  eprint={2409.07737},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2409.07737}, 
}