R

Ruri V3 30m

cl-nagoyaによって開発
Ruri v3はModernBERT-Jaを基に構築された日本語汎用テキスト埋め込みモデルで、最大8192トークンのシーケンス処理をサポートし、日本語テキスト埋め込みタスクでトップクラスの性能を発揮します。
ダウンロード数 1,135
リリース時間 : 4/7/2025

モデル概要

Ruri v3は日本語汎用テキスト埋め込みモデルで、主に文の類似度計算や特徴量抽出に使用され、様々なテキストタイプのエンコーディングをサポートします。

モデル特徴

長シーケンス処理
最大8192トークンのシーケンス処理をサポートし、前バージョン(512トークン)と比べて大幅に向上しています。
拡張語彙表
10万トークンの拡張語彙表(前バージョンは3.2万)により、入力シーケンスを短縮し効率を向上させます。
FlashAttention技術
FlashAttention技術を統合し、より高速な推論とファインチューニングを実現します。
純粋なSentencePieceトークナイザー
外部トークナイザーツールが不要で、SentencePieceのみでトークン化が可能です。

モデル能力

日本語テキスト埋め込み
文の類似度計算
特徴量抽出
長文処理

使用事例

テキスト検索
ドキュメント検索
'検索文ド'プレフィックスで検索対象ドキュメントをエンコードし、効率的なドキュメント検索を実現します。
クエリ検索
'検索クエリ'プレフィックスでクエリ文をエンコードし、検索精度を向上させます。
テキスト分類
トピック分類
'トピック'プレフィックスでテキストをエンコードし、トピック分類やクラスタリングを実現します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase