R

Rosetta Base Ja

pkshatechによって開発
RoSEttaは汎用日本語テキスト埋め込みモデルで、検索タスクに優れ、1024トークンのシーケンス長をサポートし、文類似度計算や段落検索に適しています。
ダウンロード数 1,760
リリース時間 : 8/22/2024

モデル概要

RoFormerアーキテクチャに基づく日本語テキスト埋め込みモデルで、蒸留と多段階対照学習により最適化され、検索タスク向けに設計されており、長文入力とCPU実行をサポートします。

モデル特徴

長文処理能力
最大1024トークンのシーケンス長をサポートし、長文入力を効果的に処理可能
検索最適化設計
多段階対照学習と蒸留訓練により、検索タスク性能を特別に最適化
効率的推論
モデル規模が適度(0.2Bパラメータ)で、CPU上で効率的に実行可能
回転位置エンコーディング
RoPE(回転位置エンコーディング)技術を採用し、位置情報処理能力を強化

モデル能力

文の意味的類似度計算
テキスト特徴抽出
クエリベースの段落検索
長文意味理解

使用事例

情報検索
QAシステム検索
QAシステムで質問に最も関連する回答段落を迅速に検索
MIRACL-jaデータセットで79.3のrecall@5を達成
文書類似度分析
文書や文間の意味的類似度を計算
JMTEB評価でSTSタスクスコア81.39
コンテンツ管理
重複コンテンツ検出
ウェブサイトや文書セット内の重複または高度に類似したコンテンツを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase