Ruri Base V2
Ruriは日本語に最適化された汎用テキスト埋め込みモデルで、Sentence Transformersアーキテクチャに基づき、文の類似度計算や特徴抽出タスクに特化して設計されています。
ダウンロード数 12.77k
リリース時間 : 12/5/2024
モデル概要
このモデルは主に日本語テキストの意味類似度計算と特徴抽出に使用され、検索、分類、クラスタリングなど様々な自然言語処理タスクで利用可能です。
モデル特徴
日本語最適化
日本語テキストに特化して最適化されており、日本語の意味理解タスクで優れた性能を発揮します
プレフィックス認識
クエリとドキュメントの区別処理をサポートし、プレフィックス(クエリ/文章)を追加することで意味理解の精度を向上させます
効率的な推論
軽量なアーキテクチャ設計に基づき、高性能を維持しながら高速な推論を実現します
マルチタスクサポート
検索、意味類似度、分類、再ランキングなど様々なタスクでバランスの取れた性能を発揮します
モデル能力
日本語テキスト特徴抽出
文類似度計算
意味検索
テキスト分類
情報再ランキング
テキストクラスタリング
使用事例
情報検索
質問応答システム
ユーザークエリと知識ベース内の関連回答をマッチングするために使用
JMTEB検索タスクで72.33点を獲得
ドキュメント類似度分析
ドキュメント間の意味類似度を計算し、重複排除や推薦に利用
JMTEB意味類似度タスクで83.03点を獲得
コンテンツ整理
テキストクラスタリング
意味類似度に基づいて大量のテキストを自動的にグループ化
JMTEBクラスタリングタスクで51.38点を獲得
コンテンツ分類
テキストの意味的特徴に基づいて分類
JMTEB分類タスクで75.34点を獲得
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98