S

Sarashina Embedding V1 1b

sbintuitionsによって開発
12億パラメータの日本語大規模言語モデルを基に開発されたテキスト埋め込みモデルで、JMTEBベンチマークで優れた性能を発揮
ダウンロード数 23.85k
リリース時間 : 11/22/2024

モデル概要

更級埋め込みモデルv1-1Bは日本語大規模言語モデルを基にしたテキスト埋め込みモデルで、文や段落を1792次元の密ベクトル空間にマッピングでき、意味的テキスト類似度計算や意味検索など様々な場面に適用可能

モデル特徴

高次元密ベクトル
1792次元の密ベクトルを出力し、より精細に意味情報を捕捉可能
長文対応
最大8192トークンまでの長文処理をサポート
多段階訓練
弱教師あり学習と教師あり微調整の2段階訓練によりモデル性能を向上
日本語最適化
日本語テキストに特化して最適化され、JMTEBベンチマークで優れた成績

モデル能力

意味的テキスト類似度計算
意味検索
言い換えマイニング
テキスト分類
クラスタリング分析

使用事例

情報検索
文書検索
クエリの意味に基づき関連文書を迅速に検索
JMTEB検索タスクで77.61点を獲得
テキスト分析
テキスト類似度計算
2つのテキスト間の意味的類似度を計算
JMTEB意味類似度タスクで82.71点を獲得
テキストクラスタリング
意味的に類似したテキストを自動的にグループ化
JMTEBクラスタリングタスクで53.86点を獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase