Mmlw Retrieval E5 Large
M
Mmlw Retrieval E5 Large
sdadasによって開発
MMLWはポーランド語向けのニューラルテキストエンコーダで、情報検索タスク向けに最適化されており、クエリと段落を1024次元ベクトルに変換できます
ダウンロード数 56
リリース時間 : 10/18/2023
モデル概要
このモデルは多言語知識蒸留と対照損失ファインチューニングを通じて、ポーランド語情報検索タスク専用に設計されており、クエリと段落を高次元ベクトルにエンコードして類似度計算を行えます
モデル特徴
多言語知識蒸留
英語FlagEmbeddingsを教師モデルとして使用し、6000万のポーランド語-英語テキストペアで知識蒸留トレーニングを実施
対照損失ファインチューニング
ポーランド版MS MARCOデータセットで大規模バッチ対照学習によるファインチューニングを行い、検索性能を最適化
プレフィックス認識エンコーディング
'query:'と'passage:'プレフィックスを追加してクエリと段落エンコーディングを区別し、検索精度を向上
モデル能力
テキストベクトル化
意味的類似度計算
情報検索
クロスランゲージ検索
使用事例
検索エンジン
ポーランド語ドキュメント検索
ユーザークエリに基づいてポーランド語ドキュメントライブラリから最も関連性の高いコンテンツを検索
PIRBベンチマークでNDCG@10値58.30を達成
質問応答システム
ポーランド語FAQマッチング
ユーザーの質問とFAQライブラリを意味的にマッチング
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98