Mmlw Retrieval E5 Large
M
Mmlw Retrieval E5 Large
Developed by sdadas
MMLWはポーランド語向けのニューラルテキストエンコーダで、情報検索タスク向けに最適化されており、クエリと段落を1024次元ベクトルに変換できます
Downloads 56
Release Time : 10/18/2023
Model Overview
このモデルは多言語知識蒸留と対照損失ファインチューニングを通じて、ポーランド語情報検索タスク専用に設計されており、クエリと段落を高次元ベクトルにエンコードして類似度計算を行えます
Model Features
多言語知識蒸留
英語FlagEmbeddingsを教師モデルとして使用し、6000万のポーランド語-英語テキストペアで知識蒸留トレーニングを実施
対照損失ファインチューニング
ポーランド版MS MARCOデータセットで大規模バッチ対照学習によるファインチューニングを行い、検索性能を最適化
プレフィックス認識エンコーディング
'query:'と'passage:'プレフィックスを追加してクエリと段落エンコーディングを区別し、検索精度を向上
Model Capabilities
テキストベクトル化
意味的類似度計算
情報検索
クロスランゲージ検索
Use Cases
検索エンジン
ポーランド語ドキュメント検索
ユーザークエリに基づいてポーランド語ドキュメントライブラリから最も関連性の高いコンテンツを検索
PIRBベンチマークでNDCG@10値58.30を達成
質問応答システム
ポーランド語FAQマッチング
ユーザーの質問とFAQライブラリを意味的にマッチング
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98