Mmlw Retrieval E5 Small
M
Mmlw Retrieval E5 Small
Developed by sdadas
MMLW(私はより良いニュースを得なければならない)はポーランド語のニューラルテキストエンコーダーで、情報検索タスク向けに最適化されており、クエリと段落を384次元ベクトルに変換します。
Downloads 34
Release Time : 10/18/2023
Model Overview
このモデルはポーランド語のセンテンストランスフォーマーで、主に特徴抽出と文の類似度計算に使用され、特に情報検索タスクに適しています。
Model Features
多言語知識蒸留
6000万件のポーランド語-英語テキストペアを使用して訓練し、英語のFlagEmbeddingsを教師モデルとして知識蒸留を行いました。
対照損失ファインチューニング
ポーランド版MS MARCOトレーニングセットで対照損失によるファインチューニングを実施し、大規模バッチサイズでトレーニング効率を最適化しました。
プレフィックス強化
テキストをエンコードする際に特定のプレフィックスを追加する必要があります(クエリには'query: '、段落には'passage: 'を付加)ことで検索効果を最適化します。
Model Capabilities
テキストエンコーディング
文の類似度計算
情報検索
Use Cases
情報検索
質問応答システム
ユーザークエリと関連する回答段落をマッチングするために使用
意味的に関連する質問応答ペアを効果的に識別可能
ドキュメント検索
大量のドキュメントから関連コンテンツを検索
ポーランド情報検索ベンチマークテストでNDCG@10スコア52.34を達成
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98