Distilbert Dot Tas B B256 Msmarco
DistilBertベースのデュアルエンコーダードット積スコアリングアーキテクチャで、MSMARCO-Passageデータセット上でバランス型トピック認識サンプリングによりトレーニングされ、高密度検索と候補セットの再ランキングに適している
ダウンロード数 3,188
リリース時間 : 3/2/2022
モデル概要
このモデルは、知識蒸留とトピック認識サンプリングトレーニングによる効率的な高密度パッセージ検索システムで、情報検索タスクで優れた性能を発揮する
モデル特徴
バランス型トピック認識サンプリング
革新的なTAS-Bトレーニング手法を採用し、トレーニングデータのサンプリング分布を最適化
効率的なトレーニング
単一のコンシューマーグレードGPUでわずか48時間でトレーニング可能
二重監視メカニズム
BERT_CATペアスコアとColBERTモデルが提供するバッチ内ネガティブサンプル信号を組み合わせ
共有エンコーディングアーキテクチャ
クエリとパッセージエンコーディングが同じBERT層を共有し、効率を向上させメモリ要件を低減
モデル能力
高密度パッセージ検索
候補セット再ランキング
意味的類似度計算
使用事例
情報検索
検索エンジン結果の再ランキング
従来の検索システムが返す結果を意味的に再ランキング
MSMARCO-DEVでMRR@10が0.347を達成
エンドツーエンド高密度検索
ベクトルインデックスベースの高密度検索システムに直接使用
TREC-DL'19でリコール@1Kが0.843を達成
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98