D

Distilbert Dot Tas B B256 Msmarco

sebastian-hofstaetterによって開発
DistilBertベースのデュアルエンコーダードット積スコアリングアーキテクチャで、MSMARCO-Passageデータセット上でバランス型トピック認識サンプリングによりトレーニングされ、高密度検索と候補セットの再ランキングに適している
ダウンロード数 3,188
リリース時間 : 3/2/2022

モデル概要

このモデルは、知識蒸留とトピック認識サンプリングトレーニングによる効率的な高密度パッセージ検索システムで、情報検索タスクで優れた性能を発揮する

モデル特徴

バランス型トピック認識サンプリング
革新的なTAS-Bトレーニング手法を採用し、トレーニングデータのサンプリング分布を最適化
効率的なトレーニング
単一のコンシューマーグレードGPUでわずか48時間でトレーニング可能
二重監視メカニズム
BERT_CATペアスコアとColBERTモデルが提供するバッチ内ネガティブサンプル信号を組み合わせ
共有エンコーディングアーキテクチャ
クエリとパッセージエンコーディングが同じBERT層を共有し、効率を向上させメモリ要件を低減

モデル能力

高密度パッセージ検索
候補セット再ランキング
意味的類似度計算

使用事例

情報検索
検索エンジン結果の再ランキング
従来の検索システムが返す結果を意味的に再ランキング
MSMARCO-DEVでMRR@10が0.347を達成
エンドツーエンド高密度検索
ベクトルインデックスベースの高密度検索システムに直接使用
TREC-DL'19でリコール@1Kが0.843を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase