D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 210k Emb Updated

vocab-transformersによって開発
word2vec初期化による256k語彙規模のDistilBERTモデルで、文の類似度と情報検索タスクに最適化
ダウンロード数 23
リリース時間 : 3/2/2022

モデル概要

このモデルはword2vec初期化の拡張語彙を使用し、MS MARCOデータセットで訓練され、文埋め込み生成と意味的類似度計算に適しています

モデル特徴

拡張語彙
word2vec初期化の256k語彙規模を使用し、標準BERTモデルと比べてより強力な語彙カバレッジを実現
効率的な訓練
DistilBERTアーキテクチャに基づき、性能を維持しながらモデルの複雑さを軽減
専門的な最適化
MarginMSELossを使用し、MS MARCOデータセットで情報検索タスクに特化して最適化

モデル能力

文埋め込み生成
意味的類似度計算
情報検索
ドキュメントマッチング

使用事例

情報検索
検索エンジン最適化
検索エンジンのドキュメント関連性ランキング改善に使用
MS MARCO開発セットでMRR@10が34.91を達成
質問応答システム
ユーザーの質問と知識ベースの候補回答をマッチング
TREC-DL 2019/2020でnDCG@10がそれぞれ67.56と68.18を達成
意味分析
ドキュメント重複排除
意味的に類似したドキュメントを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase