D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 785k Emb Updated

Developed by vocab-transformers
word2vecで初期化された語彙を使用するDistilBERTモデルで、文の類似性タスクに最適化され、MS MARCOデータセットでトレーニング済み
Downloads 33
Release Time : 3/2/2022

Model Overview

このモデルはword2vecで初期化された256k語彙を使用し、785kステップのMLM事前トレーニングを経て、MS MARCOデータセットでMarginMSELossを使用してファインチューニングされており、文の埋め込みと意味検索タスクに適しています

Model Features

大規模語彙
word2vecで初期化された256k語彙を使用し、より広範な意味範囲をカバー
効率的なトレーニング
DistilBERTアーキテクチャに基づき、性能を維持しながら計算リソース要件を削減
最適化された損失関数
MarginMSELossを使用してトレーニングし、文の類似性タスクのパフォーマンスを最適化

Model Capabilities

文の埋め込み生成
意味的類似性計算
テキストクラスタリング
情報検索

Use Cases

情報検索
ドキュメント検索
クエリとドキュメントをベクトルに変換して類似性マッチング
MS MARCO開発セットでMRR@10が35.20を達成
質問応答システム
質問マッチング
意味的に類似した質問ペアを識別
TREC-DL 2019/2020でnDCG@10がそれぞれ67.61と69.62を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase