D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 210k Emb Updated

Developed by vocab-transformers
word2vec初期化による256k語彙規模のDistilBERTモデルで、文の類似度と情報検索タスクに最適化
Downloads 23
Release Time : 3/2/2022

Model Overview

このモデルはword2vec初期化の拡張語彙を使用し、MS MARCOデータセットで訓練され、文埋め込み生成と意味的類似度計算に適しています

Model Features

拡張語彙
word2vec初期化の256k語彙規模を使用し、標準BERTモデルと比べてより強力な語彙カバレッジを実現
効率的な訓練
DistilBERTアーキテクチャに基づき、性能を維持しながらモデルの複雑さを軽減
専門的な最適化
MarginMSELossを使用し、MS MARCOデータセットで情報検索タスクに特化して最適化

Model Capabilities

文埋め込み生成
意味的類似度計算
情報検索
ドキュメントマッチング

Use Cases

情報検索
検索エンジン最適化
検索エンジンのドキュメント関連性ランキング改善に使用
MS MARCO開発セットでMRR@10が34.91を達成
質問応答システム
ユーザーの質問と知識ベースの候補回答をマッチング
TREC-DL 2019/2020でnDCG@10がそれぞれ67.56と68.18を達成
意味分析
ドキュメント重複排除
意味的に類似したドキュメントを識別
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase