D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 445k Emb Updated

vocab-transformersによって開発
MS MARCOデータセットで訓練された文埋め込みモデル、word2vecで初期化された256k語彙とDistilBERTアーキテクチャを使用、意味検索や文類似度タスクに適しています
ダウンロード数 29
リリース時間 : 3/2/2022

モデル概要

このモデルは文埋め込みモデルで、文や段落を768次元の密ベクトル空間にマッピングでき、クラスタリング、意味検索などの自然言語処理タスクに適しています。

モデル特徴

word2vec初期化語彙
word2vecで初期化された256kサイズの語彙を使用し、単語埋め込みの品質を向上させています
MS MARCOデータセット訓練
MS MARCOデータセットでMarginMSELossを使用して訓練され、意味検索能力を最適化しています
高性能文埋め込み
TREC-DL 2019と2020でそれぞれ66.72と69.14のnDCG@10スコアを達成

モデル能力

文埋め込み
意味検索
テキストクラスタリング
情報検索

使用事例

情報検索
文書検索システム
効率的な文書検索システムを構築し、クエリの意味に基づいて関連文書をマッチング
MS MARCO開発セットで34.94のMRR@10を達成
質問応答システム
質問マッチング
質問応答システムで類似質問をマッチング
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase