D

Dense Encoder Msmarco Distilbert Word2vec256k

vocab-transformersによって開発
msmarco-word2vec256000-distilbert-base-uncasedに基づく文エンコーダーで、word2vecで初期化された256kの語彙を使用し、文の類似度タスクに特化して設計されています。
ダウンロード数 38
リリース時間 : 3/2/2022

モデル概要

このモデルは文変換器で、主に特徴抽出と文の類似度計算に使用されます。MS MARCOデータセットでMarginMSELossを使用して訓練され、情報検索などのシナリオに適しています。

モデル特徴

word2vecで初期化された語彙
word2vecで初期化された256kの語彙を使用することで、より良い単語ベクトル表現が得られる可能性があります。
単語埋め込み訓練の凍結
訓練中に単語埋め込み行列が凍結され、事前学習された単語ベクトルの特性が保持されます。
MarginMSELossによる訓練
MarginMSELossを使用して訓練され、文ペア間の類似度関係が最適化されます。

モデル能力

文の特徴抽出
文の類似度計算
情報検索

使用事例

情報検索
文書検索
検索エンジンの構築に使用でき、クエリと文書の意味的な類似度に基づいて関連する結果を返します。
質問応答システム
ユーザーの質問と知識ベース内の候補回答をマッチングするのに使用できます。
意味的なマッチング
重複質問検出
異なる表現でありながら意味的に類似した質問を識別します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase