D

Dense Encoder Msmarco Distilbert Word2vec256k Emb Updated

vocab-transformersによって開発
DistilBERTアーキテクチャに基づく文埋め込みモデルで、256kの語彙とword2vec初期化を使用し、MS MARCOデータセットでトレーニングされ、文の類似性計算と意味検索タスクに適しています。
ダウンロード数 31
リリース時間 : 3/2/2022

モデル概要

このモデルは文埋め込みモデルで、テキストを768次元の密なベクトルに変換し、主に文の類似性計算、意味検索、情報検索などのタスクに使用されます。

モデル特徴

word2vec初期化
256kサイズの語彙を使用し、word2vecで初期化することで、単語埋め込みの品質を向上させました
効率的なアーキテクチャ
DistilBERTアーキテクチャに基づき、性能を維持しながらモデルサイズを削減しました
専門的なトレーニング
MS MARCOデータセットでMarginMSELossを使用して専門的にトレーニングされ、検索タスクのパフォーマンスを最適化しました

モデル能力

文埋め込み生成
意味的類似性計算
情報検索
テキストクラスタリング

使用事例

情報検索
ドキュメント検索システム
意味的類似性に基づくドキュメント検索システムの構築
MS MARCOデータセットでMRR@10が34.51を達成
質問応答システム
質問と回答のマッチング
質問応答システムにおける質問と回答のマッチングに使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase