gbert-large-paraphrase-euclideanオープンソースのドイツ語文埋め込みモデル

ホーム

Gbert Large Paraphrase Euclidean

deutsche-telekomによって開発

sentence - transformersに基づくドイツ語の文章埋め込みモデルで、テキストを1024次元のベクトル空間にマッピングし、小サンプル分類に特化して最適化されています。

テキスト埋め込み

Transformers

ドイツ語オープンソースライセンス:MIT #ドイツ語の文章の類似度 #ユークリッド距離の最適化 #小サンプル学習

ダウンロード数 19.03k

リリース時間 : 1/13/2023

モデル概要

このモデルはdeepset/gbert - largeをベースに構築されたドイツ語の文章埋め込みモデルで、ユークリッド距離を類似度の尺度として使用し、SetFitと組み合わせてドイツ語の小サンプル分類性能を向上させるように特別に設計されています。

モデル特徴

ユークリッド距離の最適化

BatchHardSoftMarginTripletLossをユークリッド距離と組み合わせて訓練し、特定の距離尺度の要件に適しています。

高品質の訓練データ

厳選されたドイツ語の逆翻訳と言い換えデータセットに基づいており、訓練品質を保証します。

小サンプルの最適化

ドイツ語の小サンプルシナリオでのテキスト分類性能を向上させるように特別に設計されています。

シングルモデルのサポート

コサイン類似度バージョンを補完的な選択肢として提供します（deutsche - telekom/gbert - large - paraphrase - cosine）

モデル能力

ドイツ語のテキスト埋め込み

文章類似度計算

小サンプル学習

テキスト分類のサポート

使用事例

テキスト分類

小サンプル分類タスク

ラベル付きデータが限られている状況でのドイツ語のテキスト分類

NLU小サンプルベンチマークテストで優れた性能を発揮します。

意味検索

ドイツ語の文書検索

意味的な類似度に基づくドイツ語の文書検索システム

🚀 German BERT large paraphrase euclidean

このモデルは、sentence-transformers をベースにしたモデルです。文章や段落（テキスト）を1024次元の密ベクトル空間にマッピングします。このモデルは、SetFit と組み合わせて、ドイツ語のフェデレーション学習における少サンプルのテキスト分類を改善するために使用されることを想定しています。また、deutsche-telekom/gbert-large-paraphrase-cosine という兄弟モデルもあります。

このモデルは deepset/gbert-large をベースにしています。deepset に感謝いたします！

🚀 クイックスタート

このモデルは、文章や段落を1024次元の密ベクトル空間にマッピングし、SetFitと組み合わせてドイツ語の少サンプルテキスト分類を改善するために使用されます。

✨ 主な機能

文章や段落を1024次元の密ベクトル空間にマッピングする。
SetFitと組み合わせて、ドイツ語の少サンプルテキスト分類を改善する。

🔧 技術詳細

学習

損失関数

損失関数として、ユークリッド距離を用いた BatchHardSoftMarginTripletLoss を使用しています。

    train_loss = losses.BatchHardSoftMarginTripletLoss(
       model=model,
       distance_metric=BatchHardTripletLossDistanceFunction.eucledian_distance,
   )

学習データ

モデルは、deutsche-telekom/ger-backtrans-paraphrase という慎重にフィルタリングされたデータセットで学習されています。以下の文章ペアは削除されています。

min_char_len が15未満
jaccard_similarity が0.3を超える
de_token_count が30を超える
en_de_token_count が30を超える
cos_sim が0.85未満

ハイパーパラメータ

learning_rate: 5.5512022294147105e-06
num_epochs: 7
train_batch_size: 68
num_gpu: ???

評価結果

NLU Few-shot Benchmark - English and German データセットを使用して、ドイツ語の少サンプルシナリオでこのモデルを評価しました。

定性的な結果

多言語文章埋め込みは最悪の結果を提供します。
Electraモデルも悪い結果を提供します。
ドイツ語BERTベースサイズモデル (deepset/gbert-base) は良い結果を提供します。
ドイツ語BERTラージサイズモデル (deepset/gbert-large) は非常に良い結果を提供します。
微調整されたモデル（このモデルと deutsche-telekom/gbert-large-paraphrase-cosine）は最良の結果を提供します。

📄 ライセンス

このモデルは MIT License の下でライセンスされています。詳細は LICENSE を参照してください。

情報テーブル

属性	詳情
パイプラインタグ	文章類似度
言語	de
タグ	sentence-transformers, sentence-similarity, transformers, setfit
ライセンス	mit
ベースモデル	deepset/gbert-large
データセット	deutsche-telekom/ger-backtrans-paraphrase