German_Semantic_V3オープンソースモデル - 無料でデプロイ可能、高精度でドイツ語の意味理解と文章埋め込みを実現

ホーム

German Semantic V3

aari1995によって開発

ドイツ語の意味理解に特化した文埋め込みモデルで、可変シーケンス長と入れ子式埋め込みをサポート、2020年以降の知識まで対応

テキスト埋め込み

Safetensors

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語意味埋め込み #可変次元切り捨て #ドイツ文化理解

ダウンロード数 1,646

リリース時間 : 6/23/2024

モデル概要

ドイツ語の意味的文埋め込みベクトルを生成するモデルで、文の類似度計算と特徴抽出をサポート

モデル特徴

柔軟性

可変シーケンス長と埋め込み切り捨て学習をサポート、最大8192トークンまで対応

入れ子式埋め込み

1024次元から64次元までの埋め込みサイズをサポート、わずかな品質低下で大幅なストレージ削減が可能

純粋なドイツ語モデル

ドイツ語シナリオに特化し、豊富なドイツ文化知識を含み、専用トークナイザーで短いクエリを効率的に処理

モデル能力

ドイツ語意味理解

文類似度計算

特徴抽出

長文処理

使用事例

意味検索

政治家検索

政治家に関連する記述を識別

'連邦首相'と'アンゲラ・メルケル'、'オラフ・ショルツ'を正しく関連付け可能

内容理解

ウイルス関連用語

'新型コロナウイルス'と類似語を区別

'新型コロナウイルス'と'ウイルス'、'王冠'、'ビール'を正しく区別可能

行動認識

人間活動認識

人間の活動を記述した文を理解

'男性がボクシングを練習している'と'猿が武術を練習している'などの類似記述を区別可能

🚀 ドイツ語セマンティックV3

このモデルは、German_Semantic_STS_V2 の後継モデルで、多くのクールな新機能を備えています。V3は知識量が非常に多い一方で、German_Semantic_V3b はパフォーマンスに重点を置いています。モデルに関するフィードバックや、次に何を見たいかを自由に提供してください。

注意: このモデルを適切に実行するには、「使用方法」を参照してください。

このモデルを使用して、ドイツ語のセマンティック文埋め込みを作成します。

✨ 主な機能

主な更新と特長

柔軟性: 柔軟なシーケンス長と埋め込みトランケーションで学習されており、柔軟性がモデルの核心的な機能です。ただし、より小さい次元では品質が若干低下するトレードオフがあります。
シーケンス長: 最大8192トークンを埋め込むことができます（V2や他のモデルの16倍）。
マトリョーシカ埋め込み: モデルは1024から64までの埋め込みサイズで学習されており、品質の損失を最小限に抑えて、はるかに小さな埋め込みを保存することができます。
ドイツ語専用: このモデルはドイツ語専用で、ドイツやドイツのトピックに関する豊富な文化的知識を持っています。これにより、トークナイザーのおかげでモデルがより効率的に学習し、より短いクエリをより適切に処理し、多くのシナリオでより微妙な表現が可能になります。
最新の知識と高品質のデータ: このモデルのバックボーンは、deepsetによるgbert-largeです。occiglotによる10億トークンのドイツ語のfinewebでのステージ2の事前学習により、最新の知識が保証されています。
タイポと大文字小文字: このモデルは、軽微なタイポや大文字小文字に対してロバストに学習されており、ベンチマークのパフォーマンスや学習中の品質が若干低下しますが、埋め込みのロバスト性が向上します。
プーリング関数: 平均プーリングからCLSトークンの使用に移行しています。一般的に、ステージ2の事前学習後により良く学習するようになり、より柔軟性が高まります。
ライセンス: Apache 2.0

（タスクでさらに良いパフォーマンスが必要で、2020年頃のドイツの知識で十分な場合は、German_Semantic_V3b をチェックしてください。）

📦 インストール

このセクションではインストールに関する具体的なコマンドが提供されていないため、スキップします。

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer


matryoshka_dim = 1024 # How big your embeddings should be, choose from: 64, 128, 256, 512, 768, 1024
model = SentenceTransformer("aari1995/German_Semantic_V3", trust_remote_code=True, truncate_dim=matryoshka_dim)

# model.truncate_dim = 64 # truncation dimensions can also be changed after loading
# model.max_seq_length = 512 #optionally, set your maximum sequence length lower if your hardware is limited 

# Run inference
sentences = [
    'Eine Flagge weht.',
    'Die Flagge bewegte sich in der Luft.',
    'Zwei Personen beobachten das Wasser.',
]

# For FP16 embeddings (half space, no quality loss)
embeddings = model.encode(sentences, convert_to_tensor=True).half()

# For FP32 embeddings (takes more space)
# embeddings = model.encode(sentences)

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)

📚 ドキュメント

よくある質問

Q: このモデルはV2より良いですか？

A: 柔軟性の面では間違いなく良いです。データの面でも、最新のデータを使用しているため良いです。ベンチマークの面では異なりますが、V3は長いテキストに対して良い結果を出し、V2は短いテキストに対して非常に良い結果を出します。多くのベンチマークでは文化的な知識を十分にカバーしていないことにも留意してください。 2020年初頭以降の開発に関する知識が必要ない場合は、German_Semantic_V3b をお勧めします。

Q: V3とV3bの違いは何ですか？

A: V3はベンチマークでは若干劣りますが、V3bは2020年までの知識でカットオフされているため、どのモデルを使用するかは、使用ケースによって異なります。

ピークパフォーマンスが必要で、最近の開発にあまり気にしない場合は、V3b を選択してください。

ベンチマークで数ポイントの犠牲を承知で、2020年以降の出来事（選挙、コロナ、その他の文化的なイベントなど）をモデルに知ってもらいたい場合は、このモデルを使用することをお勧めします。

もう1つの顕著な違いは、V3のコサイン類似度スペクトルが-1から1まで広く（ただし、ほとんどの場合、最小値は-0.2を超えます）、V3bはV2により近く、類似度スペクトルは0から1程度です。また、V3はcls_poolingを使用し、V3bはmean_poolingを使用しています。

Q: マルチリンガルモデルと比較して、このモデルのパフォーマンスはどうですか？

A: 多くの使用ケースに非常に役立つ素晴らしいマルチリンガルモデルがあります。しかし、このモデルは文化的な知識やドイツ人の行動に関する知識で光ります。

Q: 埋め込みサイズを小さくすると、どのようなトレードオフがありますか？

A: 大まかに言うと、1024から512次元に減らす場合は、トレードオフは非常に少なく（1％）、64次元まで下げると、最大3％の低下が見られる可能性があります。