Bi Electra Ms Marco German Uncased
B
Bi Electra Ms Marco German Uncased
svalabsによって開発
ドイツ語ELECTRAモデルをファインチューニングしたデュアルエンコーダー、ドイツ語段落検索タスク用
ダウンロード数 17
リリース時間 : 3/2/2022
モデル概要
このモデルはELECTRAアーキテクチャに基づくデュアルエンコーダーで、ドイツ語段落検索タスクに特化して最適化されており、効率的な意味検索と段落マッチングが可能です。
モデル特徴
ドイツ語最適化
ドイツ語テキストに特化して最適化されており、ドイツ語意味検索タスクに適しています
効率的な検索
デュアルエンコーダーアーキテクチャが効率的な段落検索能力を提供します
優れた性能
GermanDPRテストセットで従来のBM25手法よりも優れた性能を発揮します
モデル能力
ドイツ語意味検索
段落検索
テキスト類似度計算
使用事例
情報検索
ドキュメント検索システム
ドイツ語ドキュメント検索システムを構築し、関連ドキュメントを迅速に見つける
GermanDPRテストセットでRecall@10が0.8205を達成
質問応答システム
質問応答システムの検索コンポーネントとして、質問に関連する段落を見つける
🚀 SVALabs - ドイツ語アンケースドElectraバイエンコーダ
このリポジトリでは、パッセージ検索用のドイツ語アンケースドバイエンコーダを公開しています。
このモデルは、german - nlp - groupのドイツ語Electraアンケースドモデルをベースに学習され、sentence - transformersパッケージを使用してパッセージ検索用のバイエンコーダとして微調整されました。この目的のために、fairseq - wmt19 - en - de翻訳モデルを用いてMSMARCO - Passage - Rankingデータセットを翻訳しました。
✨ 主な機能
このモデルはドイツ語のパッセージ検索に特化しており、Sentence - Transformersパッケージを用いて簡単に利用できます。また、既存のベンチマークと比較して良好な性能を示しています。
📦 インストール
sentence-transformers
パッケージを使用することで、このモデルを簡単にインストールできます。詳細はUKPLab/sentence-transformersを参照してください。
from sentence_transformers import SentenceTransformer
bi_model = SentenceTransformer("svalabs/bi-electra-ms-marco-german-uncased")
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer
bi_model = SentenceTransformer("svalabs/bi-electra-ms-marco-german-uncased")
高度な使用法
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
K = 3 # number of top ranks to retrieve
# specify documents and queries
docs = [
"Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.",
"Der Gepard jagt seine Beute.",
"Wir haben in der Agentur ein neues System für Zeiterfassung.",
"Mein Arzt sagt, dass mir dabei eher ein Orthopäde helfen könnte.",
"Einen Impftermin kann mir der Arzt momentan noch nicht anbieten.",
"Auf Kreta hat meine Tochter mit Muscheln eine schöne Sandburg gebaut.",
"Das historische Zentrum (centro storico) liegt auf mehr als 100 Inseln in der Lagune von Venedig.",
"Um in Zukunft sein Vermögen zu schützen, sollte man andere Investmentstrategien in Betracht ziehen.",
"Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.",
"Bei ALDI sind die Bananen gerade im Angebot.",
"Die Entstehung der Erde ist 4,5 milliarden jahre her.",
"Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.",
"DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.",
]
queries = [
"dax steigt",
"dax sinkt",
"probleme mit knieschmerzen",
"software für urlaubsstunden",
"raubtier auf der jagd",
"alter der erde",
"wie alt ist unser planet?",
"wie kapital sichern",
"supermarkt lebensmittel reduziert",
"wodurch ist der tyrannosaurus aussgestorben",
"serien streamen"
]
# encode documents and queries
features_docs = bi_model.encode(docs)
features_queries = bi_model.encode(queries)
# compute pairwise cosine similarity scores
sim = cosine_similarity(features_queries, features_docs)
# print results
for i, query in enumerate(queries):
ranks = np.argsort(-sim[i])
print("Query:", query)
for j, r in enumerate(ranks[:K]):
print(f"[{j}: {sim[i, r]: .3f}]", docs[r])
print("-"*96)
コンソール出力:
Query: dax steigt
[0: 0.811] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
[1: 0.719] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
[2: 0.218] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
------------------------------------------------------------------------------------------------
Query: dax sinkt
[0: 0.815] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
[1: 0.719] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
[2: 0.243] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
------------------------------------------------------------------------------------------------
Query: probleme mit knieschmerzen
[0: 0.237] Mein Arzt sagt, dass mir dabei eher ein Orthopäde helfen könnte.
[1: 0.209] Das historische Zentrum (centro storico) liegt auf mehr als 100 Inseln in der Lagune von Venedig.
[2: 0.182] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
------------------------------------------------------------------------------------------------
Query: software für urlaubsstunden
[0: 0.478] Wir haben in der Agentur ein neues System für Zeiterfassung.
[1: 0.208] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[2: 0.190] Bei ALDI sind die Bananen gerade im Angebot.
------------------------------------------------------------------------------------------------
Query: raubtier auf der jagd
[0: 0.599] Der Gepard jagt seine Beute.
[1: 0.264] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[2: 0.159] Auf Kreta hat meine Tochter mit Muscheln eine schöne Sandburg gebaut.
------------------------------------------------------------------------------------------------
Query: alter der erde
[0: 0.705] Die Entstehung der Erde ist 4,5 milliarden jahre her.
[1: 0.413] Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.
[2: 0.262] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
------------------------------------------------------------------------------------------------
Query: wie alt ist unser planet?
[0: 0.441] Die Entstehung der Erde ist 4,5 milliarden jahre her.
[1: 0.335] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[2: 0.302] Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.
------------------------------------------------------------------------------------------------
Query: wie kapital sichern
[0: 0.547] Um in Zukunft sein Vermögen zu schützen, sollte man andere Investmentstrategien in Betracht ziehen.
[1: 0.331] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
[2: 0.143] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
------------------------------------------------------------------------------------------------
Query: supermarkt lebensmittel reduziert
[0: 0.455] Bei ALDI sind die Bananen gerade im Angebot.
[1: 0.362] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
[2: 0.345] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
------------------------------------------------------------------------------------------------
Query: wodurch ist der tyrannosaurus aussgestorben
[0: 0.457] Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.
[1: 0.216] Der Gepard jagt seine Beute.
[2: 0.195] Die Entstehung der Erde ist 4,5 milliarden jahre her.
------------------------------------------------------------------------------------------------
Query: serien streamen
[0: 0.570] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[1: 0.361] Wir haben in der Agentur ein neues System für Zeiterfassung.
[2: 0.282] Bei ALDI sind die Bananen gerade im Angebot.
------------------------------------------------------------------------------------------------
📚 詳細ドキュメント
モデルの詳細
属性 | 詳情 |
---|---|
ベースモデル | german-nlp-group/electra-base-german-uncased |
微調整タスク | パッセージ検索 / 意味検索 |
ソースデータセット | MSMARCO-Passage-Ranking |
翻訳モデル | fairseq-wmt19-en-de |
性能評価
このモデルは、GermanDPRテストセットで評価され、BEIRのベンチマークフレームワークに従っています。結果を比較するために、同じテストデータでBM25を用いた評価も行い、以下の表に結果を示します。テストセットから負のコンテキストと正のコンテキストを持つすべての段落を取り出し、重複を削除しました。結果として得られたコーパスサイズは2871で、クエリは1025です。
モデル | NDCG@1 | NDCG@5 | NDCG@10 | Recall@1 | Recall@5 | Recall@10 |
---|---|---|---|---|---|---|
BM25 | 0.1463 | 0.3451 | 0.4097 | 0.1463 | 0.5424 | 0.7415 |
当社のモデル | 0.4624 | 0.6218 | 0.6425 | 0.4624 | 0.7581 | 0.8205 |
📄 コンタクト
- Nicole Wochatz, nicole.wochatz@sva.de
- Stefan Kammer, stefan.kammer@sva.de
- Bonian Riebe, bonian.riebe@sva.de
📚 参考文献
- N. Reimers and I. Gurevych (2019), 'Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks'.
- Payal Bajaj et al. (2018), 'MS MARCO: A Human Generated MAchine Reading COmprehension Dataset'.
- N. Thakur et al. (2021), 'BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models'.
- T. Möller, J. Risch and M. Pietsch (2021), 'GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval'.
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98