Bi Electra Ms Marco German Uncased
Model Overview
Model Features
Model Capabilities
Use Cases
🚀 SVALabs - German Uncased Electra Bi-Encoder
This repository presents our German, uncased bi-encoder for Passage Retrieval. It offers a powerful solution for retrieving relevant passages in German text, enhancing the efficiency and accuracy of information retrieval tasks.
🚀 Quick Start
To quickly start using this bi-encoder, you need to have the sentence-transformers
package installed. Here's a simple code snippet to load the model:
from sentence_transformers import SentenceTransformer
bi_model = SentenceTransformer("svalabs/bi-electra-ms-marco-german-uncased")
✨ Features
- Based on German Electra: The model is built upon the German Electra uncased model from the german-nlp-group, leveraging its pre-trained knowledge.
- Fine-tuned for Passage Retrieval: It has been fine-tuned as a bi-encoder using the sentence-transformers package, specifically for Passage Retrieval tasks.
- Translated Dataset: The model was trained on a translated version of the MSMARCO-Passage-Ranking dataset using the fairseq-wmt19-en-de translation model.
📦 Installation
To use this model, you need to install the sentence-transformers
package. You can install it via pip:
pip install sentence-transformers
💻 Usage Examples
Basic Usage
from sentence_transformers import SentenceTransformer
bi_model = SentenceTransformer("svalabs/bi-electra-ms-marco-german-uncased")
Advanced Usage
The following example demonstrates how to perform semantic search using the bi-encoder:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
K = 3 # number of top ranks to retrieve
# specify documents and queries
docs = [
"Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.",
"Der Gepard jagt seine Beute.",
"Wir haben in der Agentur ein neues System für Zeiterfassung.",
"Mein Arzt sagt, dass mir dabei eher ein Orthopäde helfen könnte.",
"Einen Impftermin kann mir der Arzt momentan noch nicht anbieten.",
"Auf Kreta hat meine Tochter mit Muscheln eine schöne Sandburg gebaut.",
"Das historische Zentrum (centro storico) liegt auf mehr als 100 Inseln in der Lagune von Venedig.",
"Um in Zukunft sein Vermögen zu schützen, sollte man andere Investmentstrategien in Betracht ziehen.",
"Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.",
"Bei ALDI sind die Bananen gerade im Angebot.",
"Die Entstehung der Erde ist 4,5 milliarden jahre her.",
"Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.",
"DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.",
]
queries = [
"dax steigt",
"dax sinkt",
"probleme mit knieschmerzen",
"software für urlaubsstunden",
"raubtier auf der jagd",
"alter der erde",
"wie alt ist unser planet?",
"wie kapital sichern",
"supermarkt lebensmittel reduziert",
"wodurch ist der tyrannosaurus aussgestorben",
"serien streamen"
]
# encode documents and queries
features_docs = bi_model.encode(docs)
features_queries = bi_model.encode(queries)
# compute pairwise cosine similarity scores
sim = cosine_similarity(features_queries, features_docs)
# print results
for i, query in enumerate(queries):
ranks = np.argsort(-sim[i])
print("Query:", query)
for j, r in enumerate(ranks[:K]):
print(f"[{j}: {sim[i, r]: .3f}]", docs[r])
print("-"*96)
Console Output:
Query: dax steigt
[0: 0.811] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
[1: 0.719] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
[2: 0.218] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
------------------------------------------------------------------------------------------------
Query: dax sinkt
[0: 0.815] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
[1: 0.719] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
[2: 0.243] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
------------------------------------------------------------------------------------------------
Query: probleme mit knieschmerzen
[0: 0.237] Mein Arzt sagt, dass mir dabei eher ein Orthopäde helfen könnte.
[1: 0.209] Das historische Zentrum (centro storico) liegt auf mehr als 100 Inseln in der Lagune von Venedig.
[2: 0.182] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
------------------------------------------------------------------------------------------------
Query: software für urlaubsstunden
[0: 0.478] Wir haben in der Agentur ein neues System für Zeiterfassung.
[1: 0.208] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[2: 0.190] Bei ALDI sind die Bananen gerade im Angebot.
------------------------------------------------------------------------------------------------
Query: raubtier auf der jagd
[0: 0.599] Der Gepard jagt seine Beute.
[1: 0.264] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[2: 0.159] Auf Kreta hat meine Tochter mit Muscheln eine schöne Sandburg gebaut.
------------------------------------------------------------------------------------------------
Query: alter der erde
[0: 0.705] Die Entstehung der Erde ist 4,5 milliarden jahre her.
[1: 0.413] Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.
[2: 0.262] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
------------------------------------------------------------------------------------------------
Query: wie alt ist unser planet?
[0: 0.441] Die Entstehung der Erde ist 4,5 milliarden jahre her.
[1: 0.335] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[2: 0.302] Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.
------------------------------------------------------------------------------------------------
Query: wie kapital sichern
[0: 0.547] Um in Zukunft sein Vermögen zu schützen, sollte man andere Investmentstrategien in Betracht ziehen.
[1: 0.331] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
[2: 0.143] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
------------------------------------------------------------------------------------------------
Query: supermarkt lebensmittel reduziert
[0: 0.455] Bei ALDI sind die Bananen gerade im Angebot.
[1: 0.362] DAX dreht ins Minus. Konjunkturdaten und Gewinnmitnahmen belasten Frankfurt/Main.
[2: 0.345] Finanzwerte treiben DAX um mehr als sechs Prozent nach oben Frankfurt/Main gegeben.
------------------------------------------------------------------------------------------------
Query: wodurch ist der tyrannosaurus aussgestorben
[0: 0.457] Die Ära der Dinosaurier wurde vermutlich durch den Einschlag eines gigantischen Meteoriten auf der Erde beendet.
[1: 0.216] Der Gepard jagt seine Beute.
[2: 0.195] Die Entstehung der Erde ist 4,5 milliarden jahre her.
------------------------------------------------------------------------------------------------
Query: serien streamen
[0: 0.570] Auf Netflix gibt es endlich die neue Staffel meiner Lieblingsserie.
[1: 0.361] Wir haben in der Agentur ein neues System für Zeiterfassung.
[2: 0.282] Bei ALDI sind die Bananen gerade im Angebot.
------------------------------------------------------------------------------------------------
📚 Documentation
Model Details
Property | Details |
---|---|
Model Type | German Uncased Electra Bi-Encoder |
Base Model | german-nlp-group/electra-base-german-uncased |
Finetuning Task | Passage Retrieval / Semantic Search |
Source Dataset | MSMARCO-Passage-Ranking |
Translation Model | fairseq-wmt19-en-de |
Performance
The model was evaluated on the GermanDPR testset following the benchmark framework of BEIR. The evaluation results compared with BM25 on the same test data are as follows:
Model | NDCG@1 | NDCG@5 | NDCG@10 | Recall@1 | Recall@5 | Recall@10 |
---|---|---|---|---|---|---|
BM25 | 0.1463 | 0.3451 | 0.4097 | 0.1463 | 0.5424 | 0.7415 |
Ours | 0.4624 | 0.6218 | 0.6425 | 0.4624 | 0.7581 | 0.8205 |
📄 Contact
- Nicole Wochatz, nicole.wochatz@sva.de
- Stefan Kammer, stefan.kammer@sva.de
- Bonian Riebe, bonian.riebe@sva.de
📄 References
- N. Reimers and I. Gurevych (2019), 'Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks'.
- Payal Bajaj et al. (2018), 'MS MARCO: A Human Generated MAchine Reading COmprehension Dataset'.
- N. Thakur et al. (2021), 'BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models'.
- T. Möller, J. Risch and M. Pietsch (2021), 'GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval'.





