🚀 ModernBERT-base
This is a model based on the sentence-transformers framework, fine - tuned from the nomic - ai/modernbert - embed - base model on a JSON dataset. It maps sentences and paragraphs to a 768 - dimensional dense vector space, which can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
🚀 Quick Start
This is a sentence-transformers model finetuned from nomic-ai/modernbert-embed-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
✨ Features
- Maps sentences and paragraphs to a 768 - dimensional dense vector space.
- Applicable to multiple natural language processing tasks such as semantic textual similarity, semantic search, paraphrase mining, text classification, and clustering.
📦 Installation
First install the Sentence Transformers library:
pip install -U sentence-transformers
💻 Usage Examples
Basic Usage
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("karsar/ModernBERT-base-hu_v3")
sentences = [
'a sellő szindróma genetikai okai',
'Rfcamat válasza. Bizalom szavazat: 459. Ha sellő-szindrómásod van, akkor vele születtél volna, és inkább hasadt volna a lábad, vagy mindkettőt amputálták volna. A sellőszindróma oka a test alsó részének (lábainak) oxigén- és tápanyaghiánya a keringési rendszer problémája miatt.További információ az alábbi linken.a sellő szindrómát nem kaphatja meg. Ez egy veleszületett állapot, ami azt jelenti, hogy vele kell születned ahhoz, hogy meglegyen. A betegségben szenvedő személy nem sellő, csak arról van szó, hogy a lábai összeforrtak. Számos belső szerv hiányzik vagy deformálódott.',
'1 A sellő-szindróma annak a következménye is lehet, hogy az anya sugárzásnak és más környezeti hatásoknak van kitéve, amelyek a magzat normális fejlődésében részt vevő gének mutációit okozták. 2 Spontán mutációk vagy a magzatban természetesen előforduló mutációk is okozhatták a születési rendellenességet. Kutatásokra van szükség ahhoz, hogy kiderítsük a sellőszindróma genetikai, biológiai vagy környezeti okait. A sellő szindróma kezelése. Ha a két láb csak a bőrön keresztül olvadt össze, és a három fő csont teljesen és megfelelően kialakult, műtétet alkalmaznak a két láb szétválasztására.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 Documentation
Model Details
Model Information
Property |
Details |
Model Type |
Sentence Transformer |
Base model |
nomic-ai/modernbert-embed-base |
Maximum Sequence Length |
8192 tokens |
Output Dimensionality |
768 dimensions |
Similarity Function |
Cosine Similarity |
Training Dataset |
json |
Language |
hu |
License |
apache - 2.0 |
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Evaluation
Metrics
Triplet
Metric |
all-triplet-dev |
all-triplet-test |
cosine_accuracy |
0.799 |
0.8031 |
Training Details
Training Dataset
json
Evaluation Dataset
json
- Dataset: json
- Size: 1,207,229 evaluation samples
- Columns:
anchor
, positive
, and negative
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
negative |
type |
string |
string |
string |
details |
- min: 5 tokens
- mean: 28.27 tokens
- max: 150 tokens
|
- min: 4 tokens
- mean: 108.14 tokens
- max: 479 tokens
|
- min: 7 tokens
- mean: 103.64 tokens
- max: 431 tokens
|
- Samples:
anchor |
positive |
negative |
Az emberek nézik, amint egy zenész gitározik. |
egy gitáros játszik az embereknek |
Az emberek egy autóroncsot néznek. |
hány csepp van egy ml-ben |
Egy szabványos szemcseppentő 0,05 ml-t adagol cseppenként, ami azt jelenti, hogy 1 milliliter gyógyszerben 20 csepp van. Számoljuk ki: egy 5 ml-es üvegben 100, a 10 ml-es üvegben 200 adag van. (A legtöbb szemcsepp receptet 5 vagy 10 ml-es üvegekben adják ki.) A párolgás nem jelent nagy problémát, ha a kupakot minden alkalmazás után vissza kell cserélni. 30 napos hónapra számítva a napi egyszeri cseppek és a napi kétszeri cseppek egy 5 ml-es üvegben könnyen kitartanak egy hónapig. Egy 10 ml-es palack általában nagyobb adagok befogadására alkalmas. Íme, egy utolsó tipp. |
Körülbelül 15-20 csepp van egy ml-ben. A folyadék viszkozitása megváltoztatja ezt a választ. Gondolhatja, hogy egy 5 ml-es üvegben 80-100 csepp van. |
a szövetségi tartalékot milyen jogszabály hozta létre |
Az „1913. évi Federal Reserve Act” MEGHATÁROZÁSA. Az 1913-as amerikai törvényhozás, amely létrehozta a jelenlegi Federal Reserve System-et. A Federal Reserve Act a gazdasági stabilitás egy formáját kívánta megteremteni a monetáris politikáért felelős Központi Bank bevezetésével az Egyesült Államokba. Az 1913-as amerikai törvényhozás, amely ... |
<...> |
📄 License
The model is licensed under the apache - 2.0 license.