🚀 SentenceTransformer based on FacebookAI/xlm-roberta-large
This is a sentence-transformers model fine - tuned from FacebookAI/xlm-roberta-large on multiple datasets. It maps sentences and paragraphs to a 1024 - dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
🚀 Quick Start
First, install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sentence_transformers_model_id")
sentences = [
'چه اتفاقی در مسجد الحرام برای عبدالمطلب و پسرش رخ داد؟',
'در مسجد الحرام، عبدالمطلب و پسرش توسط ده مرد پابرهنه و شمشیر به دست، مورد حمله قرار گرفتند و از کشتن فرزند عبدالمطلب جلوگیری کردند. این حادثه باعث شد که مردم در مسجد الحرام غرق در هیاهو شوند و صداها درهم آمیخته و صدای زنان محو شود.',
'قائم آل محمد (ص) به اراده الهی قیام کرده و زمانی که او قیام کند، دیگر از شرک و شرک\u200cگرایی اثری نخواهد ماند و دین حق همه دلها را نورباران می\u200cسازد. این مطلب از آیاتی که پیرامون وجود گرانمایه او تأویل شده است بسنده می\u200cشود و این امر در قرآن و روایات به طور جامع بیان شده است.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
✨ Features
- Multilingual Support: Supports languages such as fa, en, ar, bn, es, fi, fr, hi, id, ja, ko, ru, sw, te, th, zh.
- Semantic Understanding: Maps sentences and paragraphs to a 1024 - dimensional dense vector space for semantic tasks.
📦 Installation
To use this model, you need to install the Sentence Transformers library:
pip install -U sentence-transformers
💻 Usage Examples
Basic Usage
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sentence_transformers_model_id")
sentences = [
'چه اتفاقی در مسجد الحرام برای عبدالمطلب و پسرش رخ داد؟',
'در مسجد الحرام، عبدالمطلب و پسرش توسط ده مرد پابرهنه و شمشیر به دست، مورد حمله قرار گرفتند و از کشتن فرزند عبدالمطلب جلوگیری کردند. این حادثه باعث شد که مردم در مسجد الحرام غرق در هیاهو شوند و صداها درهم آمیخته و صدای زنان محو شود.',
'قائم آل محمد (ص) به اراده الهی قیام کرده و زمانی که او قیام کند، دیگر از شرک و شرک\u200cگرایی اثری نخواهد ماند و دین حق همه دلها را نورباران می\u200cسازد. این مطلب از آیاتی که پیرامون وجود گرانمایه او تأویل شده است بسنده می\u200cشود و این امر در قرآن و روایات به طور جامع بیان شده است.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📚 Documentation
Model Details
Model Description
Property |
Details |
Model Type |
Sentence Transformer |
Base model |
FacebookAI/xlm-roberta-large |
Maximum Sequence Length |
512 tokens |
Output Dimensionality |
1024 tokens |
Similarity Function |
Cosine Similarity |
Training Datasets |
|
Languages |
fa, en, ar, bn, es, fi, fr, hi, id, ja, ko, ru, sw, te, th, zh |
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Training Details
parsinlu_qqp_pair2class
parsinlu_entail_pair3class
- Dataset: parsinlu_entail_pair3class at c49b2d8
- Size: 2,697 training samples
- Columns:
sentence1
, sentence2
, and label
- Approximate statistics based on the first 1000 samples:
|
sentence1 |
sentence2 |
label |
type |
string |
string |
int |
details |
- min: 3 tokens
- mean: 34.16 tokens
- max: 203 tokens
|
- min: 3 tokens
- mean: 17.89 tokens
- max: 73 tokens
|
- 0: ~39.30%
- 1: ~31.60%
- 2: ~29.10%
|
- Samples:
sentence1 |
sentence2 |
label |
زنان به قدری بخش بزرگی از نیروی کار را تشکیل می دهند که به سختی می توان باور داشت که اگر این امر در مورد زنان صادق نباشد ، این امر می تواند صادق باشد. |
مردان بخش عظیمی از نیروی کار هستند بنابراین تنها افراد مهم هستند. |
2 |
سالها است که کنگره در تلاش است تا اثربخشی مدیریت اطلاعات و فناوری را در دولت فدرال افزایش دهد. |
کنگره بودجه ویژه ای برای مدیریت اطلاعات و فناوری در دولت فدرال دارد. |
1 |
سرامیکهای زیست خنثی پس از قرارگیری در بدن میزبان خواص فیزیکی و مکانیکی خود را حفظ میکند. |
خواص فیزیکی سرامیکها قابل اندازه گیری است. |
1 |
- Loss:
SoftmaxLoss
pquad_pair
- Dataset: pquad_pair
- Size: 79,972 training samples
- Columns:
positive
and anchor
- Approximate statistics based on the first 1000 samples:
|
positive |
anchor |
type |
string |
string |
details |
- min: 19 tokens
- mean: 183.65 tokens
- max: 366 tokens
|
- min: 5 tokens
- mean: 13.95 tokens
- max: 36 tokens
|
- Samples: