Paraphrase Mongolian Minilm Mn V2
これはsentence-transformers/paraphrase-multilingual-MiniLM-L12-v2からファインチューニングされた文変換モデルで、モンゴル語を含む複数言語をサポートし、テキストを384次元ベクトル空間にマッピングします。
ダウンロード数 482
リリース時間 : 1/9/2025
モデル概要
このモデルは文や段落を384次元の密なベクトル空間にマッピングするために使用され、意味的テキスト類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのタスクに利用できます。
モデル特徴
多言語サポート
multilingual-MiniLMアーキテクチャに基づき、特にモンゴル語処理能力を最適化
効率的なベクトル化
テキストを384次元の密なベクトルに変換し、意味情報を保持しながら計算複雑性を低減
高精度
意味的類似度タスクで0.95以上のピアソンおよびスピアマン相関係数を達成
軽量モデル
MiniLMアーキテクチャに基づき、性能を維持しながら計算リソース要件を削減
モデル能力
意味的テキスト類似度計算
意味検索
テキストクラスタリング
言い換えマイニング
クロスランゲージテキストマッチング
使用事例
司法分野
事件関連分析
法律文書内の類似事件記述を分析
同一犯罪類型に関わる事件を正確に識別可能
法律条項マッチング
犯罪行為と適用法律条項を照合
ニュースメディア
ニュースコンテンツ重複排除
同一事件を報道するニュース記事を識別
著者スタイル分析
作品内容の類似度を通じて潜在的な関連著者を識別
サンプルにおいて同一著者の異なる作品を正確にマッチング
金融分野
経済影響分析
為替変動関連記事を識別
直接関連する経済ニュースと無関係なものを正確に区別可能
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:77201
- loss:CosineSimilarityLoss base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 widget:
- source_sentence: '"17 тэрбумын хэрэгт холбогдсон хүмүүсийг шалгаж байна."'
sentences:
- Шинэ сайд томилогдлоо."
- '"Авлига авсан хүмүүсийг шалгаж байна."'
- Шүүхийг засварлах мөнгө байхгүй байна."
- source_sentence: '"Гэмт хэрэг үйлдсэн. "'
sentences:
- LIKE дар.
- Саусгоби сэндс компанийн хэргээр мөрдөн байцаалт явагдаж байна."
- '"Гэмтэл учруулсан."'
- source_sentence: '"Иргэдийн хүсэлтийг шинэчлэлийн Засгийн газар хэрэгжүүлнэ."'
sentences:
- '"Засгийн газар иргэдийн хүсэлтийг хэрэгжүүлэх бодолтой байна."'
- '"Ц.Болд албан тушаалаа ашиглан төсвөөс мөнгө завшсан байна."'
- Шүүх хараат бус байх ёстой."
- source_sentence: '"Ам.долларын ханш суларснаас бэрхшээл үүсэж байна."'
sentences:
- '"тушаал"'
- Шүүхийн шийдвэрийн талаарх судалгаа хийнэ."
- '"Валютын ханшийн өөрчлөлтөөс болж бэрхшээл гарч байна."'
- source_sentence: '"Сэтгүүлч анд маань хоёр дахь номоо хэвлэлтээс гаргажээ"'
sentences:
- БНХАУ-ын аж үйлдвэрлэлийн үйлдвэрлэлт буурсан.
- Жастин Бибер, Кэти Перри нарын элэглэл хамгийн түрүүнд дүрслэгдэх аж.
- '"Л.Болормаагийн хоёр дахь ном “Завгүй” хэмээн нэрийджээ."' pipeline_tag: sentence-similarity library_name: sentence-transformers metrics:
- pearson_cosine
- spearman_cosine model-index:
- name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: dev t
type: dev-t
metrics:
- type: pearson_cosine value: 0.9547459589724314 name: Pearson Cosine
- type: spearman_cosine value: 0.9538075641510714 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: test t
type: test-t
metrics:
- type: pearson_cosine value: 0.956384303059334 name: Pearson Cosine
- type: spearman_cosine value: 0.9566981709702497 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: dev t
type: dev-t
metrics:
SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the csv dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
- Maximum Sequence Length: 128 tokens
- Output Dimensionality: 384 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- csv
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("gmunkhtur/paraphrase-mongolian-minilm-mn_v2")
# Run inference
sentences = [
'"Сэтгүүлч анд маань хоёр дахь номоо хэвлэлтээс гаргажээ"',
'"Л.Болормаагийн хоёр дахь ном “Завгүй” хэмээн нэрийджээ."',
'БНХАУ-ын аж үйлдвэрлэлийн үйлдвэрлэлт буурсан.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Datasets:
dev-t
andtest-t
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | dev-t | test-t |
---|---|---|
pearson_cosine | 0.9547 | 0.9564 |
spearman_cosine | 0.9538 | 0.9567 |
Training Details
Training Dataset
csv
- Dataset: csv
- Size: 77,201 training samples
- Columns:
sentence1
,sentence2
, andscore
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 score type string string float details - min: 3 tokens
- mean: 16.02 tokens
- max: 96 tokens
- min: 3 tokens
- mean: 14.66 tokens
- max: 87 tokens
- min: -0.14
- mean: 0.63
- max: 1.0
- Samples:
sentence1 sentence2 score Маргааш мэдээлэл өгнө
Хэвлэлийн хурал болно.
0.5448001623153687
Дотоод аудитын шалгалтаар 2012-2013 оны үйл ажиллагаанд 16 зөрчил илэрлээ
“Монголын Хөрөнгийн Бирж” ТӨХК-ийн Төлөөлөн удирдах зөвлөл болон Гүйцэтгэх удирдлагад 13 зөвлөмж өгөгдсөн байна.
0.4059729874134063
"хохирогчид ажлын байраар хангагдана"
"ажил олддог болно."
0.6021140813827515
- Loss:
CosineSimilarityLoss
with these parameters:{ "loss_fct": "torch.nn.modules.loss.MSELoss" }
Evaluation Dataset
csv
- Dataset: csv
- Size: 77,201 evaluation samples
- Columns:
sentence1
,sentence2
, andscore
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 score type string string float details - min: 3 tokens
- mean: 16.53 tokens
- max: 85 tokens
- min: 3 tokens
- mean: 14.68 tokens
- max: 83 tokens
- min: -0.04
- mean: 0.62
- max: 1.0
- Samples:
sentence1 sentence2 score Ченжүүд мэдээллийн сүлжээтэй лут холбогдсон байх юм
"Энд ноолуурын үнэ асуусан хэдэн нөхөд яваад байна" гээд хэлчихсэн бололтой юм
0.3234536349773407
Хий дэлбэрэлт гарсан тухай мэдээлэл байна уу?
Мэдээлэл цуглуулж байна.
0.3009476661682129
"Энэ нь хэн нэгнээр дамжуулж биш өөрөө сонгоно гэсэн утгатай.
Өөрөө сонгоно гэсэн утгатай."
0.770484447479248
- Loss:
CosineSimilarityLoss
with these parameters:{ "loss_fct": "torch.nn.modules.loss.MSELoss" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 5warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss | dev-t_spearman_cosine | test-t_spearman_cosine |
---|---|---|---|---|---|
0 | 0 | - | - | 1.0000 | - |
0.1727 | 500 | 0.0046 | - | - | - |
0.3454 | 1000 | 0.0054 | 0.0042 | 0.9549 | - |
0.5181 | 1500 | 0.0069 | - | - | - |
0.6908 | 2000 | 0.008 | 0.0067 | 0.9298 | - |
0.8636 | 2500 | 0.0076 | - | - | - |
1.0363 | 3000 | 0.0075 | 0.0065 | 0.9317 | - |
1.2090 | 3500 | 0.0069 | - | - | - |
1.3817 | 4000 | 0.0063 | 0.0063 | 0.9366 | - |
1.5544 | 4500 | 0.0055 | - | - | - |
1.7271 | 5000 | 0.0049 | 0.0057 | 0.9411 | - |
1.8998 | 5500 | 0.0045 | - | - | - |
2.0725 | 6000 | 0.0045 | 0.0056 | 0.9405 | - |
2.2453 | 6500 | 0.004 | - | - | - |
2.4180 | 7000 | 0.0038 | 0.0053 | 0.9432 | - |
2.5907 | 7500 | 0.0034 | - | - | - |
2.7634 | 8000 | 0.0032 | 0.0053 | 0.9448 | - |
2.9361 | 8500 | 0.0029 | - | - | - |
3.1088 | 9000 | 0.0028 | 0.0051 | 0.9459 | - |
3.2815 | 9500 | 0.0025 | - | - | - |
3.4542 | 10000 | 0.0023 | 0.0047 | 0.9498 | - |
3.6269 | 10500 | 0.0022 | - | - | - |
3.7997 | 11000 | 0.0021 | 0.0046 | 0.9510 | - |
3.9724 | 11500 | 0.0019 | - | - | - |
4.1451 | 12000 | 0.0019 | 0.0046 | 0.9525 | - |
4.3178 | 12500 | 0.0016 | - | - | - |
4.4905 | 13000 | 0.0016 | 0.0045 | 0.9528 | - |
4.6632 | 13500 | 0.0014 | - | - | - |
4.8359 | 14000 | 0.0013 | 0.0044 | 0.9538 | - |
5.0 | 14475 | - | - | - | 0.9567 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98