Modernbert Embed Base Ft Sts Spanish Matryoshka 768 64
これはmodernbert-embed-baseモデルをファインチューニングした文変換器で、文の埋め込みベクトルを生成し意味類似度を計算するために使用されます。
ダウンロード数 443
リリース時間 : 1/10/2025
モデル概要
このモデルは文や段落を768次元の密なベクトル空間にマッピングでき、意味的テキスト類似度、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどのタスクに使用できます。
モデル特徴
高次元意味表現
テキストを768次元ベクトル空間にマッピングし、深層の意味的特徴を捉えることができます
多次元類似度計算
異なる次元(768/512/256/128/64)での意味類似度計算をサポートします
長文処理
最大8192トークンのシーケンス長に対応し、長文処理に適しています
効率的なファインチューニング
プライベートSTSデータセットでファインチューニングされ、意味類似度タスクのパフォーマンスが向上しています
モデル能力
意味的テキスト類似度計算
意味検索
言い換えマイニング
テキスト分類
テキストクラスタリング
使用事例
情報検索
類似ドキュメント検索
ドキュメントベクトルの類似度計算を通じて、関連ドキュメントを検索します
コンテンツ推薦
関連コンテンツ推薦
意味類似度に基づいてユーザーに関連コンテンツを推薦します
質問応答システム
類似質問マッチング
質問応答システムで意味的に類似した質問をマッチングします
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:2697
- loss:MatryoshkaLoss
- loss:CoSENTLoss base_model: nomic-ai/modernbert-embed-base widget:
- source_sentence: En un mercado de granjeros, se encuentra un hombre.
sentences:
- Un abogado de la CPI detenido en Libia está ahora mismo encarando un período de detención de 45 días
- Un hombre está presente en un mercado donde se venden productos agrícolas directamente de los agricultores.
- ¿Existe la posibilidad de que cambie de opinión si no se expresa de manera enérgica o muestra un comportamiento inapropiado?
- source_sentence: Una mujer está posada en una postura con los brazos abiertos mientras
otra persona le toma una fotografía.
sentences:
- Un hombre se encuentra parado en medio de una multitud sujetando un objeto de color blanco.
- Las personas están cerca del agua.
- Frente a una estatua de una vaca, hay una mujer, un niño pequeño y un bebé diminuto.
- source_sentence: Un grupo de cuatro niños está observando los diferentes animales
que están en el establo.
sentences:
- Evita apoyar todo tu peso en los brazos, ya que tus manos no están diseñadas para soportar esa presión constante.
- Los niños están mirando atentamente a una oveja.
- Un puma persigue a un oso grande en el bosque.
- source_sentence: La gente se balancea saltando al agua mientras otros pescan en
el fondo del mar.
sentences:
- Dos individuos observan el agua con atención.
- Siempre golpeamos suavemente a nuestros hijos en la boca para mostrarles que su boca es lo que les causa dolor.
- Aunque el sistema de prioridad al primero en llegar beneficia a dos participantes, no asegura definitivamente la exclusión de terceros.
- source_sentence: El cordero está mirando hacia la cámara.
sentences:
- Manmohan en Teherán insta a NAM a tomar una posición clara sobre el conflicto en Siria
- Un gato está mirando hacia la cámara también.
- '"Sí, no deseo estar presente durante este testimonio", declaró tranquilamente Peterson, de 31 años, al juez cuando fue devuelto a su celda.' pipeline_tag: sentence-similarity library_name: sentence-transformers metrics:
- pearson_cosine
- spearman_cosine model-index:
- name: SentenceTransformer based on nomic-ai/modernbert-embed-base
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev 768
type: sts-dev-768
metrics:
- type: pearson_cosine value: 0.7498914121357008 name: Pearson Cosine
- type: spearman_cosine value: 0.7531670275662775 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev 512
type: sts-dev-512
metrics:
- type: pearson_cosine value: 0.7468285624371191 name: Pearson Cosine
- type: spearman_cosine value: 0.7482342767593612 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev 256
type: sts-dev-256
metrics:
- type: pearson_cosine value: 0.7419098803201045 name: Pearson Cosine
- type: spearman_cosine value: 0.7450577925521013 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev 128
type: sts-dev-128
metrics:
- type: pearson_cosine value: 0.7262860099881795 name: Pearson Cosine
- type: spearman_cosine value: 0.7304432975238186 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev 64
type: sts-dev-64
metrics:
- type: pearson_cosine value: 0.6973267849431932 name: Pearson Cosine
- type: spearman_cosine value: 0.7069603266334332 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts test 768
type: sts-test-768
metrics:
- type: pearson_cosine value: 0.8673484326459211 name: Pearson Cosine
- type: spearman_cosine value: 0.8767387684433159 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts test 512
type: sts-test-512
metrics:
- type: pearson_cosine value: 0.8665336885415594 name: Pearson Cosine
- type: spearman_cosine value: 0.8751868367625472 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts test 256
type: sts-test-256
metrics:
- type: pearson_cosine value: 0.8568125590206718 name: Pearson Cosine
- type: spearman_cosine value: 0.8702353416571491 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts test 128
type: sts-test-128
metrics:
- type: pearson_cosine value: 0.8485344363338887 name: Pearson Cosine
- type: spearman_cosine value: 0.8617402150766132 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts test 64
type: sts-test-64
metrics:
- type: pearson_cosine value: 0.8193790032247387 name: Pearson Cosine
- type: spearman_cosine value: 0.8419631939550043 name: Spearman Cosine
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts dev 768
type: sts-dev-768
metrics:
SentenceTransformer based on nomic-ai/modernbert-embed-base
This is a sentence-transformers model finetuned from nomic-ai/modernbert-embed-base on the stsb_multi_es_augmented (private) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: nomic-ai/modernbert-embed-base
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- Private stsb dataset
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("mrm8488/modernbert-embed-base-ft-sts-spanish-matryoshka-768-64-5e")
# Run inference
sentences = [
'El cordero está mirando hacia la cámara.',
'Un gato está mirando hacia la cámara también.',
'"Sí, no deseo estar presente durante este testimonio", declaró tranquilamente Peterson, de 31 años, al juez cuando fue devuelto a su celda.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Datasets:
sts-dev-768
,sts-dev-512
,sts-dev-256
,sts-dev-128
,sts-dev-64
,sts-test-768
,sts-test-512
,sts-test-256
,sts-test-128
andsts-test-64
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | sts-dev-768 | sts-dev-512 | sts-dev-256 | sts-dev-128 | sts-dev-64 | sts-test-768 | sts-test-512 | sts-test-256 | sts-test-128 | sts-test-64 |
---|---|---|---|---|---|---|---|---|---|---|
pearson_cosine | 0.7499 | 0.7468 | 0.7419 | 0.7263 | 0.6973 | 0.8673 | 0.8665 | 0.8568 | 0.8485 | 0.8194 |
spearman_cosine | 0.7532 | 0.7482 | 0.7451 | 0.7304 | 0.707 | 0.8767 | 0.8752 | 0.8702 | 0.8617 | 0.842 |
Training Details
Training Dataset
stsb_multi_es_augmented (private)
- Size: 2,697 training samples
- Columns:
sentence1
,sentence2
, andscore
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 score type string string float details - min: 9 tokens
- mean: 28.42 tokens
- max: 96 tokens
- min: 10 tokens
- mean: 28.01 tokens
- max: 92 tokens
- min: 0.0
- mean: 2.72
- max: 5.0
- Samples:
sentence1 sentence2 score El pájaro de tamaño reducido se posó con delicadeza en una rama cubierta de escarcha.
Un ave de color amarillo descansaba tranquilamente en una rama.
3.200000047683716
Una chica está tocando la flauta en un parque.
Un grupo de músicos está tocando en un escenario al aire libre.
1.286
La aclamada escritora británica, Doris Lessing, galardonada con el premio Nobel, fallece
La destacada autora británica, Doris Lessing, reconocida con el prestigioso Premio Nobel, muere
4.199999809265137
- Loss:
MatryoshkaLoss
with these parameters:{ "loss": "CoSENTLoss", "matryoshka_dims": [ 768, 512, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
Evaluation Dataset
stsb_multi_es_augmented (private)
- Size: 697 evaluation samples
- Columns:
sentence1
,sentence2
, andscore
- Approximate statistics based on the first 697 samples:
sentence1 sentence2 score type string string float details - min: 9 tokens
- mean: 29.35 tokens
- max: 87 tokens
- min: 9 tokens
- mean: 28.52 tokens
- max: 81 tokens
- min: 0.0
- mean: 2.3
- max: 5.0
- Samples:
sentence1 sentence2 score Un incendio ocurrido en un hospital psiquiátrico ruso resultó en la trágica muerte de 38 personas.
Se teme que el incendio en un hospital psiquiátrico ruso cause la pérdida de la vida de 38 individuos.
4.199999809265137
"Street dijo que el otro individuo a veces se siente avergonzado de su fiesta, lo cual provoca risas en la multitud"
"A veces, el otro tipo se encuentra avergonzado de su fiesta y no se le puede culpar."
3.5
El veterano diplomático de Malasia tuvo un encuentro con Suu Kyi el miércoles en la casa del lago en Yangon donde permanece bajo arresto domiciliario.
Razali Ismail tuvo una reunión de 90 minutos con Suu Kyi, quien ganó el Premio Nobel de la Paz en 1991, en su casa del lago donde está recluida.
3.691999912261963
- Loss:
MatryoshkaLoss
with these parameters:{ "loss": "CoSENTLoss", "matryoshka_dims": [ 768, 512, 256, 128, 64 ], "matryoshka_weights": [ 1, 1, 1, 1, 1 ], "n_dims_per_step": -1 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 5warmup_ratio
: 0.1bf16
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss | sts-dev-768_spearman_cosine | sts-dev-512_spearman_cosine | sts-dev-256_spearman_cosine | sts-dev-128_spearman_cosine | sts-dev-64_spearman_cosine | sts-test-768_spearman_cosine | sts-test-512_spearman_cosine | sts-test-256_spearman_cosine | sts-test-128_spearman_cosine | sts-test-64_spearman_cosine |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0.5917 | 100 | 23.7709 | 22.5494 | 0.7185 | 0.7146 | 0.7055 | 0.6794 | 0.6570 | - | - | - | - | - |
1.1834 | 200 | 22.137 | 22.7634 | 0.7449 | 0.7412 | 0.7439 | 0.7287 | 0.7027 | - | - | - | - | - |
1.7751 | 300 | 21.5527 | 22.6985 | 0.7321 | 0.7281 | 0.7243 | 0.7063 | 0.6862 | - | - | - | - | - |
2.3669 | 400 | 20.5745 | 24.0021 | 0.7302 | 0.7264 | 0.7221 | 0.7097 | 0.6897 | - | - | - | - | - |
2.9586 | 500 | 20.0861 | 24.0091 | 0.7392 | 0.7361 | 0.7293 | 0.7124 | 0.6906 | - | - | - | - | - |
3.5503 | 600 | 18.8191 | 26.9012 | 0.7502 | 0.7462 | 0.7399 | 0.7207 | 0.6960 | - | - | - | - | - |
4.1420 | 700 | 18.3 | 29.0209 | 0.7496 | 0.7454 | 0.7432 | 0.7284 | 0.7065 | - | - | - | - | - |
4.7337 | 800 | 17.6496 | 28.9536 | 0.7532 | 0.7482 | 0.7451 | 0.7304 | 0.7070 | - | - | - | - | - |
5.0 | 845 | - | - | - | - | - | - | - | 0.8767 | 0.8752 | 0.8702 | 0.8617 | 0.8420 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.3.1
- Transformers: 4.48.0
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
CoSENTLoss
@online{kexuefm-8847,
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
author={Su Jianlin},
year={2022},
month={Jan},
url={https://kexue.fm/archives/8847},
}
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98