Xlm Roberta Ua Distilled
模型概述
該模型將句子和段落映射到768維的密集向量空間,適用於語義文本相似度、語義搜索、釋義挖掘、文本分類和聚類等任務。
模型特點
多語言支持
支持英語和烏克蘭語的語義理解與相似度計算
高維向量表示
將文本映射到768維的密集向量空間,捕獲豐富的語義信息
知識蒸餾訓練
通過知識蒸餾方法優化模型性能
模型能力
語義文本相似度計算
跨語言語義搜索
文本向量化表示
多語言文本分類
文本聚類分析
使用案例
跨語言信息檢索
英語-烏克蘭語文檔搜索
使用英語查詢檢索烏克蘭語文檔
皮爾遜相似度0.5926(sts17-en-ua數據集)
語義相似度分析
同語言文本相似度評估
評估英語或烏克蘭語文本對的語義相似度
英語-英語斯皮爾曼相似度0.7308(sts17-en-en數據集)
🚀 基於FacebookAI/xlm-roberta-base的句子轉換器
本模型是基於 FacebookAI/xlm-roberta-base 微調的 sentence-transformers 模型。它能將句子和段落映射到一個768維的密集向量空間,可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等任務。
👉 查看 GitHub 上的模型。
🚀 快速開始
本模型是基於 FacebookAI/xlm-roberta-base 微調的 sentence-transformers 模型,可將句子和段落映射到768維的密集向量空間,用於語義文本相似度計算、語義搜索等任務。
✨ 主要特性
- 多語言支持:支持烏克蘭語和英語。
- 高維向量表示:將文本映射到768維的密集向量空間。
- 多種應用場景:可用於語義文本相似度、語義搜索、釋義挖掘、文本分類、聚類等。
📦 安裝指南
首先安裝 Sentence Transformers 庫:
pip install -U sentence-transformers
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
# 從 🤗 Hub 下載
model = SentenceTransformer("panalexeu/xlm-roberta-ua-distilled")
# 運行推理
sentences = [
"You'd better consult the doctor.",
'Краще проконсультуйся у лікаря.',
'Їх позначають як Aufklärungsfahrzeug 93 та Aufklärungsfahrzeug 97 відповідно.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 獲取嵌入的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 句子轉換器 |
基礎模型 | FacebookAI/xlm-roberta-base |
最大序列長度 | 512個標記 |
輸出維度 | 768維 |
相似度函數 | 餘弦相似度 |
訓練數據集 | parallel-sentences-talks、parallel-sentences-wikimatrix、parallel-sentences-tatoeba |
語言 | 烏克蘭語、英語 |
許可證 | MIT |
模型來源
- 文檔:Sentence Transformers 文檔
- 倉庫:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的 Sentence Transformers
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
評估
知識蒸餾
- 數據集:
mse-en-ua
- 使用
MSEEvaluator
進行評估
指標 | 值 |
---|---|
負均方誤差 | -1.1089 |
語義相似度
- 數據集:
sts17-en-en
、sts17-en-ua
和sts17-ua-ua
- 使用
EmbeddingSimilarityEvaluator
進行評估
指標 | sts17-en-en | sts17-en-ua | sts17-ua-ua |
---|---|---|---|
皮爾遜餘弦相似度 | 0.6785 | 0.5926 | 0.6159 |
斯皮爾曼餘弦相似度 | 0.7308 | 0.6198 | 0.6446 |
訓練詳情
訓練數據集
- 數據集:parallel-sentences-talks、parallel-sentences-wikimatrix、parallel-sentences-tatoeba
- 大小:523,982 個訓練樣本
- 列:
english
、non_english
和label
- 基於前1000個樣本的近似統計信息:
英語 非英語 標籤 類型 字符串 字符串 列表 詳情 - 最小:5個標記
- 平均:21.11個標記
- 最大:254個標記
- 最小:4個標記
- 平均:23.15個標記
- 最大:293個標記
- 大小:768個元素
- 樣本:
英語 非英語 標籤 Her real name is Lydia (リディア, Ridia), but she was mistaken for a boy and called Ricard.
Справжнє ім'я — Лідія, але її помилково сприйняли за хлопчика і назвали Рікард.
[0.15217968821525574, -0.17830222845077515, -0.12677159905433655, 0.22082313895225525, 0.40085524320602417, ...]
(Applause) So he didn't just learn water.
(Аплодисменти) Він не тільки вивчив слово "вода".
[-0.1058148592710495, -0.08846072107553482, -0.2684604823589325, -0.105219267308712, 0.3050258755683899, ...]
It is tightly integrated with SAM, the Storage and Archive Manager, and hence is often referred to as SAM-QFS.
Вона тісно інтегрована з SAM (Storage and Archive Manager), тому часто називається SAM-QFS.
[0.03270340710878372, -0.45798248052597046, -0.20090211927890778, 0.006579531356692314, -0.03178019821643829, ...]
- 損失函數:
MSELoss
評估數據集
- 數據集:parallel-sentences-talks、parallel-sentences-wikimatrix、parallel-sentences-tatoeba
- 大小:3,838 個評估樣本
- 列:
english
、non_english
和label
- 基於前1000個樣本的近似統計信息:
英語 非英語 標籤 類型 字符串 字符串 列表 詳情 - 最小:5個標記
- 平均:15.64個標記
- 最大:143個標記
- 最小:5個標記
- 平均:16.98個標記
- 最大:148個標記
- 大小:768個元素
- 樣本:
英語 非英語 標籤 I have lost my wallet.
Я загубив гаманець.
[-0.11186987161636353, -0.03419225662946701, -0.31304317712783813, 0.0838347002863884, 0.108644500374794, ...]
It's a pharmaceutical product.
Це фармацевтичний продукт.
[0.04133488982915878, -0.4182000756263733, -0.30786487460136414, -0.09351564198732376, -0.023946482688188553, ...]
We've all heard of the Casual Friday thing.
Всі ми чули про «джинсову п’ятницю» (вільна форма одягу).
[-0.10697802156209946, 0.21002227067947388, -0.2513434886932373, -0.3718843460083008, 0.06871984899044037, ...]
- 損失函數:
MSELoss
訓練超參數
非默認超參數
eval_strategy
:按步驟評估per_device_train_batch_size
:16per_device_eval_batch_size
:16gradient_accumulation_steps
:3num_train_epochs
:4warmup_ratio
:0.1
所有超參數
點擊展開
overwrite_output_dir
:Falsedo_predict
:Falseeval_strategy
:按步驟評估prediction_loss_only
:Trueper_device_train_batch_size
:16per_device_eval_batch_size
:16per_gpu_train_batch_size
:Noneper_gpu_eval_batch_size
:Nonegradient_accumulation_steps
:3eval_accumulation_steps
:Nonetorch_empty_cache_steps
:Nonelearning_rate
:5e-05weight_decay
:0.0adam_beta1
:0.9adam_beta2
:0.999adam_epsilon
:1e-08max_grad_norm
:1.0num_train_epochs
:4max_steps
:-1lr_scheduler_type
:線性lr_scheduler_kwargs
:{}warmup_ratio
:0.1warmup_steps
:0log_level
:被動log_level_replica
:警告log_on_each_node
:Truelogging_nan_inf_filter
:Truesave_safetensors
:Truesave_on_each_node
:Falsesave_only_model
:Falserestore_callback_states_from_checkpoint
:Falseno_cuda
:Falseuse_cpu
:Falseuse_mps_device
:Falseseed
:42data_seed
:Nonejit_mode_eval
:Falseuse_ipex
:Falsebf16
:Falsefp16
:Falsefp16_opt_level
:O1half_precision_backend
:自動bf16_full_eval
:Falsefp16_full_eval
:Falsetf32
:Nonelocal_rank
:0ddp_backend
:Nonetpu_num_cores
:Nonetpu_metrics_debug
:Falsedebug
:[]dataloader_drop_last
:Falsedataloader_num_workers
:0dataloader_prefetch_factor
:Nonepast_index
:-1disable_tqdm
:Falseremove_unused_columns
:Truelabel_names
:Noneload_best_model_at_end
:Falseignore_data_skip
:Falsefsdp
:[]fsdp_min_num_params
:0fsdp_config
:{'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
:0fsdp_transformer_layer_cls_to_wrap
:Noneaccelerator_config
:{'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
:Nonelabel_smoothing_factor
:0.0optim
:adamw_torchoptim_args
:Noneadafactor
:Falsegroup_by_length
:Falselength_column_name
:長度ddp_find_unused_parameters
:Noneddp_bucket_cap_mb
:Noneddp_broadcast_buffers
:Falsedataloader_pin_memory
:Truedataloader_persistent_workers
:Falseskip_memory_metrics
:Trueuse_legacy_prediction_loop
:Falsepush_to_hub
:Falseresume_from_checkpoint
:Nonehub_model_id
:Nonehub_strategy
:每次保存時推送hub_private_repo
:Nonehub_always_push
:Falsegradient_checkpointing
:Falsegradient_checkpointing_kwargs
:Noneinclude_inputs_for_metrics
:Falseinclude_for_metrics
:[]eval_do_concat_batches
:Truefp16_backend
:自動push_to_hub_model_id
:Nonepush_to_hub_organization
:Nonemp_parameters
:auto_find_batch_size
:Falsefull_determinism
:Falsetorchdynamo
:Noneray_scope
:最後ddp_timeout
:1800torch_compile
:Falsetorch_compile_backend
:Nonetorch_compile_mode
:Noneinclude_tokens_per_second
:Falseinclude_num_input_tokens_seen
:Falseneftune_noise_alpha
:Noneoptim_target_modules
:Nonebatch_eval_metrics
:Falseeval_on_start
:Falseuse_liger_kernel
:Falseeval_use_gather_object
:Falseaverage_tokens_across_devices
:Falseprompts
:Nonebatch_sampler
:批量採樣器multi_dataset_batch_sampler
:按比例採樣
訓練日誌
輪次 | 步驟 | 訓練損失 | 驗證損失 | mse-en-ua負均方誤差 | sts17-en-en斯皮爾曼餘弦相似度 | sts17-en-ua斯皮爾曼餘弦相似度 | sts17-ua-ua斯皮爾曼餘弦相似度 |
---|---|---|---|---|---|---|---|
0.0938 | 1024 | 0.3281 | 0.0297 | -2.9592 | 0.2325 | 0.1547 | 0.2265 |
0.1876 | 2048 | 0.1136 | 0.2042 | -21.6693 | 0.0553 | 0.0429 | 0.2442 |
0.2814 | 3072 | 0.1008 | 0.0273 | -2.7461 | 0.2666 | 0.0758 | 0.2613 |
0.3752 | 4096 | 0.0843 | 0.0243 | -2.4623 | 0.2541 | 0.0012 | 0.3680 |
0.4690 | 5120 | 0.0756 | 0.0216 | -2.2095 | 0.3933 | 0.2535 | 0.4342 |
0.5628 | 6144 | 0.0661 | 0.0187 | -1.9539 | 0.5739 | 0.4222 | 0.5056 |
0.6566 | 7168 | 0.0579 | 0.0164 | -1.7513 | 0.6184 | 0.4897 | 0.5826 |
0.7504 | 8192 | 0.0526 | 0.0153 | -1.6546 | 0.6219 | 0.4568 | 0.5842 |
0.8442 | 9216 | 0.0488 | 0.0142 | -1.5525 | 0.6160 | 0.5012 | 0.5884 |
0.9380 | 10240 | 0.046 | 0.0135 | -1.4957 | 0.6361 | 0.5046 | 0.5969 |
1.0318 | 11264 | 0.0437 | 0.0130 | -1.4506 | 0.6453 | 0.5093 | 0.5939 |
1.1256 | 12288 | 0.0419 | 0.0125 | -1.4049 | 0.6403 | 0.5054 | 0.6020 |
1.2194 | 13312 | 0.0404 | 0.0122 | -1.3794 | 0.6654 | 0.5442 | 0.6182 |
1.3132 | 14336 | 0.0394 | 0.0118 | -1.3434 | 0.6800 | 0.5790 | 0.6291 |
1.4070 | 15360 | 0.0383 | 0.0115 | -1.3184 | 0.6836 | 0.5805 | 0.6301 |
1.5008 | 16384 | 0.0375 | 0.0114 | -1.3067 | 0.6742 | 0.5555 | 0.6055 |
1.5946 | 17408 | 0.0368 | 0.0111 | -1.2864 | 0.6909 | 0.5765 | 0.6256 |
1.6884 | 18432 | 0.036 | 0.0109 | -1.2633 | 0.6875 | 0.5801 | 0.6178 |
1.7822 | 19456 | 0.0353 | 0.0107 | -1.2490 | 0.7060 | 0.5959 | 0.6322 |
1.8760 | 20480 | 0.035 | 0.0106 | -1.2357 | 0.7127 | 0.6047 | 0.6389 |
1.9698 | 21504 | 0.0344 | 0.0105 | -1.2265 | 0.7265 | 0.6233 | 0.6459 |
2.0636 | 22528 | 0.0335 | 0.0103 | -1.2108 | 0.7184 | 0.6151 | 0.6438 |
2.1574 | 23552 | 0.0327 | 0.0103 | -1.2101 | 0.7122 | 0.6074 | 0.6427 |
2.2512 | 24576 | 0.0324 | 0.0102 | -1.1972 | 0.7232 | 0.6174 | 0.6447 |
2.3450 | 25600 | 0.0322 | 0.0100 | -1.1813 | 0.7217 | 0.6166 | 0.6457 |
2.4388 | 26624 | 0.032 | 0.0099 | -1.1745 | 0.7308 | 0.6272 | 0.6534 |
2.5326 | 27648 | 0.0316 | 0.0098 | -1.1673 | 0.7289 | 0.6125 | 0.6441 |
2.6264 | 28672 | 0.0314 | 0.0098 | -1.1622 | 0.7222 | 0.6105 | 0.6365 |
2.7202 | 29696 | 0.0312 | 0.0097 | -1.1593 | 0.7175 | 0.6121 | 0.6348 |
2.8140 | 30720 | 0.0308 | 0.0096 | -1.1457 | 0.7204 | 0.6044 | 0.6377 |
2.9078 | 31744 | 0.0307 | 0.0095 | -1.1411 | 0.7230 | 0.6175 | 0.6353 |
3.0016 | 32768 | 0.0305 | 0.0095 | -1.1414 | 0.7130 | 0.6052 | 0.6340 |
3.0954 | 33792 | 0.0296 | 0.0095 | -1.1360 | 0.7234 | 0.6160 | 0.6411 |
3.1892 | 34816 | 0.0295 | 0.0094 | -1.1317 | 0.7220 | 0.6131 | 0.6396 |
3.2830 | 35840 | 0.0294 | 0.0094 | -1.1306 | 0.7315 | 0.6167 | 0.6505 |
3.3768 | 36864 | 0.0293 | 0.0094 | -1.1263 | 0.7219 | 0.6089 | 0.6450 |
3.4706 | 37888 | 0.0292 | 0.0093 | -1.1225 | 0.7236 | 0.6141 | 0.6451 |
3.5644 | 38912 | 0.0291 | 0.0093 | -1.1204 | 0.7331 | 0.6179 | 0.6460 |
3.6582 | 39936 | 0.029 | 0.0092 | -1.1147 | 0.7226 | 0.6127 | 0.6406 |
3.7520 | 40960 | 0.029 | 0.0092 | -1.1118 | 0.7245 | 0.6184 | 0.6425 |
3.8458 | 41984 | 0.0289 | 0.0092 | -1.1102 | 0.7279 | 0.6179 | 0.6465 |
3.9396 | 43008 | 0.0288 | 0.0092 | -1.1099 | 0.7298 | 0.6191 | 0.6438 |
3.9997 | 43664 | - | 0.0092 | -1.1089 | 0.7308 | 0.6198 | 0.6446 |
框架版本
- Python:3.11.11
- Sentence Transformers:3.4.1
- Transformers:4.51.1
- PyTorch:2.5.1+cu124
- Accelerate:1.3.0
- Datasets:3.5.0
- Tokenizers:0.21.0
📄 許可證
本模型使用 MIT 許可證。
🔖 引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MSELoss
@inproceedings{reimers-2020-multilingual-sentence-bert,
title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2020",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2004.09813",
}
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98