Xlm Roberta Ua Distilled
模型简介
该模型将句子和段落映射到768维的密集向量空间,适用于语义文本相似度、语义搜索、释义挖掘、文本分类和聚类等任务。
模型特点
多语言支持
支持英语和乌克兰语的语义理解与相似度计算
高维向量表示
将文本映射到768维的密集向量空间,捕获丰富的语义信息
知识蒸馏训练
通过知识蒸馏方法优化模型性能
模型能力
语义文本相似度计算
跨语言语义搜索
文本向量化表示
多语言文本分类
文本聚类分析
使用案例
跨语言信息检索
英语-乌克兰语文档搜索
使用英语查询检索乌克兰语文档
皮尔逊相似度0.5926(sts17-en-ua数据集)
语义相似度分析
同语言文本相似度评估
评估英语或乌克兰语文本对的语义相似度
英语-英语斯皮尔曼相似度0.7308(sts17-en-en数据集)
🚀 基于FacebookAI/xlm-roberta-base的句子转换器
本模型是基于 FacebookAI/xlm-roberta-base 微调的 sentence-transformers 模型。它能将句子和段落映射到一个768维的密集向量空间,可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。
👉 查看 GitHub 上的模型。
🚀 快速开始
本模型是基于 FacebookAI/xlm-roberta-base 微调的 sentence-transformers 模型,可将句子和段落映射到768维的密集向量空间,用于语义文本相似度计算、语义搜索等任务。
✨ 主要特性
- 多语言支持:支持乌克兰语和英语。
- 高维向量表示:将文本映射到768维的密集向量空间。
- 多种应用场景:可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等。
📦 安装指南
首先安装 Sentence Transformers 库:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载
model = SentenceTransformer("panalexeu/xlm-roberta-ua-distilled")
# 运行推理
sentences = [
"You'd better consult the doctor.",
'Краще проконсультуйся у лікаря.',
'Їх позначають як Aufklärungsfahrzeug 93 та Aufklärungsfahrzeug 97 відповідно.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | 句子转换器 |
基础模型 | FacebookAI/xlm-roberta-base |
最大序列长度 | 512个标记 |
输出维度 | 768维 |
相似度函数 | 余弦相似度 |
训练数据集 | parallel-sentences-talks、parallel-sentences-wikimatrix、parallel-sentences-tatoeba |
语言 | 乌克兰语、英语 |
许可证 | MIT |
模型来源
- 文档:Sentence Transformers 文档
- 仓库:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的 Sentence Transformers
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
评估
知识蒸馏
- 数据集:
mse-en-ua
- 使用
MSEEvaluator
进行评估
指标 | 值 |
---|---|
负均方误差 | -1.1089 |
语义相似度
- 数据集:
sts17-en-en
、sts17-en-ua
和sts17-ua-ua
- 使用
EmbeddingSimilarityEvaluator
进行评估
指标 | sts17-en-en | sts17-en-ua | sts17-ua-ua |
---|---|---|---|
皮尔逊余弦相似度 | 0.6785 | 0.5926 | 0.6159 |
斯皮尔曼余弦相似度 | 0.7308 | 0.6198 | 0.6446 |
训练详情
训练数据集
- 数据集:parallel-sentences-talks、parallel-sentences-wikimatrix、parallel-sentences-tatoeba
- 大小:523,982 个训练样本
- 列:
english
、non_english
和label
- 基于前1000个样本的近似统计信息:
英语 非英语 标签 类型 字符串 字符串 列表 详情 - 最小:5个标记
- 平均:21.11个标记
- 最大:254个标记
- 最小:4个标记
- 平均:23.15个标记
- 最大:293个标记
- 大小:768个元素
- 样本:
英语 非英语 标签 Her real name is Lydia (リディア, Ridia), but she was mistaken for a boy and called Ricard.
Справжнє ім'я — Лідія, але її помилково сприйняли за хлопчика і назвали Рікард.
[0.15217968821525574, -0.17830222845077515, -0.12677159905433655, 0.22082313895225525, 0.40085524320602417, ...]
(Applause) So he didn't just learn water.
(Аплодисменти) Він не тільки вивчив слово "вода".
[-0.1058148592710495, -0.08846072107553482, -0.2684604823589325, -0.105219267308712, 0.3050258755683899, ...]
It is tightly integrated with SAM, the Storage and Archive Manager, and hence is often referred to as SAM-QFS.
Вона тісно інтегрована з SAM (Storage and Archive Manager), тому часто називається SAM-QFS.
[0.03270340710878372, -0.45798248052597046, -0.20090211927890778, 0.006579531356692314, -0.03178019821643829, ...]
- 损失函数:
MSELoss
评估数据集
- 数据集:parallel-sentences-talks、parallel-sentences-wikimatrix、parallel-sentences-tatoeba
- 大小:3,838 个评估样本
- 列:
english
、non_english
和label
- 基于前1000个样本的近似统计信息:
英语 非英语 标签 类型 字符串 字符串 列表 详情 - 最小:5个标记
- 平均:15.64个标记
- 最大:143个标记
- 最小:5个标记
- 平均:16.98个标记
- 最大:148个标记
- 大小:768个元素
- 样本:
英语 非英语 标签 I have lost my wallet.
Я загубив гаманець.
[-0.11186987161636353, -0.03419225662946701, -0.31304317712783813, 0.0838347002863884, 0.108644500374794, ...]
It's a pharmaceutical product.
Це фармацевтичний продукт.
[0.04133488982915878, -0.4182000756263733, -0.30786487460136414, -0.09351564198732376, -0.023946482688188553, ...]
We've all heard of the Casual Friday thing.
Всі ми чули про «джинсову п’ятницю» (вільна форма одягу).
[-0.10697802156209946, 0.21002227067947388, -0.2513434886932373, -0.3718843460083008, 0.06871984899044037, ...]
- 损失函数:
MSELoss
训练超参数
非默认超参数
eval_strategy
:按步骤评估per_device_train_batch_size
:16per_device_eval_batch_size
:16gradient_accumulation_steps
:3num_train_epochs
:4warmup_ratio
:0.1
所有超参数
点击展开
overwrite_output_dir
:Falsedo_predict
:Falseeval_strategy
:按步骤评估prediction_loss_only
:Trueper_device_train_batch_size
:16per_device_eval_batch_size
:16per_gpu_train_batch_size
:Noneper_gpu_eval_batch_size
:Nonegradient_accumulation_steps
:3eval_accumulation_steps
:Nonetorch_empty_cache_steps
:Nonelearning_rate
:5e-05weight_decay
:0.0adam_beta1
:0.9adam_beta2
:0.999adam_epsilon
:1e-08max_grad_norm
:1.0num_train_epochs
:4max_steps
:-1lr_scheduler_type
:线性lr_scheduler_kwargs
:{}warmup_ratio
:0.1warmup_steps
:0log_level
:被动log_level_replica
:警告log_on_each_node
:Truelogging_nan_inf_filter
:Truesave_safetensors
:Truesave_on_each_node
:Falsesave_only_model
:Falserestore_callback_states_from_checkpoint
:Falseno_cuda
:Falseuse_cpu
:Falseuse_mps_device
:Falseseed
:42data_seed
:Nonejit_mode_eval
:Falseuse_ipex
:Falsebf16
:Falsefp16
:Falsefp16_opt_level
:O1half_precision_backend
:自动bf16_full_eval
:Falsefp16_full_eval
:Falsetf32
:Nonelocal_rank
:0ddp_backend
:Nonetpu_num_cores
:Nonetpu_metrics_debug
:Falsedebug
:[]dataloader_drop_last
:Falsedataloader_num_workers
:0dataloader_prefetch_factor
:Nonepast_index
:-1disable_tqdm
:Falseremove_unused_columns
:Truelabel_names
:Noneload_best_model_at_end
:Falseignore_data_skip
:Falsefsdp
:[]fsdp_min_num_params
:0fsdp_config
:{'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
:0fsdp_transformer_layer_cls_to_wrap
:Noneaccelerator_config
:{'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
:Nonelabel_smoothing_factor
:0.0optim
:adamw_torchoptim_args
:Noneadafactor
:Falsegroup_by_length
:Falselength_column_name
:长度ddp_find_unused_parameters
:Noneddp_bucket_cap_mb
:Noneddp_broadcast_buffers
:Falsedataloader_pin_memory
:Truedataloader_persistent_workers
:Falseskip_memory_metrics
:Trueuse_legacy_prediction_loop
:Falsepush_to_hub
:Falseresume_from_checkpoint
:Nonehub_model_id
:Nonehub_strategy
:每次保存时推送hub_private_repo
:Nonehub_always_push
:Falsegradient_checkpointing
:Falsegradient_checkpointing_kwargs
:Noneinclude_inputs_for_metrics
:Falseinclude_for_metrics
:[]eval_do_concat_batches
:Truefp16_backend
:自动push_to_hub_model_id
:Nonepush_to_hub_organization
:Nonemp_parameters
:auto_find_batch_size
:Falsefull_determinism
:Falsetorchdynamo
:Noneray_scope
:最后ddp_timeout
:1800torch_compile
:Falsetorch_compile_backend
:Nonetorch_compile_mode
:Noneinclude_tokens_per_second
:Falseinclude_num_input_tokens_seen
:Falseneftune_noise_alpha
:Noneoptim_target_modules
:Nonebatch_eval_metrics
:Falseeval_on_start
:Falseuse_liger_kernel
:Falseeval_use_gather_object
:Falseaverage_tokens_across_devices
:Falseprompts
:Nonebatch_sampler
:批量采样器multi_dataset_batch_sampler
:按比例采样
训练日志
轮次 | 步骤 | 训练损失 | 验证损失 | mse-en-ua负均方误差 | sts17-en-en斯皮尔曼余弦相似度 | sts17-en-ua斯皮尔曼余弦相似度 | sts17-ua-ua斯皮尔曼余弦相似度 |
---|---|---|---|---|---|---|---|
0.0938 | 1024 | 0.3281 | 0.0297 | -2.9592 | 0.2325 | 0.1547 | 0.2265 |
0.1876 | 2048 | 0.1136 | 0.2042 | -21.6693 | 0.0553 | 0.0429 | 0.2442 |
0.2814 | 3072 | 0.1008 | 0.0273 | -2.7461 | 0.2666 | 0.0758 | 0.2613 |
0.3752 | 4096 | 0.0843 | 0.0243 | -2.4623 | 0.2541 | 0.0012 | 0.3680 |
0.4690 | 5120 | 0.0756 | 0.0216 | -2.2095 | 0.3933 | 0.2535 | 0.4342 |
0.5628 | 6144 | 0.0661 | 0.0187 | -1.9539 | 0.5739 | 0.4222 | 0.5056 |
0.6566 | 7168 | 0.0579 | 0.0164 | -1.7513 | 0.6184 | 0.4897 | 0.5826 |
0.7504 | 8192 | 0.0526 | 0.0153 | -1.6546 | 0.6219 | 0.4568 | 0.5842 |
0.8442 | 9216 | 0.0488 | 0.0142 | -1.5525 | 0.6160 | 0.5012 | 0.5884 |
0.9380 | 10240 | 0.046 | 0.0135 | -1.4957 | 0.6361 | 0.5046 | 0.5969 |
1.0318 | 11264 | 0.0437 | 0.0130 | -1.4506 | 0.6453 | 0.5093 | 0.5939 |
1.1256 | 12288 | 0.0419 | 0.0125 | -1.4049 | 0.6403 | 0.5054 | 0.6020 |
1.2194 | 13312 | 0.0404 | 0.0122 | -1.3794 | 0.6654 | 0.5442 | 0.6182 |
1.3132 | 14336 | 0.0394 | 0.0118 | -1.3434 | 0.6800 | 0.5790 | 0.6291 |
1.4070 | 15360 | 0.0383 | 0.0115 | -1.3184 | 0.6836 | 0.5805 | 0.6301 |
1.5008 | 16384 | 0.0375 | 0.0114 | -1.3067 | 0.6742 | 0.5555 | 0.6055 |
1.5946 | 17408 | 0.0368 | 0.0111 | -1.2864 | 0.6909 | 0.5765 | 0.6256 |
1.6884 | 18432 | 0.036 | 0.0109 | -1.2633 | 0.6875 | 0.5801 | 0.6178 |
1.7822 | 19456 | 0.0353 | 0.0107 | -1.2490 | 0.7060 | 0.5959 | 0.6322 |
1.8760 | 20480 | 0.035 | 0.0106 | -1.2357 | 0.7127 | 0.6047 | 0.6389 |
1.9698 | 21504 | 0.0344 | 0.0105 | -1.2265 | 0.7265 | 0.6233 | 0.6459 |
2.0636 | 22528 | 0.0335 | 0.0103 | -1.2108 | 0.7184 | 0.6151 | 0.6438 |
2.1574 | 23552 | 0.0327 | 0.0103 | -1.2101 | 0.7122 | 0.6074 | 0.6427 |
2.2512 | 24576 | 0.0324 | 0.0102 | -1.1972 | 0.7232 | 0.6174 | 0.6447 |
2.3450 | 25600 | 0.0322 | 0.0100 | -1.1813 | 0.7217 | 0.6166 | 0.6457 |
2.4388 | 26624 | 0.032 | 0.0099 | -1.1745 | 0.7308 | 0.6272 | 0.6534 |
2.5326 | 27648 | 0.0316 | 0.0098 | -1.1673 | 0.7289 | 0.6125 | 0.6441 |
2.6264 | 28672 | 0.0314 | 0.0098 | -1.1622 | 0.7222 | 0.6105 | 0.6365 |
2.7202 | 29696 | 0.0312 | 0.0097 | -1.1593 | 0.7175 | 0.6121 | 0.6348 |
2.8140 | 30720 | 0.0308 | 0.0096 | -1.1457 | 0.7204 | 0.6044 | 0.6377 |
2.9078 | 31744 | 0.0307 | 0.0095 | -1.1411 | 0.7230 | 0.6175 | 0.6353 |
3.0016 | 32768 | 0.0305 | 0.0095 | -1.1414 | 0.7130 | 0.6052 | 0.6340 |
3.0954 | 33792 | 0.0296 | 0.0095 | -1.1360 | 0.7234 | 0.6160 | 0.6411 |
3.1892 | 34816 | 0.0295 | 0.0094 | -1.1317 | 0.7220 | 0.6131 | 0.6396 |
3.2830 | 35840 | 0.0294 | 0.0094 | -1.1306 | 0.7315 | 0.6167 | 0.6505 |
3.3768 | 36864 | 0.0293 | 0.0094 | -1.1263 | 0.7219 | 0.6089 | 0.6450 |
3.4706 | 37888 | 0.0292 | 0.0093 | -1.1225 | 0.7236 | 0.6141 | 0.6451 |
3.5644 | 38912 | 0.0291 | 0.0093 | -1.1204 | 0.7331 | 0.6179 | 0.6460 |
3.6582 | 39936 | 0.029 | 0.0092 | -1.1147 | 0.7226 | 0.6127 | 0.6406 |
3.7520 | 40960 | 0.029 | 0.0092 | -1.1118 | 0.7245 | 0.6184 | 0.6425 |
3.8458 | 41984 | 0.0289 | 0.0092 | -1.1102 | 0.7279 | 0.6179 | 0.6465 |
3.9396 | 43008 | 0.0288 | 0.0092 | -1.1099 | 0.7298 | 0.6191 | 0.6438 |
3.9997 | 43664 | - | 0.0092 | -1.1089 | 0.7308 | 0.6198 | 0.6446 |
框架版本
- Python:3.11.11
- Sentence Transformers:3.4.1
- Transformers:4.51.1
- PyTorch:2.5.1+cu124
- Accelerate:1.3.0
- Datasets:3.5.0
- Tokenizers:0.21.0
📄 许可证
本模型使用 MIT 许可证。
🔖 引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MSELoss
@inproceedings{reimers-2020-multilingual-sentence-bert,
title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2020",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/2004.09813",
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98