MarathiSentenceSimilarity开源模型 - 免费将马拉地语文本映射到向量空间

Home

Marathisentencesimilarity

Developed by sangambhamare

基于SBERT架构的马拉地语句子嵌入模型，可将文本映射到768维向量空间

文本嵌入 #马拉地语语义相似度 #768维向量嵌入 #多任务NLP支持

Downloads 240

Release Time : 7/19/2025

Model Overview

该模型专门用于处理马拉地语(Marathi)文本，能够计算句子之间的语义相似度，支持多种下游NLP任务

Model Features

多任务支持

支持语义相似度计算、语义搜索、文本分类等多种NLP任务

高效向量化

将句子高效映射到768维密集向量空间，保留语义信息

长文本处理

支持最大512词元的序列长度，可处理段落级文本

Model Capabilities

语义文本相似度计算

语义搜索

释义挖掘

文本分类

文本聚类

Use Cases

信息检索

马拉地语文档搜索

根据查询语义匹配相关文档

可提高非精确匹配情况下的召回率

内容分析

新闻文章去重

识别报道相同事件的不同新闻文章

有效降低内容重复率

🚀 基于l3cube - pune/marathi - sentence - similarity - sbert的句子转换器模型

本项目基于 l3cube - pune/marathi - sentence - similarity - sbert 模型进行微调，构建了一个强大的句子转换器。它能够将句子和段落映射到768维的密集向量空间，可广泛应用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等多个自然语言处理任务中。

🚀 快速开始

安装Sentence Transformers库

首先，你需要安装 Sentence Transformers 库：

pip install -U sentence-transformers

加载模型并进行推理

安装完成后，你可以加载此模型并进行推理：

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载模型
model = SentenceTransformer("sentence_transformers_model_id")
# 进行推理
sentences = [
    'प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'दुसरा प्रस्ताव असा होता की प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार-विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'अमेरिकेच्या बॉय स्काऊट्स समलिंगीवरील बंदीवर मतदानावर विलंब करतात',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 获取嵌入向量的相似度得分
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

多任务支持：可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等多种自然语言处理任务。
高效映射：能将句子和段落高效地映射到768维的密集向量空间。

📦 安装指南

安装 Sentence Transformers 库：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 从🤗 Hub下载模型
model = SentenceTransformer("sentence_transformers_model_id")
# 进行推理
sentences = [
    'प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'दुसरा प्रस्ताव असा होता की प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार-विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'अमेरिकेच्या बॉय स्काऊट्स समलिंगीवरील बंदीवर मतदानावर विलंब करतात',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 获取嵌入向量的相似度得分
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 详细文档

模型详情

模型描述

属性	详情
模型类型	句子转换器
基础模型	[l3cube - pune/marathi - sentence - similarity - sbert](https://huggingface.co/l3cube - pune/marathi - sentence - similarity - sbert)
最大序列长度	512个词元
输出维度	768维
相似度函数	余弦相似度

模型来源

文档：Sentence Transformers Documentation
仓库：[Sentence Transformers on GitHub](https://github.com/UKPLab/sentence - transformers)
Hugging Face：[Sentence Transformers on Hugging Face](https://huggingface.co/models?library = sentence - transformers)

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

训练详情

训练数据集

未命名数据集

规模：5748个训练样本
列信息：包含 <code>sentence_0</code>、<code>sentence_1</code> 和 <code>label</code> 三列
基于前1000个样本的近似统计信息： | | sentence_0 | sentence_1 | label | | ---- | ---- | ---- | ---- | | 类型 | 字符串 | 字符串 | 浮点数 | | 详情 |
- 最小：5个词元
- 平均：16.13个词元
- 最大：67个词元
|
- 最小：5个词元
- 平均：16.26个词元
- 最大：55个词元
|
- 最小：0.0
- 平均：0.55
- 最大：1.0
|
样本示例： | sentence_0 | sentence_1 | label | | ---- | ---- | ---- | | बोलताना त्या माणसाने आपला सनग्लासेस काढून घेतला. | कठोर टोपी घातलेला माणूस बोलताना त्याचे चष्मा काढून टाकतो. | 0.6799999999999999 | | दिवाणखान्यात लोकांचा एक गट. | चार लोकांचा एक गट राक्षस मशरूमच्या मागे चालत आहे. | 0.16 | | अ‍ॅम्नेस्टी इंटरनॅशनलचा अहवाल सशस्त्र हिंसाचाराला विरोध करणार्‍या सेफरवर्ल्डसारख्या युरोपियन आणि आंतरराष्ट्रीय गैर - सरकारी संस्थांनी संकलित केला होता. | अ‍ॅम्नेस्टी आंतरराष्ट्रीय अहवाल युरोपियन आणि आंतरराष्ट्रीय गैर - सरकारी मंचांनी संकलित केला होता. | 0.64 |
损失函数：CosineSimilarityLoss，参数如下：

{
    "loss_fct": "torch.nn.modules.loss.MSELoss"
}

训练超参数

非默认超参数

num_train_epochs：4
multi_dataset_batch_sampler：round_robin

所有超参数

点击展开

overwrite_output_dir：False
do_predict：False
eval_strategy：no
prediction_loss_only：True
per_device_train_batch_size：8
per_device_eval_batch_size：8
per_gpu_train_batch_size：None
per_gpu_eval_batch_size：None
gradient_accumulation_steps：1
eval_accumulation_steps：None
torch_empty_cache_steps：None
learning_rate：5e - 05
weight_decay：0.0
adam_beta1：0.9
adam_beta2：0.999
adam_epsilon：1e - 08
max_grad_norm：1
num_train_epochs：4
max_steps： - 1
lr_scheduler_type：linear
lr_scheduler_kwargs：{}
warmup_ratio：0.0
warmup_steps：0
log_level：passive
log_level_replica：warning
log_on_each_node：True
logging_nan_inf_filter：True
save_safetensors：True
save_on_each_node：False
save_only_model：False
restore_callback_states_from_checkpoint：False
no_cuda：False
use_cpu：False
use_mps_device：False
seed：42
data_seed：None
jit_mode_eval：False
use_ipex：False
bf16：False
fp16：False
fp16_opt_level：O1
half_precision_backend：auto
bf16_full_eval：False
fp16_full_eval：False
tf32：None
local_rank：0
ddp_backend：None
tpu_num_cores：None
tpu_metrics_debug：False
debug：[]
dataloader_drop_last：False
dataloader_num_workers：0
dataloader_prefetch_factor：None
past_index： - 1
disable_tqdm：False
remove_unused_columns：True
label_names：None
load_best_model_at_end：False
ignore_data_skip：False
fsdp：[]
fsdp_min_num_params：0
fsdp_config：{'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap：None
accelerator_config：{'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed：None
label_smoothing_factor：0.0
optim：adamw_torch
optim_args：None
adafactor：False
group_by_length：False
length_column_name：length
ddp_find_unused_parameters：None
ddp_bucket_cap_mb：None
ddp_broadcast_buffers：False
dataloader_pin_memory：True
dataloader_persistent_workers：False
skip_memory_metrics：True
use_legacy_prediction_loop：False
push_to_hub：False
resume_from_checkpoint：None
hub_model_id：None
hub_strategy：every_save
hub_private_repo：None
hub_always_push：False
hub_revision：None
gradient_checkpointing：False
gradient_checkpointing_kwargs：None
include_inputs_for_metrics：False
include_for_metrics：[]
eval_do_concat_batches：True
fp16_backend：auto
push_to_hub_model_id：None
push_to_hub_organization：None
mp_parameters：
auto_find_batch_size：False
full_determinism：False
torchdynamo：None
ray_scope：last
ddp_timeout：1800
torch_compile：False
torch_compile_backend：None
torch_compile_mode：None
include_tokens_per_second：False
include_num_input_tokens_seen：False
neftune_noise_alpha：None
optim_target_modules：None
batch_eval_metrics：False
eval_on_start：False
use_liger_kernel：False
liger_kernel_config：None
eval_use_gather_object：False
average_tokens_across_devices：False
prompts：None
batch_sampler：batch_sampler
multi_dataset_batch_sampler：round_robin

训练日志

轮次	步数	训练损失
0.6954	500	0.0223
1.3908	1000	0.0172
2.0862	1500	0.0109
2.7816	2000	0.0069
3.4771	2500	0.0055

框架版本

Python：3.11.13
Sentence Transformers：4.1.0
Transformers：4.53.2
PyTorch：2.6.0 + cu124
Accelerate：1.8.1
Datasets：2.14.4
Tokenizers：0.21.2

📄 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}