MarathiSentenceSimilarity開源模型 - 免費將馬拉地語文本映射到向量空間

首頁

Marathisentencesimilarity

由sangambhamare開發

基於SBERT架構的馬拉地語句子嵌入模型，可將文本映射到768維向量空間

文本嵌入 #馬拉地語語義相似度 #768維向量嵌入 #多任務NLP支持

下載量 240

發布時間 : 7/19/2025

模型概述

該模型專門用於處理馬拉地語(Marathi)文本，能夠計算句子之間的語義相似度，支持多種下游NLP任務

模型特點

多任務支持

支持語義相似度計算、語義搜索、文本分類等多種NLP任務

高效向量化

將句子高效映射到768維密集向量空間，保留語義信息

長文本處理

支持最大512詞元的序列長度，可處理段落級文本

模型能力

語義文本相似度計算

語義搜索

釋義挖掘

文本分類

文本聚類

使用案例

信息檢索

馬拉地語文檔搜索

根據查詢語義匹配相關文檔

可提高非精確匹配情況下的召回率

內容分析

新聞文章去重

識別報道相同事件的不同新聞文章

有效降低內容重複率

🚀 基於l3cube - pune/marathi - sentence - similarity - sbert的句子轉換器模型

本項目基於 l3cube - pune/marathi - sentence - similarity - sbert 模型進行微調，構建了一個強大的句子轉換器。它能夠將句子和段落映射到768維的密集向量空間，可廣泛應用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等多個自然語言處理任務中。

🚀 快速開始

安裝Sentence Transformers庫

首先，你需要安裝 Sentence Transformers 庫：

pip install -U sentence-transformers

加載模型並進行推理

安裝完成後，你可以加載此模型並進行推理：

from sentence_transformers import SentenceTransformer

# 從🤗 Hub下載模型
model = SentenceTransformer("sentence_transformers_model_id")
# 進行推理
sentences = [
    'प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'दुसरा प्रस्ताव असा होता की प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार-विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'अमेरिकेच्या बॉय स्काऊट्स समलिंगीवरील बंदीवर मतदानावर विलंब करतात',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 獲取嵌入向量的相似度得分
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

多任務支持：可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等多種自然語言處理任務。
高效映射：能將句子和段落高效地映射到768維的密集向量空間。

📦 安裝指南

安裝 Sentence Transformers 庫：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer

# 從🤗 Hub下載模型
model = SentenceTransformer("sentence_transformers_model_id")
# 進行推理
sentences = [
    'प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'दुसरा प्रस्ताव असा होता की प्रादेशिक आणि आंतरराष्ट्रीय नॉन-प्रसार-विषयांवर संवाद आणि वाटाघाटीद्वारे लक्ष दिले पाहिजे.',
    'अमेरिकेच्या बॉय स्काऊट्स समलिंगीवरील बंदीवर मतदानावर विलंब करतात',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# 獲取嵌入向量的相似度得分
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
模型類型	句子轉換器
基礎模型	[l3cube - pune/marathi - sentence - similarity - sbert](https://huggingface.co/l3cube - pune/marathi - sentence - similarity - sbert)
最大序列長度	512個詞元
輸出維度	768維
相似度函數	餘弦相似度

模型來源

文檔：Sentence Transformers Documentation
倉庫：[Sentence Transformers on GitHub](https://github.com/UKPLab/sentence - transformers)
Hugging Face：[Sentence Transformers on Hugging Face](https://huggingface.co/models?library = sentence - transformers)

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

訓練詳情

訓練數據集

未命名數據集

規模：5748個訓練樣本
列信息：包含 <code>sentence_0</code>、<code>sentence_1</code> 和 <code>label</code> 三列
基於前1000個樣本的近似統計信息： | | sentence_0 | sentence_1 | label | | ---- | ---- | ---- | ---- | | 類型 | 字符串 | 字符串 | 浮點數 | | 詳情 |
- 最小：5個詞元
- 平均：16.13個詞元
- 最大：67個詞元
|
- 最小：5個詞元
- 平均：16.26個詞元
- 最大：55個詞元
|
- 最小：0.0
- 平均：0.55
- 最大：1.0
|
樣本示例： | sentence_0 | sentence_1 | label | | ---- | ---- | ---- | | बोलताना त्या माणसाने आपला सनग्लासेस काढून घेतला. | कठोर टोपी घातलेला माणूस बोलताना त्याचे चष्मा काढून टाकतो. | 0.6799999999999999 | | दिवाणखान्यात लोकांचा एक गट. | चार लोकांचा एक गट राक्षस मशरूमच्या मागे चालत आहे. | 0.16 | | अ‍ॅम्नेस्टी इंटरनॅशनलचा अहवाल सशस्त्र हिंसाचाराला विरोध करणार्‍या सेफरवर्ल्डसारख्या युरोपियन आणि आंतरराष्ट्रीय गैर - सरकारी संस्थांनी संकलित केला होता. | अ‍ॅम्नेस्टी आंतरराष्ट्रीय अहवाल युरोपियन आणि आंतरराष्ट्रीय गैर - सरकारी मंचांनी संकलित केला होता. | 0.64 |
損失函數：CosineSimilarityLoss，參數如下：

{
    "loss_fct": "torch.nn.modules.loss.MSELoss"
}

訓練超參數

非默認超參數

num_train_epochs：4
multi_dataset_batch_sampler：round_robin

所有超參數

點擊展開

overwrite_output_dir：False
do_predict：False
eval_strategy：no
prediction_loss_only：True
per_device_train_batch_size：8
per_device_eval_batch_size：8
per_gpu_train_batch_size：None
per_gpu_eval_batch_size：None
gradient_accumulation_steps：1
eval_accumulation_steps：None
torch_empty_cache_steps：None
learning_rate：5e - 05
weight_decay：0.0
adam_beta1：0.9
adam_beta2：0.999
adam_epsilon：1e - 08
max_grad_norm：1
num_train_epochs：4
max_steps： - 1
lr_scheduler_type：linear
lr_scheduler_kwargs：{}
warmup_ratio：0.0
warmup_steps：0
log_level：passive
log_level_replica：warning
log_on_each_node：True
logging_nan_inf_filter：True
save_safetensors：True
save_on_each_node：False
save_only_model：False
restore_callback_states_from_checkpoint：False
no_cuda：False
use_cpu：False
use_mps_device：False
seed：42
data_seed：None
jit_mode_eval：False
use_ipex：False
bf16：False
fp16：False
fp16_opt_level：O1
half_precision_backend：auto
bf16_full_eval：False
fp16_full_eval：False
tf32：None
local_rank：0
ddp_backend：None
tpu_num_cores：None
tpu_metrics_debug：False
debug：[]
dataloader_drop_last：False
dataloader_num_workers：0
dataloader_prefetch_factor：None
past_index： - 1
disable_tqdm：False
remove_unused_columns：True
label_names：None
load_best_model_at_end：False
ignore_data_skip：False
fsdp：[]
fsdp_min_num_params：0
fsdp_config：{'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap：None
accelerator_config：{'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed：None
label_smoothing_factor：0.0
optim：adamw_torch
optim_args：None
adafactor：False
group_by_length：False
length_column_name：length
ddp_find_unused_parameters：None
ddp_bucket_cap_mb：None
ddp_broadcast_buffers：False
dataloader_pin_memory：True
dataloader_persistent_workers：False
skip_memory_metrics：True
use_legacy_prediction_loop：False
push_to_hub：False
resume_from_checkpoint：None
hub_model_id：None
hub_strategy：every_save
hub_private_repo：None
hub_always_push：False
hub_revision：None
gradient_checkpointing：False
gradient_checkpointing_kwargs：None
include_inputs_for_metrics：False
include_for_metrics：[]
eval_do_concat_batches：True
fp16_backend：auto
push_to_hub_model_id：None
push_to_hub_organization：None
mp_parameters：
auto_find_batch_size：False
full_determinism：False
torchdynamo：None
ray_scope：last
ddp_timeout：1800
torch_compile：False
torch_compile_backend：None
torch_compile_mode：None
include_tokens_per_second：False
include_num_input_tokens_seen：False
neftune_noise_alpha：None
optim_target_modules：None
batch_eval_metrics：False
eval_on_start：False
use_liger_kernel：False
liger_kernel_config：None
eval_use_gather_object：False
average_tokens_across_devices：False
prompts：None
batch_sampler：batch_sampler
multi_dataset_batch_sampler：round_robin

訓練日誌

輪次	步數	訓練損失
0.6954	500	0.0223
1.3908	1000	0.0172
2.0862	1500	0.0109
2.7816	2000	0.0069
3.4771	2500	0.0055

框架版本

Python：3.11.13
Sentence Transformers：4.1.0
Transformers：4.53.2
PyTorch：2.6.0 + cu124
Accelerate：1.8.1
Datasets：2.14.4
Tokenizers：0.21.2

📄 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}