🚀 基於Alibaba-NLP/gte-multilingual-base的波斯語(法爾西語)句子轉換器
本項目是一個基於 Alibaba-NLP/gte-multilingual-base 微調的 句子轉換器 模型。它可以將波斯語(法爾西語)的句子和段落映射到768維的密集向量空間,可用於波斯語的語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等任務。
🚀 快速開始
直接使用(句子轉換器)
首先安裝句子轉換器庫:
pip install -U sentence-transformers
然後,你可以加載此模型並進行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("xmanii/maux-gte-persian")
sentences = [
'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
'لئوناردو داوینچی به خاطر مشارکت\u200cهایش در رنسانس شناخته می\u200cشود، نه کوبیسم.',
'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
✨ 主要特性
- 基於強大的
Alibaba-NLP/gte-multilingual-base
模型進行微調,適用於波斯語(法爾西語)場景。
- 能夠將波斯語句子和段落映射到768維的密集向量空間,支持多種語義相關任務。
📦 安裝指南
安裝 Sentence Transformers 庫:
pip install -U sentence-transformers
📚 詳細文檔
模型詳情
模型描述
模型來源
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
訓練詳情
訓練超參數
非默認超參數
eval_strategy
:按步數評估
per_device_train_batch_size
:32
per_device_eval_batch_size
:32
learning_rate
:2e - 05
warmup_ratio
:0.1
fp16
:True
📄 許可證
文檔中未提及許可證相關信息。
🔧 技術細節
文檔中未提供足夠詳細的技術實現細節。
📚 引用
BibTeX
句子轉換器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}