🚀 基于Alibaba-NLP/gte-multilingual-base的波斯语(法尔西语)句子转换器
本项目是一个基于 Alibaba-NLP/gte-multilingual-base 微调的 句子转换器 模型。它可以将波斯语(法尔西语)的句子和段落映射到768维的密集向量空间,可用于波斯语的语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。
🚀 快速开始
直接使用(句子转换器)
首先安装句子转换器库:
pip install -U sentence-transformers
然后,你可以加载此模型并进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("xmanii/maux-gte-persian")
sentences = [
'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
'لئوناردو داوینچی به خاطر مشارکت\u200cهایش در رنسانس شناخته می\u200cشود، نه کوبیسم.',
'شخصیت\u200cهای اصلی در جنبش کوبیسم چه کسانی بودند؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
✨ 主要特性
- 基于强大的
Alibaba-NLP/gte-multilingual-base
模型进行微调,适用于波斯语(法尔西语)场景。
- 能够将波斯语句子和段落映射到768维的密集向量空间,支持多种语义相关任务。
📦 安装指南
安装 Sentence Transformers 库:
pip install -U sentence-transformers
📚 详细文档
模型详情
模型描述
模型来源
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
训练详情
训练超参数
非默认超参数
eval_strategy
:按步数评估
per_device_train_batch_size
:32
per_device_eval_batch_size
:32
learning_rate
:2e - 05
warmup_ratio
:0.1
fp16
:True
📄 许可证
文档中未提及许可证相关信息。
🔧 技术细节
文档中未提供足够详细的技术实现细节。
📚 引用
BibTeX
句子转换器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}