persian-embeddings开源波斯语嵌入模型 - 优化语义任务，免费助力波斯语处理

首页

Persian Embeddings

由 heydariAI 开发

基于xlm-roberta-base微调的波斯语嵌入模型，专为波斯语语义任务优化

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #波斯语嵌入 #多语言语义搜索 #上下文相似性计算

下载量 27.37k

发布时间 : 11/21/2024

模型简介

该模型通过微调XLM-RoBERTa基础模型，针对波斯语语料训练，能够生成高质量的波斯语句子和段落嵌入，适用于语义搜索、聚类和相似性计算等任务，同时支持波斯语与英语的多语言处理。

模型特点

波斯语优化

针对波斯语语言特性进行专门优化，能更好捕捉波斯语的语义细微差别

多语言支持

除波斯语外，还支持英语文本处理，适合多语言应用场景

高效嵌入

能够生成高质量的句子和段落级嵌入向量，适用于下游NLP任务

模型能力

文本嵌入生成

语义相似度计算

多语言文本处理

语义搜索

文本聚类

使用案例

信息检索

波斯语语义搜索

构建波斯语搜索引擎，实现基于语义而非关键词的文档检索

提高波斯语搜索的相关性和准确性

文本分析

文档聚类

对波斯语文档进行自动分类和聚类分析

无需人工标注即可发现文档间的语义关联

多语言应用

跨语言检索

实现波斯语与英语内容间的跨语言语义匹配

打破语言障碍，提升多语言内容发现能力

🚀 heydariAI/persian-embeddings

本模型是xlm-roberta-base的微调版本，专门在大量波斯语数据语料库上进行训练，旨在为波斯语句子和段落创建高质量的上下文嵌入。它在波斯语文本的语义搜索、聚类和上下文相似度等任务中表现出色，同时也支持英语和波斯语的多语言任务。

微调过程着重于调整预训练的多语言XLM - RoBERTa模型，以更好地捕捉波斯语的语言细微差别，使其在需要针对波斯语定制嵌入的任务中非常有效。

需注意，persian-embeddings是persian-sentence-transformers-news-wiki-pairs-v4的克隆版本。

我的GitHub：@heydaari

我的领英：Mohammad Hassan Heydari

🚀 快速开始

本模型可用于创建波斯语句子和段落的高质量上下文嵌入，适用于语义搜索、聚类和上下文相似度等任务，同时支持英语和波斯语的多语言任务。

✨ 主要特性

基于xlm-roberta-base微调，在大量波斯语数据语料库上训练。
能出色完成波斯语文本的语义搜索、聚类和上下文相似度等任务。
支持英语和波斯语的多语言任务。
微调过程注重捕捉波斯语的语言细微差别。

📦 安装指南

若要使用此模型，需安装sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence - Transformers）

当安装了sentence-transformers后，使用该模型变得简单：

from sentence_transformers import SentenceTransformer
sentences = ['What are Large Language Models?','مدل های زبانی بزرگ چه هستند؟']

model = SentenceTransformer('heydariAI/persian-embeddings')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

若未安装sentence-transformers，可以按以下方式使用模型：首先，将输入传递给变压器模型，然后对上下文化的词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['what are Large Language Models?', 'مدل های زبانی بزرگ چه هستند؟']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('heydariAI/persian-embeddings')
model = AutoModel.from_pretrained('heydariAI/persian-embeddings')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)