persian-embeddings開源波斯語嵌入模型 - 優化語義任務，免費助力波斯語處理

首頁

Persian Embeddings

由heydariAI開發

基於xlm-roberta-base微調的波斯語嵌入模型，專為波斯語語義任務優化

文本嵌入

Transformers

支持多種語言開源協議:Apache-2.0 #波斯語嵌入 #多語言語義搜索 #上下文相似性計算

下載量 27.37k

發布時間 : 11/21/2024

模型概述

該模型通過微調XLM-RoBERTa基礎模型，針對波斯語語料訓練，能夠生成高質量的波斯語句子和段落嵌入，適用於語義搜索、聚類和相似性計算等任務，同時支持波斯語與英語的多語言處理。

模型特點

波斯語優化

針對波斯語語言特性進行專門優化，能更好捕捉波斯語的語義細微差別

多語言支持

除波斯語外，還支持英語文本處理，適合多語言應用場景

高效嵌入

能夠生成高質量的句子和段落級嵌入向量，適用於下游NLP任務

模型能力

文本嵌入生成

語義相似度計算

多語言文本處理

語義搜索

文本聚類

使用案例

信息檢索

波斯語語義搜索

構建波斯語搜索引擎，實現基於語義而非關鍵詞的文檔檢索

提高波斯語搜索的相關性和準確性

文本分析

文檔聚類

對波斯語文檔進行自動分類和聚類分析

無需人工標註即可發現文檔間的語義關聯

多語言應用

跨語言檢索

實現波斯語與英語內容間的跨語言語義匹配

打破語言障礙，提升多語言內容發現能力

🚀 heydariAI/persian-embeddings

本模型是xlm-roberta-base的微調版本，專門在大量波斯語數據語料庫上進行訓練，旨在為波斯語句子和段落創建高質量的上下文嵌入。它在波斯語文本的語義搜索、聚類和上下文相似度等任務中表現出色，同時也支持英語和波斯語的多語言任務。

微調過程著重於調整預訓練的多語言XLM - RoBERTa模型，以更好地捕捉波斯語的語言細微差別，使其在需要針對波斯語定製嵌入的任務中非常有效。

需注意，persian-embeddings是persian-sentence-transformers-news-wiki-pairs-v4的克隆版本。

我的GitHub：@heydaari

我的領英：Mohammad Hassan Heydari

🚀 快速開始

本模型可用於創建波斯語句子和段落的高質量上下文嵌入，適用於語義搜索、聚類和上下文相似度等任務，同時支持英語和波斯語的多語言任務。

✨ 主要特性

基於xlm-roberta-base微調，在大量波斯語數據語料庫上訓練。
能出色完成波斯語文本的語義搜索、聚類和上下文相似度等任務。
支持英語和波斯語的多語言任務。
微調過程注重捕捉波斯語的語言細微差別。

📦 安裝指南

若要使用此模型，需安裝sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence - Transformers）

當安裝了sentence-transformers後，使用該模型變得簡單：

from sentence_transformers import SentenceTransformer
sentences = ['What are Large Language Models?','مدل های زبانی بزرگ چه هستند؟']

model = SentenceTransformer('heydariAI/persian-embeddings')
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

若未安裝sentence-transformers，可以按以下方式使用模型：首先，將輸入傳遞給變壓器模型，然後對上下文化的詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['what are Large Language Models?', 'مدل های زبانی بزرگ چه هستند؟']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('heydariAI/persian-embeddings')
model = AutoModel.from_pretrained('heydariAI/persian-embeddings')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)