roberta-zwnj-wnli-mean-tokens開源波斯語句子嵌入模型

首頁

Roberta Zwnj Wnli Mean Tokens

由m3hrdadfi開發

基於RoBERTa架構的波斯語（ZWNJ）句子嵌入模型，用於生成句子級別的特徵表示

文本嵌入

Transformers

#波斯語句子嵌入 #文本相似度計算 #RoBERTa架構

下載量 104

發布時間 : 3/2/2022

模型概述

該模型基於RoBERTa架構，專門針對波斯語文本（使用ZWNJ分詞）進行優化，能夠將句子轉換為高質量的嵌入向量，適用於句子相似度計算等任務。

模型特點

波斯語優化

專門針對波斯語文本進行優化，支持ZWNJ分詞

高質量句子嵌入

能夠生成高質量的句子級別嵌入表示

基於RoBERTa架構

利用強大的RoBERTa架構進行特徵提取

模型能力

句子特徵提取

句子相似度計算

文本表示學習

使用案例

信息檢索

相似問題查找

在問答系統中查找語義相似的問題

文本分析

文檔聚類

基於句子嵌入進行文檔聚類分析

🚀 `roberta-zwnj-wnli-mean-tokens` 句子嵌入模型

本項目藉助 roberta-zwnj-wnli-mean-tokens 模型實現句子嵌入功能，可用於特徵提取、句子相似度計算等任務，為自然語言處理相關應用提供有力支持。

🚀 快速開始

📦 安裝指南

若要使用該模型，你需要安裝 sentence-transformers 庫，可通過以下命令進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法（使用 sentence-transformers 庫）

from sentence_transformers import SentenceTransformer

sentences = [
    'اولین حکمران شهر بابل کی بود؟',
    'در فصل زمستان چه اتفاقی افتاد؟',
    'میراث کوروش'
]
model = SentenceTransformer('m3hrdadfi/roberta-zwnj-wnli-mean-tokens')
embeddings = model.encode(sentences)
print(embeddings)

高級用法（不使用 sentence-transformers 庫）

不使用 sentence-transformers 庫時，你需要先將輸入數據傳入 Transformer 模型，然後對上下文詞嵌入應用合適的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch

# Max Pooling - Take the max value over time for every dimension. 
def max_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    token_embeddings[input_mask_expanded == 0] = -1e9  # Set padding tokens to large negative value
    return torch.mean(token_embeddings, 1)[0]

# Sentences we want sentence embeddings for
sentences = [
    'اولین حکمران شهر بابل کی بود؟',
    'در فصل زمستان چه اتفاقی افتاد؟',
    'میراث کوروش'
]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('m3hrdadfi/roberta-zwnj-wnli-mean-tokens')
model = AutoModel.from_pretrained('m3hrdadfi/roberta-zwnj-wnli-mean-tokens')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
# Perform pooling. In this case, max pooling.
sentence_embeddings = max_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)