distilbert-zwnj-wnli-mean-tokensオープンソースモデル - 無料で文章の類似度を計算する便利ツール

ホーム

Distilbert Zwnj Wnli Mean Tokens

m3hrdadfiによって開発

これはDistilBERTアーキテクチャに基づく文埋め込みモデルで、文の類似度計算タスクに特化しています。

テキスト埋め込み

Transformers

#文類似度計算 #ペルシア語サポート #軽量モデル

ダウンロード数 46

リリース時間 : 3/2/2022

モデル概要

このモデルは文を埋め込みベクトルに変換することで文間の類似度を計算し、情報検索や意味検索などのシナリオに適しています。

モデル特徴

効率的な計算

DistilBERTアーキテクチャに基づき、性能を維持しながらモデルサイズと計算リソース要件を削減しました。

文埋め込み

文を固定次元のベクトル表現に変換でき、文間の類似度計算が容易です。

中国語サポート

中国語テキストに特化して最適化されており、中国語の文類似度計算タスクに適しています。

モデル能力

文特徴抽出

文類似度計算

意味検索

使用事例

情報検索

類似質問検索

質問応答システムでユーザーの質問と意味的に類似した質問を検索

質問応答システムの精度と応答速度を向上

テキストマッチング

文書重複排除

内容が類似した文書を識別

重複コンテンツを削減し、情報処理効率を向上

🚀 `distilbert-zwnj-wnli-mean-tokens`による文章埋め込み

このモデルは、文章の類似度を計算するための文章埋め込みを生成します。sentence-transformersまたはHuggingFace Transformersを使用して簡単に利用できます。

🚀 クイックスタート

📦 インストール

sentence-transformersを使用する場合は、まずインストールする必要があります。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

sentence-transformersを使用した基本的な使用例です。

from sentence_transformers import SentenceTransformer

sentences = [
    'اولین حکمران شهر بابل کی بود؟',
    'در فصل زمستان چه اتفاقی افتاد؟',
    'میراث کوروش'
]
model = SentenceTransformer('m3hrdadfi/distilbert-zwnj-wnli-mean-tokens')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

HuggingFace Transformersを直接使用する場合の例です。

from transformers import AutoTokenizer, AutoModel
import torch

# Max Pooling - Take the max value over time for every dimension. 
def max_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    token_embeddings[input_mask_expanded == 0] = -1e9  # Set padding tokens to large negative value
    return torch.mean(token_embeddings, 1)[0]

# Sentences we want sentence embeddings for
sentences = [
    'اولین حکمران شهر بابل کی بود؟',
    'در فصل زمستان چه اتفاقی افتاد؟',
    'میراث کوروش'
]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('m3hrdadfi/distilbert-zwnj-wnli-mean-tokens')
model = AutoModel.from_pretrained('m3hrdadfi/distilbert-zwnj-wnli-mean-tokens')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
# Perform pooling. In this case, max pooling.
sentence_embeddings = max_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

❓ 質問がある場合

質問がある場合は、こちらからGithubのissueを投稿してください。

📄 モデル情報

属性	详情
パイプラインタグ	文章の類似度
タグ	sentence-transformers、特徴抽出、文章の類似度、transformers
ウィジェットのソース文章	"مردی در حال خوردن پاستا است."
ウィジェットの比較文章	'مردی در حال خوردن خوراک است.'、'مردی در حال خوردن یک تکه نان است.'、'دختری بچه ای را حمل می کند.'、'یک مرد سوار بر اسب است.'、'زنی در حال نواختن پیانو است.'、'دو مرد گاری ها را به داخل جنگل هل دادند.'、'مردی در حال سواری بر اسب سفید در مزرعه است.'、'میمونی در حال نواختن طبل است.'、'یوزپلنگ به دنبال شکار خود در حال دویدن است.'