オープンソースのsbert-base-cased-plモデル - ポーランド語の文埋め込みを生成し、文の類似度を比較する

ホーム

Sbert Base Cased Pl

Voicelabによって開発

SHerbertは、ポーランド語のHerBERTモデルに基づくSentenceBERTの実装で、意味的な文の埋め込みを生成するために使用され、コサイン類似度を通じて文の類似度を比較することができます。

テキスト埋め込み

PyTorch

その他#ポーランド語の文の意味的類似度 #ウィキペディアによる事前学習 #シングルネットワーク構造

ダウンロード数 1,606

リリース時間 : 4/11/2022

モデル概要

このモデルは事前学習されたBERTネットワークの改良版で、シングルおよびトリプルネットワーク構造を用いて文の埋め込みを生成し、意味的なテキストの類似性タスクに特化しています。

モデル特徴

ポーランド語の最適化

ポーランド語のHerBERTモデルに基づいて特別に最適化されており、ポーランド語のテキストを処理するのに適しています。

意味的類似度の計算

意味的な文の埋め込みを生成することができ、コサイン類似度を通じて文の類似度を比較することができます。

効率的な学習

ウィキペディアのデータのみを使用して学習されており、モデルの効率性を維持しています。

モデル能力

文の埋め込み生成

意味的類似度の計算

ポーランド語のテキスト処理

使用事例

テキスト分析

類似文の検索

ドキュメント内で意味的に類似した文を検索します。

トピック分類

文の意味に基づいてトピックを分類します。

🚀 SHerbert - ポーランド語版SentenceBERT

SentenceBERTは、事前学習されたBERTネットワークを改良したもので、シアメーザンネットワークとトリプレットネットワーク構造を使用して、意味的に意味のある文章埋め込みを導出します。これらの埋め込みは、コサイン類似度を使用して比較することができます。学習は、元の論文 Siamese BERT models for the task of semantic textual similarity (STS) に基づいて行われ、学習データの使用方法に若干の変更が加えられています。このモデルの目的は、与えられたテキストの意味とトピックの類似性に基づいて、異なる埋め込みを生成することです。

意味的な文章の類似性は、2つのテキストがどれだけ類似しているかを分析します。

モデルの作成方法の詳細については、ブログ記事をご覧ください。

基本的な学習済みモデルは、ポーランド語のHerBERTです。HerBERTは、BERTベースの言語モデルです。詳細については、「HerBERT: Efficiently Pretrained Transformer-based Language Model for Polish」を参照してください。

✨ 主な機能

SentenceBERTは、事前学習されたBERTネットワークを改良し、シアメーザンネットワークとトリプレットネットワーク構造を用いて、意味的に意味のある文章埋め込みを導出し、コサイン類似度で比較できます。このモデルは、与えられたテキストの意味とトピックの類似性に基づいて異なる埋め込みを生成することを目的としています。

📦 コーパス

このモデルは、Wikipedia のみを使用して学習されました。

🔧 トークナイザー

元のHerBERTの実装と同様に、学習データセットは、語彙サイズが50kトークンの文字レベルのバイトペアエンコーディング (CharBPETokenizer) を使用してサブワードにトークナイズされました。トークナイザー自体は、tokenizersライブラリを使用して学習されました。

できるだけ、高速版のトークナイザーであるHerbertTokenizerFastを使用することをお勧めします。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel
from sklearn.metrics import pairwise

sbert = AutoModel.from_pretrained("Voicelab/sbert-base-cased-pl")
tokenizer = AutoTokenizer.from_pretrained("Voicelab/sbert-base-cased-pl")

s0 = "Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i metod jej wdrażania praktycznego."
s1 = "Głębokie uczenie maszynowe jest sktukiem wdrażania praktycznego metod sztucznej inteligencji oraz jej rozwoju."
s2 = "Kasparow zarzucił firmie IBM oszustwo, kiedy odmówiła mu dostępu do historii wcześniejszych gier Deep Blue. "


tokens = tokenizer([s0, s1, s2], 
                    padding=True, 
                    truncation=True,
                    return_tensors='pt')
x = sbert(tokens["input_ids"],
            tokens["attention_mask"]).pooler_output

# similarity between sentences s0 and s1
print(pairwise.cosine_similarity(x[0], x[1])) # Result: 0.7952354

# similarity between sentences s0 and s2
print(pairwise.cosine_similarity(x[0], x[2])) # Result: 0.42359722

📚 結果

モデル	精度	ソース
SBERT-WikiSec-base (EN)	80.42%	https://arxiv.org/abs/1908.10084
SBERT-WikiSec-large (EN)	80.78%	https://arxiv.org/abs/1908.10084
sbert-base-cased-pl	82.31%	https://huggingface.co/Voicelab/sbert-base-cased-pl
sbert-large-cased-pl	84.42%	https://huggingface.co/Voicelab/sbert-large-cased-pl