albert - fa - base - v2オープンソース軽量級モデル - ペルシャ語の言語表現についての自己教師付き学習を無料で実現

ホーム

Albert Fa Base V2

m3hrdadfiによって開発

ペルシア語の言語表現の自己教師付き学習に使用される軽量級BERTモデル

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #ペルシア語NLP #軽量級BERT #マルチタスク微調整

ダウンロード数 43

リリース時間 : 3/2/2022

モデル概要

ALBERT - ペルシア語版は大量の公開コーパスを基に訓練され、主に感情分析、テキスト分類、固有表現認識などの下流タスクの微調整に使用されます。

モデル特徴

軽量級設計

ALBERTアーキテクチャに基づいており、標準のBERTモデルよりも軽量です。

多様な訓練データ

ウィキペディア、ニュース、科普、ライフスタイルなど様々なソースのペルシア語データを使用して訓練されています。

下流タスク適合

感情分析、テキスト分類、固有表現認識などの下流タスクの微調整に特に適しています。

モデル能力

ペルシア語テキスト理解

マスク言語モデリング

次文予測

感情分析

テキスト分類

固有表現認識

使用事例

感情分析

Digikalaレビューの感情分析

電子商取引プラットフォームDigikalaのユーザーレビューの感情傾向を分析する

F1スコア81.12

Snappfoodレビューの感情分析

配達サービスプラットフォームSnappfoodのユーザーレビューの感情傾向を分析する

F1スコア85.79

テキスト分類

Digikala雑誌分類

Digikalaのデジタル雑誌の内容を分類する

正解率92.33

ペルシア語ニュース分類

ペルシア語のニュース内容を分類する

正解率97.01

固有表現認識

基本的なNER

ペルシア語テキスト中の固有表現を識別する

PEYMAデータセットのF1スコア88.99

ARMANデータセットのNER

ARMANデータセットで固有表現認識を行う

F1スコア97.43

🚀 ALBERT-Persian

このモデルは、ペルシャ語の言語表現を自己教師付き学習するための軽量BERTモデルです。ペルシャ語の自然言語処理タスクに役立ちます。

🚀 クイックスタート

ALBERT-Persianは、大量の公開コーパス（Persian Wikidumps、MirasText）と、様々なウェブサイトから手動で収集した6種類のテキストデータ（BigBang Page 科学系、Chetor ライフスタイル、Eligasht 旅行行程、 Digikala デジタルマガジン、Ted Talks 一般会話、書籍 古から現代までの小説、物語、短編小説）を使って学習されました。

最新のモデル情報については、ALBERT-Persian リポジトリをご覧ください。

✨ 主な機能

このモデルは、マスク言語モデリングや次文予測に使用できますが、主に下流タスクでのファインチューニングを目的としています。興味のあるタスクでファインチューニングされたバージョンは、モデルハブを参照してください。

📦 インストール

任意のタイプのAlbertを使用するには、sentencepieceをインストールする必要があります。
ノートブックで以下のコマンドを実行します。!pip install -q sentencepiece

💻 使用例

基本的な使用法

TensorFlow 2.0

from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = TFAutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد می‌توانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['▁ما', '▁در', '▁هوش', 'واره', '▁معتقد', 'یم', '▁با', '▁انتقال', '▁صحیح', '▁دانش', '▁و', '▁اگاه', 'ی', '،', '▁همه', '▁افراد', '▁می', '▁توانند', '▁از', '▁ابزارهای', '▁هوشمند', '▁استفاده', '▁کنند', '.', '▁شعار', '▁ما', '▁هوش', '▁مصنوعی', '▁برای', '▁همه', '▁است', '.']

Pytorch

from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = AutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")

🔧 技術詳細

ALBERT-Persianは、ペルシャ語向けのALBERTの最初の試みです。このモデルは、GoogleのALBERT BASE Version 2.0に基づいて、様々な書き方のスタイル（科学、小説、ニュースなど）の390万以上の文書、7300万の文、13億の単語を使って学習されました。詳細は ParsBERT を参照してください。

学習中の目標は以下の通りです（140,000ステップ後）。

***** Eval results *****
global_step = 140000
loss = 2.0080082
masked_lm_accuracy = 0.6141017
masked_lm_loss = 1.9963315
sentence_order_accuracy = 0.985
sentence_order_loss = 0.06908702

📚 ドキュメント

派生モデル

基本設定

Albertモデル

m3hrdadfi/albert-face-base-v2

Albert感情分析

Albertテキスト分類

Albert固有表現抽出

評価結果

以下の表は、ALBERT-Persianが他のモデルやアーキテクチャと比較して得たF1スコアをまとめたものです。

感情分析（SA）タスク

データセット	ALBERT-fa-base-v2	ParsBERT-v1	mBERT	DeepSentiPers
Digikalaユーザーコメント	81.12	81.74	80.74	-
SnappFoodユーザーコメント	85.79	88.12	87.87	-
SentiPers（マルチクラス）	66.12	71.11	-	69.33
SentiPers（バイナリクラス）	91.09	92.13	-	91.98

テキスト分類（TC）タスク

データセット	ALBERT-fa-base-v2	ParsBERT-v1	mBERT
Digikalaマガジン	92.33	93.59	90.72
ペルシャニュース	97.01	97.19	95.79

固有表現抽出（NER）タスク

データセット	ALBERT-fa-base-v2	ParsBERT-v1	mBERT	MorphoBERT	Beheshti-NER	LSTM-CRF	Rule-Based CRF	BiLSTM-CRF
PEYMA	88.99	93.10	86.64	-	90.59	-	84.00	-
ARMAN	97.43	98.79	95.89	89.9	84.03	86.55	-	77.45

BibTeXエントリと引用情報

出版物では、以下のように引用してください。

@misc{ALBERT-Persian,
  author = {Mehrdad Farahani},
  title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}