模型概述
模型特點
模型能力
使用案例
🚀 ParsBERT (v2.0)
ParsBERT (v2.0) 是一個基於 Transformer 的波斯語語言理解模型。它在大規模波斯語語料上預訓練,可用於多種自然語言處理下游任務,為波斯語的語言建模帶來了更優的性能。
🚀 快速開始
ParsBERT 是基於谷歌 BERT 架構的單語語言模型。該模型在大量波斯語語料上進行了預訓練,這些語料來自眾多主題(如科學、小說、新聞),具有各種寫作風格,包含超過 390 萬
個文檔、7300 萬
個句子和 13 億
個單詞。
介紹 ParsBERT 的論文:arXiv:2005.12515
如何使用
TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']
Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
✨ 主要特性
- 大規模語料預訓練:在超過
390 萬
個文檔、7300 萬
個句子和13 億
個單詞的波斯語語料上進行預訓練,涵蓋多種主題和寫作風格。 - 性能優越:在情感分析、文本分類和命名實體識別等下游任務中,超越了多語言 BERT 和其他混合深度學習模型,提升了波斯語語言建模的先進水平。
- 多種衍生模型:提供了多種基於 ParsBERT v2.0 的衍生模型,可用於不同的下游任務,如情感分析、文本分類和命名實體識別等。
📦 安裝指南
文檔中未提及具體安裝步驟,可參考 ParsBERT 倉庫獲取最新信息。
💻 使用示例
基礎用法
# TensorFlow 2.0 基礎用法
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
高級用法
# 高級用法可根據具體下游任務進行微調,例如在情感分析任務中:
# 這裡假設已經有了數據加載和預處理的代碼
from transformers import TFAutoModelForSequenceClassification
import tensorflow as tf
model = TFAutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased", num_labels=2)
optimizer = tf.keras.optimizers.Adam(learning_rate=3e-5)
model.compile(optimizer=optimizer, loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True))
# 假設 train_dataset 是經過預處理的訓練數據集
model.fit(train_dataset, epochs=3)
📚 詳細文檔
訓練
ParsBERT 在大量公共語料上進行訓練,包括 Persian Wikidumps、MirasText 以及從各種類型網站手動爬取的六種文本數據(如 BigBang Page 科學類
、Chetor 生活方式類
、Eligasht 行程類
、 Digikala 數字雜誌類
、Ted Talks 通用對話類
、書籍 從古代到當代的小說、故事書、短篇小說
)。
作為 ParsBERT 方法的一部分,進行了結合詞性標註和 WordPiece 分詞的廣泛預處理,以使語料達到合適的格式。
目標
訓練期間的目標如下(300k 步之後):
***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05
衍生模型
基礎配置
- ParsBERT v2.0 模型:HooshvareLab/bert-fa-base-uncased
ParsBERT v2.0 情感分析
- HooshvareLab/bert-fa-base-uncased-sentiment-digikala
- HooshvareLab/bert-fa-base-uncased-sentiment-snappfood
- HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-binary
- HooshvareLab/bert-fa-base-uncased-sentiment-deepsentipers-multi
ParsBERT v2.0 文本分類
ParsBERT v2.0 命名實體識別 (NER)
評估結果
ParsBERT 在三個自然語言處理下游任務上進行了評估:情感分析 (SA)、文本分類 (TC) 和命名實體識別 (NER)。由於資源不足,手動整理了兩個用於情感分析和兩個用於文本分類的大型數據集,可供公眾使用和基準測試。ParsBERT 在所有任務上都優於其他所有語言模型,包括多語言 BERT 和其他混合深度學習模型,提高了波斯語語言建模的先進水平。
情感分析 (SA) 任務
數據集 | ParsBERT v2 | ParsBERT v1 | mBERT | DeepSentiPers |
---|---|---|---|---|
Digikala 用戶評論 | 81.72 | 81.74* | 80.74 | - |
SnappFood 用戶評論 | 87.98 | 88.12* | 87.87 | - |
SentiPers (多類別) | 71.31* | 71.11 | - | 69.33 |
SentiPers (二類別) | 92.42* | 92.13 | - | 91.98 |
文本分類 (TC) 任務
數據集 | ParsBERT v2 | ParsBERT v1 | mBERT |
---|---|---|---|
Digikala 雜誌 | 93.65* | 93.59 | 90.72 |
波斯語新聞 | 97.44* | 97.19 | 95.79 |
命名實體識別 (NER) 任務
數據集 | ParsBERT v2 | ParsBERT v1 | mBERT | MorphoBERT | Beheshti - NER | LSTM - CRF | 基於規則的 CRF | BiLSTM - CRF |
---|---|---|---|---|---|---|---|---|
PEYMA | 93.40* | 93.10 | 86.64 | - | 90.59 | - | 84.00 | - |
ARMAN | 99.84* | 98.79 | 95.89 | 89.9 | 84.03 | 86.55 | - | 77.45 |
BibTeX 引用
請在出版物中按以下方式引用:
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
📄 許可證
本項目採用 Apache-2.0 許可證。
🔗 相關鏈接
如果有任何問題,請在 ParsBERT Issues 倉庫中發佈 GitHub 問題。



