bert-base-parsbert-uncased開源波斯語理解模型 - 免費部署，性能超混合模型

首頁

Bert Base Parsbert Uncased

由HooshvareLab開發

基於Transformer架構的波斯語理解模型，性能超越多語言BERT和其他混合模型

大型語言模型 #波斯語理解 #全詞掩碼訓練 #多任務SOTA

下載量 99.81k

發布時間 : 3/2/2022

模型概述

ParsBERT是基於BERT架構的單語種波斯語預訓練模型，在情感分析、文本分類和命名實體識別等下游任務中表現出色

模型特點

波斯語優化

專門針對波斯語特性進行優化，包括詞性標註和WordPiece分詞預處理

全詞掩碼訓練

採用全詞掩碼(Whole Word Masking)技術提升模型理解能力

大規模語料

基於200萬+文檔、4000萬+句子的波斯語語料庫訓練

模型能力

波斯語文本理解

情感分析

文本分類

命名實體識別

使用案例

情感分析

用戶評論情感分析

分析Digikala和SnappFood等平臺的用戶評論情感傾向

在Digikala數據集上F1達81.74，超越mBERT

文本分類

新聞分類

對波斯語新聞進行自動分類

在波斯新聞數據集上F1達97.19

命名實體識別

波斯語實體識別

識別波斯文本中的人名、地名等實體

在PEYMA數據集上F1達93.10

🚀 ParsBERT：基於Transformer的波斯語理解模型

ParsBERT是一個基於谷歌BERT架構的單語言模型，其配置與BERT - Base相同。它能夠有效處理波斯語相關的自然語言處理任務，為波斯語的語言理解提供了強大的支持。

介紹ParsBERT的論文：arXiv:2005.12515

所有模型（下游任務）均不區分大小寫，並使用全詞掩碼進行訓練。（即將推出，敬請關注）

🚀 快速開始

安裝

本部分暫未提供具體安裝命令，後續可參考相關文檔或根據使用示例中的依賴庫進行安裝。

使用示例

基礎用法

以下是在TensorFlow 2.0中使用ParsBERT的示例代碼：

from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد می‌توانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']

高級用法

在Pytorch中使用ParsBERT的示例代碼：

from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")

✨ 主要特性

大規模語料預訓練：該模型在一個大型波斯語語料庫上進行了預訓練，語料庫包含來自眾多主題（如科學、小說、新聞等）的各種寫作風格的文檔，文檔數量超過200萬篇。其中很大一部分語料是手動爬取的。
深度預處理：作為ParsBERT方法的一部分，進行了結合詞性標註和WordPiece分詞的廣泛預處理，將語料轉換為合適的格式。此過程生成了超過4000萬個真實句子。
多任務表現優異：ParsBERT在三個自然語言處理下游任務（情感分析、文本分類和命名實體識別）上進行了評估。在所有任務中，它都優於其他語言模型，包括多語言BERT和其他混合深度學習模型，提升了波斯語語言建模的現有技術水平。

📚 詳細文檔

評估

ParsBERT在三個自然語言處理下游任務上進行了評估：情感分析（SA）、文本分類和命名實體識別（NER）。由於資源不足，手動構建了兩個用於情感分析的大型數據集和兩個用於文本分類的數據集，這些數據集可供公眾使用和基準測試。

結果

以下表格總結了ParsBERT與其他模型和架構相比所獲得的F1分數。

情感分析（SA）任務

數據集	ParsBERT	mBERT	DeepSentiPers
Digikala用戶評論	81.74*	80.74	-
SnappFood用戶評論	88.12*	87.87	-
SentiPers（多類）	71.11*	-	69.33
SentiPers（二類）	92.13*	-	91.98

文本分類（TC）任務

數據集	ParsBERT	mBERT
Digikala雜誌	93.59*	90.72
波斯新聞	97.19*	95.79

命名實體識別（NER）任務

數據集	ParsBERT	mBERT	MorphoBERT	Beheshti - NER	LSTM - CRF	基於規則的CRF	BiLSTM - CRF
PEYMA	93.10*	86.64	-	90.59	-	84.00	-
ARMAN	98.79*	95.89	89.9	84.03	86.55	-	77.45

如果您在公共數據集上測試了ParsBERT，並希望將您的結果添加到上述表格中，請發起拉取請求或與我們聯繫。同時，請確保您的代碼可在線獲取，以便我們將其作為參考。

📄 引用

如果您在研究中使用了ParsBERT，請在您的出版物中引用以下論文：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}