bert-fa-base-uncased開源波斯語理解模型 - 支持多任務免費解決語言理解難題

首頁

Bert Fa Base Uncased

由HooshvareLab開發

基於Transformer的波斯語理解模型，重構詞彙表並在新語料庫上微調，支持多種下游任務

大型語言模型其他開源協議:Apache-2.0 #波斯語理解 #多任務微調 #高精度NER

下載量 19.57k

發布時間 : 3/2/2022

模型概述

ParsBERT是基於BERT架構的單語波斯語模型，在大量波斯語語料上預訓練，適用於文本分類、情感分析、命名實體識別等任務

模型特點

大規模預訓練

在390萬文檔/13億單詞的波斯語語料上訓練，覆蓋科學、新聞、小說等多領域

優化詞彙表

重構詞彙表並擴展領域適應性，提升下游任務表現

多任務支持

提供情感分析、文本分類、NER等任務的微調版本

模型能力

波斯語文本理解

情感分析

文本分類

命名實體識別

掩碼語言建模

使用案例

情感分析

電商評論分析

分析Digikala/SnappFood等平臺的用戶評論情感傾向

準確率81.72%-87.98%

文本分類

新聞分類

對波斯新聞進行主題分類

準確率97.44%

命名實體識別

波斯語實體識別

識別文本中的人名、地名等實體

F1分數93.40%-99.84%

🚀 ParsBERT (v2.0)

ParsBERT (v2.0) 是一個基於 Transformer 的波斯語語言理解模型。它在大規模波斯語語料上預訓練，可用於多種自然語言處理下游任務，為波斯語的語言建模帶來了更優的性能。

🚀 快速開始

ParsBERT 是基於谷歌 BERT 架構的單語語言模型。該模型在大量波斯語語料上進行了預訓練，這些語料來自眾多主題（如科學、小說、新聞），具有各種寫作風格，包含超過 390 萬 個文檔、7300 萬 個句子和 13 億 個單詞。

介紹 ParsBERT 的論文：arXiv:2005.12515

如何使用

TensorFlow 2.0

from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']

Pytorch

from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

✨ 主要特性

大規模語料預訓練：在超過 390 萬 個文檔、7300 萬 個句子和 13 億 個單詞的波斯語語料上進行預訓練，涵蓋多種主題和寫作風格。
性能優越：在情感分析、文本分類和命名實體識別等下游任務中，超越了多語言 BERT 和其他混合深度學習模型，提升了波斯語語言建模的先進水平。
多種衍生模型：提供了多種基於 ParsBERT v2.0 的衍生模型，可用於不同的下游任務，如情感分析、文本分類和命名實體識別等。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考 ParsBERT 倉庫獲取最新信息。

💻 使用示例

基礎用法

# TensorFlow 2.0 基礎用法
from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

高級用法

# 高級用法可根據具體下游任務進行微調，例如在情感分析任務中：
# 這裡假設已經有了數據加載和預處理的代碼
from transformers import TFAutoModelForSequenceClassification
import tensorflow as tf

model = TFAutoModelForSequenceClassification.from_pretrained("HooshvareLab/bert-fa-base-uncased", num_labels=2)
optimizer = tf.keras.optimizers.Adam(learning_rate=3e-5)
model.compile(optimizer=optimizer, loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True))

# 假設 train_dataset 是經過預處理的訓練數據集
model.fit(train_dataset, epochs=3)

📚 詳細文檔

訓練

ParsBERT 在大量公共語料上進行訓練，包括 Persian Wikidumps、MirasText 以及從各種類型網站手動爬取的六種文本數據（如 BigBang Page 科學類、Chetor 生活方式類、Eligasht 行程類、 Digikala 數字雜誌類、Ted Talks 通用對話類、書籍 從古代到當代的小說、故事書、短篇小說）。

作為 ParsBERT 方法的一部分，進行了結合詞性標註和 WordPiece 分詞的廣泛預處理，以使語料達到合適的格式。

目標

訓練期間的目標如下（300k 步之後）：

***** Eval results *****
global_step = 300000
loss = 1.4392426
masked_lm_accuracy = 0.6865794
masked_lm_loss = 1.4469004
next_sentence_accuracy = 1.0
next_sentence_loss = 6.534152e-05

衍生模型

基礎配置

ParsBERT v2.0 模型：HooshvareLab/bert-fa-base-uncased

ParsBERT v2.0 情感分析

ParsBERT v2.0 文本分類

ParsBERT v2.0 命名實體識別 (NER)

評估結果

ParsBERT 在三個自然語言處理下游任務上進行了評估：情感分析 (SA)、文本分類 (TC) 和命名實體識別 (NER)。由於資源不足，手動整理了兩個用於情感分析和兩個用於文本分類的大型數據集，可供公眾使用和基準測試。ParsBERT 在所有任務上都優於其他所有語言模型，包括多語言 BERT 和其他混合深度學習模型，提高了波斯語語言建模的先進水平。

情感分析 (SA) 任務

數據集	ParsBERT v2	ParsBERT v1	mBERT	DeepSentiPers
Digikala 用戶評論	81.72	81.74*	80.74	-
SnappFood 用戶評論	87.98	88.12*	87.87	-
SentiPers (多類別)	71.31*	71.11	-	69.33
SentiPers (二類別)	92.42*	92.13	-	91.98

文本分類 (TC) 任務

數據集	ParsBERT v2	ParsBERT v1	mBERT
Digikala 雜誌	93.65*	93.59	90.72
波斯語新聞	97.44*	97.19	95.79

命名實體識別 (NER) 任務

數據集	ParsBERT v2	ParsBERT v1	mBERT	MorphoBERT	Beheshti - NER	LSTM - CRF	基於規則的 CRF	BiLSTM - CRF
PEYMA	93.40*	93.10	86.64	-	90.59	-	84.00	-
ARMAN	99.84*	98.79	95.89	89.9	84.03	86.55	-	77.45

BibTeX 引用

請在出版物中按以下方式引用：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}