🚀 ParsBERT:基於Transformer的波斯語理解模型
ParsBERT是一個基於谷歌BERT架構的單語言模型,其配置與BERT - Base相同。它能夠有效處理波斯語相關的自然語言處理任務,為波斯語的語言理解提供了強大的支持。
介紹ParsBERT的論文:arXiv:2005.12515
所有模型(下游任務)均不區分大小寫,並使用全詞掩碼進行訓練。(即將推出,敬請關注)
🚀 快速開始
安裝
本部分暫未提供具體安裝命令,後續可參考相關文檔或根據使用示例中的依賴庫進行安裝。
使用示例
基礎用法
以下是在TensorFlow 2.0中使用ParsBERT的示例代碼:
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']
高級用法
在Pytorch中使用ParsBERT的示例代碼:
from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
✨ 主要特性
- 大規模語料預訓練:該模型在一個大型波斯語語料庫上進行了預訓練,語料庫包含來自眾多主題(如科學、小說、新聞等)的各種寫作風格的文檔,文檔數量超過200萬篇。其中很大一部分語料是手動爬取的。
- 深度預處理:作為ParsBERT方法的一部分,進行了結合詞性標註和WordPiece分詞的廣泛預處理,將語料轉換為合適的格式。此過程生成了超過4000萬個真實句子。
- 多任務表現優異:ParsBERT在三個自然語言處理下游任務(情感分析、文本分類和命名實體識別)上進行了評估。在所有任務中,它都優於其他語言模型,包括多語言BERT和其他混合深度學習模型,提升了波斯語語言建模的現有技術水平。
📚 詳細文檔
評估
ParsBERT在三個自然語言處理下游任務上進行了評估:情感分析(SA)、文本分類和命名實體識別(NER)。由於資源不足,手動構建了兩個用於情感分析的大型數據集和兩個用於文本分類的數據集,這些數據集可供公眾使用和基準測試。
結果
以下表格總結了ParsBERT與其他模型和架構相比所獲得的F1分數。
情感分析(SA)任務
數據集 |
ParsBERT |
mBERT |
DeepSentiPers |
Digikala用戶評論 |
81.74* |
80.74 |
- |
SnappFood用戶評論 |
88.12* |
87.87 |
- |
SentiPers(多類) |
71.11* |
- |
69.33 |
SentiPers(二類) |
92.13* |
- |
91.98 |
文本分類(TC)任務
數據集 |
ParsBERT |
mBERT |
Digikala雜誌 |
93.59* |
90.72 |
波斯新聞 |
97.19* |
95.79 |
命名實體識別(NER)任務
數據集 |
ParsBERT |
mBERT |
MorphoBERT |
Beheshti - NER |
LSTM - CRF |
基於規則的CRF |
BiLSTM - CRF |
PEYMA |
93.10* |
86.64 |
- |
90.59 |
- |
84.00 |
- |
ARMAN |
98.79* |
95.89 |
89.9 |
84.03 |
86.55 |
- |
77.45 |
如果您在公共數據集上測試了ParsBERT,並希望將您的結果添加到上述表格中,請發起拉取請求或與我們聯繫。同時,請確保您的代碼可在線獲取,以便我們將其作為參考。
📄 引用
如果您在研究中使用了ParsBERT,請在您的出版物中引用以下論文:
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
🤝 致謝
我們在此感謝Tensorflow研究雲(TFRC)計劃為我們提供必要的計算資源。同時,感謝Hooshvare研究小組在數據集收集和在線文本資源抓取方面提供的便利。
👥 貢獻者
📦 版本發佈
版本v0.1(2019年5月27日)
這是我們基於BERTBASE的ParsBERT的第一個版本。