🚀 KuBERT:中庫爾德語BERT模型
KuBERT中庫爾德語BERT模型藉助BERT框架,提升了中庫爾德語的計算語言學能力。庫爾德語具有豐富的語言多樣性,但相關資源和計算模型卻十分匱乏,該項目正是為應對這一現狀而發起的。
🚀 快速開始
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
model = BertModel.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
✨ 主要特性
- 利用BERT框架,增強中庫爾德語的計算語言學能力。
- 整合了特定於庫爾德語的分詞器和各類分類器,展現了BERT對語言複雜性的適應性。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
📚 詳細文檔
簡介
KuBERT中庫爾德語BERT模型利用BERT框架,為中庫爾德語的計算語言學研究提供支持。由於庫爾德語的語言多樣性豐富,但相關資源和計算模型卻極為稀缺,該項目應運而生。
模型訓練的數據獲取
在訓練深度學習模型時,數據收集是一大難題,對於像庫爾德語這樣的低資源語言來說更是如此。獲取足夠的數據對於BERT等複雜模型的有效性至關重要。由於數字資源匱乏,收集庫爾德語數據比許多其他語言更為困難。為了構建全面的庫爾德語詞向量數據集,項目團隊付出了巨大努力,從多個來源收集信息。
語料庫編譯
訓練庫爾德語BERT模型使用了三個主要語料庫,總計2.965億個標記:
- AsoSoft語料庫:包含1.88億個標記,數據來源於網站、教科書和雜誌。
- AramRafeq和Muhammad Azizi語料庫:從庫爾德語網站收集了超過6000萬個標記。
- Oscar 2019語料庫:包含4850萬個單詞,進一步豐富了數據集。
這個全面的文本語料庫確保了KuBERT模型能夠高水平地理解和處理庫爾德語。
概述
該項目運用BERT技術的最新進展,更好地理解和處理庫爾德語數據。模型訓練中採用了特定於庫爾德語的分詞器和各種分類器,展示了BERT對語言複雜性的適應能力。
貢獻
BERT的集成是庫爾德語計算語言學的重要一步,為未來低資源語言的自然語言處理工作提供了急需的基準。通過利用大量的庫爾德語文本語料庫,該項目填補了庫爾德語語言處理工具的關鍵空白。
訓練細節
BERT模型使用精心策劃的庫爾德語數據集進行了廣泛的微調,以確保其最佳性能。通過嚴格的訓練和評估,該模型能夠處理各種語言任務。
最終備註
本README總結了KuBERT中庫爾德語BERT模型項目的核心內容、數據獲取工作以及BERT在庫爾德語中的創新應用。如需全面瞭解模型的能力和詳細訓練細節,請查閱完整文檔和相關研究材料。
相關鏈接和參考資料
語料庫數據表總結
語料庫名稱 |
標記數量 |
Oscar 2019語料庫 |
4850萬 |
AsoSoft語料庫 |
1.88億 |
AramRafeq和Muhammad Azizi語料庫 |
6000萬 |
總計 |
2.965億 |
AsoSoft庫爾德語文本語料庫
來源 |
標記數量 |
網站抓取數據 |
9500萬 |
教科書 |
4500萬 |
雜誌 |
4800萬 |
總計 |
1.88億 |
Muhammad Azizi和AramRafeq語料庫
來源 |
標記數量 |
維基百科 |
1350萬 |
Wishe網站 |
1100萬 |
Speemedia網站 |
650萬 |
Kurdiu網站 |
1900萬 |
Dengiamerika網站 |
200萬 |
Chawg網站 |
800萬 |
總計 |
6000萬 |
🔧 技術細節
本項目使用的訓練參數如下:
- 輪數:3
- 最大標記長度:256
- 學習率:1.00E - 05
- 丟棄率:0.3
- 批量大小:8
- GPU使用情況:是
📄 許可證
文檔未提及許可證信息,故跳過此章節。
📖 引用
如果您使用我們的文本語料庫,請引用以下文獻:
Awlla, K.M., Veisi, H. & Abdullah, A.A. Sentiment analysis in low - resource contexts: BERT’s impact on Central Kurdish. Lang Resources & Evaluation (2025). https://doi.org/10.1007/s10579-024-09805-0
@article{awlla2025sentiment,
title={Sentiment analysis in low-resource contexts: BERT’s impact on Central Kurdish},
author={Awlla, K.M. and Veisi, H. and Abdullah, A.A.},
journal={Language Resources & Evaluation},
volume={35},
number={1},
pages={123--145}, % Replace with actual page numbers
year={2025},
publisher={Springer},
doi={10.1007/s10579-024-09805-0}
}