🚀 KuBERT: 中央クルド語BERTモデル
KuBERTは、BERTフレームワークを活用して、中央クルド語の計算言語学を強化するモデルです。この取り組みは、言語的に多様性が高いクルド語に関するリソースや計算モデルが不足している状況に対応するものです。
🚀 クイックスタート
このプロジェクトでは、BERT技術の最新の進歩を活用して、クルド語データの理解と処理を向上させています。以下のコードで、モデルを使用することができます。
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
model = BertModel.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
✨ 主な機能
- KuBERTは、BERTフレームワークを利用して、中央クルド語の計算言語学を強化します。
- 大規模なクルド語コーパスを使用して訓練され、クルド語の理解と処理能力が高いです。
- クルド語固有のトークナイザーと様々な分類器を組み込み、言語の複雑さに適応しています。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
model = BertModel.from_pretrained('asosoft/KuBERT-Central-Kurdish-BERT-Model')
📚 ドキュメント
概要
このプロジェクトは、BERT技術の最新の進歩を利用して、クルド語データの理解と処理を向上させます。モデルの訓練には、クルド語固有のトークナイザーと様々な分類器が組み込まれており、BERTの言語的な複雑さへの適応性を示しています。
データ収集
ディープラーニングモデルの訓練において、データ収集は大きな課題です。特に、クルド語のような低リソース言語では、十分なデータを収集することが難しいです。このプロジェクトでは、様々なソースからデータを収集し、総計2億9650万トークンのコーパスを作成しました。
コーパスの構成
- AsoSoftコーパス:1億8800万トークンで、ウェブサイト、教科書、雑誌からのデータが含まれています。
- AramRafeqとMuhammad Aziziコーパス:6000万トークン以上のデータが、クルド語のウェブサイトから収集されています。
- Oscar 2019コーパス:4850万語で、データセットをさらに充実させています。
貢献
BERTの導入は、クルド語の計算言語学において大きな進歩をもたらし、低リソース言語における将来の自然言語処理の取り組みに必要なベンチマークを提供します。大規模なクルド語コーパスを活用することで、このプロジェクトはクルド語の言語処理ツールにおける重要なギャップを埋めています。
訓練の詳細
BERTモデルは、精選されたクルド語データセットを使用して広範な微調整を行い、最適なパフォーマンスを確保しています。厳格な訓練と評価を通じて、モデルは様々な言語タスクを処理できるようになっています。
関連リンクと参考文献
コーパスデータテーブルの要約
コーパス名 |
トークン数 |
Oscar 2019コーパス |
4850万 |
AsoSoftコーパス |
1億8800万 |
Muhammad AziziとAramRafeqコーパス |
6000万 |
合計 |
2億9650万 |
🔧 技術詳細
ハイパーパラメータ
- エポック数: 3
- 最大トークン長: 256
- 学習率: 1.00E-05
- ドロップアウト率: 0.3
- バッチサイズ: 8
- GPU利用: はい
📄 ライセンス
このREADMEにはライセンス情報が記載されていないため、このセクションは省略されます。
引用
もしあなたが私たちのテキストコーパスを使用している場合は、以下のように引用してください。
Awlla, K.M., Veisi, H. & Abdullah, A.A. Sentiment analysis in low-resource contexts: BERT’s impact on Central Kurdish. Lang Resources & Evaluation (2025). https://doi.org/10.1007/s10579-024-09805-0
@article{awlla2025sentiment,
title={Sentiment analysis in low-resource contexts: BERT’s impact on Central Kurdish},
author={Awlla, K.M. and Veisi, H. and Abdullah, A.A.},
journal={Language Resources & Evaluation},
volume={35},
number={1},
pages={123--145}, % Replace with actual page numbers
year={2025},
publisher={Springer},
doi={10.1007/s10579-024-09805-0}
}