🚀 IndoBERT SQuAD
このモデルは、質問応答タスクに特化したIndoBERTの微調整バージョンです。IndoBERTはインドネシア語版のBERTモデルで、多様なソースから収集した大量のデータを用いて学習されています。このモデルは、SQuAD2.0データセットで微調整され、質問に対する回答能力を向上させています。
🚀 クイックスタート
このモデルを使用するには、以下のコードを参考にしてください。
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="esakrissa/IndoBERT-SQuAD",
tokenizer="esakrissa/IndoBERT-SQuAD"
)
qa_pipeline({
'context': """Sudah sejak tahun 1920-an, Ubud terkenal di antara wisatawan barat. Kala itu pelukis Jerman; Walter Spies dan pelukis Belanda; Rudolf Bonnet menetap di sana. Mereka dibantu oleh Tjokorda Gde Agung Sukawati, dari Puri Agung Ubud. Sekarang karya mereka bisa dilihat di Museum Puri Lukisan, Ubud.""",
'question': "Sejak kapan Ubud terkenal di antara wisatawan barat?"
})
出力結果:
{
'answer': '1920-an',
'start': 18,
'end': 25,
'score': 0.8675463795661926
}
✨ 主な機能
- 高精度な質問応答: SQuAD2.0データセットで微調整され、質問に対する正確な回答を提供します。
- インドネシア語対応: IndoBERTをベースにしているため、インドネシア語の質問応答タスクに最適です。
📚 ドキュメント
IndoBERTについて
IndoBERTは、インドネシア語版のBERTモデルです。以下の3つの主要なソースから集められた2億2000万語以上のデータを用いて学習されています。
- インドネシア語版Wikipedia (7400万語)
- Kompas、Tempo (Tala et al., 2003)、Liputan6からのニュース記事 (合計5500万語)
- インドネシア語のWebコーパス (Medved and Suchomel, 2017) (9000万語)
このモデルは、240万ステップ(180エポック)で学習され、開発セットに対する最終的なパープレキシティは3.97(英語のBERT-baseと同程度)でした。
学習と評価データ
SQuAD2.0は、SQuAD1.1の10万件の質問と、クラウドワーカーによって作成された5万件以上の回答不能な質問を組み合わせたものです。SQuAD2.0で良好な結果を得るためには、システムは可能な場合は質問に回答するだけでなく、段落に回答がない場合にも回答を控える必要があります。
データセット |
分割 |
サンプル数 |
SQuAD2.0 |
学習 |
13万 |
SQuAD2.0 |
評価 |
1.23万 |
学習手順
このモデルは、Tesla T4 GPUと12GBのRAMを使用して学習されました。
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 2e-05
- 学習バッチサイズ: 16
- 評価バッチサイズ: 16
- シード: 42
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラ: 線形
- エポック数: 3
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
1.4098 |
1.0 |
8202 |
1.3860 |
1.1716 |
2.0 |
16404 |
1.8555 |
1.2909 |
3.0 |
24606 |
1.8025 |
🔧 技術詳細
このモデルは、IndoBERTをベースにしてSQuAD2.0データセットで微調整されています。学習には、Tesla T4 GPUと12GBのRAMを使用し、特定のハイパーパラメータを設定して行われました。最終的に、評価セットで損失1.8025の結果を達成しています。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
🔗 関連リンク
参考文献
[1]Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin. 2020. IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP. Proceedings of the 28th COLING.
[2]rifkybujana/IndoBERT-QA
フレームワークバージョン
- Transformers 4.25.1
- Pytorch 1.13.0+cu116
- Datasets 2.7.1
- Tokenizers 0.13.2