🚀 IndoBERT Base-Uncased を翻訳版SQuAD v2.0でファインチューニング
IndoBERT は IndoLEM によって学習され、翻訳版SQuAD 2.0 で 質問応答(Q&A) の下流タスクに対してファインチューニングされています。
このモデルは、「Teman Belajar : Asisten Digital Pelajar SMA Negeri 28 Jakarta dalam Membaca」と題する研究の一部であり、KOPSI(Kompetisi Penelitian Siswa Indonesia/インドネシア学生研究競技会)に参加するために開発されました。
モデルサイズ(学習後): 420MB
Github
⚠️ 重要なお知らせ
Muhammad Fajrin Buyang Daffaは、このプロジェクトの一部ではなく、これまでにも関与していません。彼らはこのリポジトリに対して何らの貢献もしていないため、この作品に関連する帰属表示は一切行われません。
詳細な問い合わせは、rifky@genta.tech までお問い合わせください。
📚 詳細ドキュメント
IndoBERTの詳細(公式ドキュメントより)
IndoBERT は、BERTモデルのインドネシア語版です。このモデルは、3つの主要なソースから集められた2億2000万語以上のデータを使用して学習されています。
- インドネシア語版Wikipedia(7400万語)
- Kompas、Tempo(Tala et al., 2003)、Liputan6のニュース記事(合計5500万語)
- インドネシア語のウェブコーパス(Medved and Suchomel, 2017)(9000万語)
このモデルは240万ステップ(180エポック)で学習され、開発セットに対する最終的なパープレキシティは3.97(英語版のBERT-baseと同程度)でした。
このIndoBERTは、インドネシア語の形態構文、意味論、談話を対象とした7つのタスクからなるインドネシア語のベンチマークであるIndoLEMを検証するために使用されました。[1]
下流タスク(Q&A)の詳細 - データセット
SQuAD2.0は、SQuAD1.1の10万の質問に、回答不能な質問を5万以上追加したものです。これらの回答不能な質問は、回答可能な質問と似たような形で書かれています。SQuAD2.0で良好な結果を得るためには、システムは可能な場合は質問に回答するだけでなく、段落に回答がない場合には回答を控える必要があります。
データセット |
分割 |
サンプル数 |
SQuAD2.0 |
学習用 |
13万 |
SQuAD2.0 |
評価用 |
1万2300 |
モデルの学習
このモデルは、Tesla T4 GPUと12GBのRAMを使用して学習されました。
結果
💻 使用例
基本的な使用法
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="Rifky/Indobert-QA",
tokenizer="Rifky/Indobert-QA"
)
qa_pipeline({
'context': """Pangeran Harya Dipanegara (atau biasa dikenal dengan nama Pangeran Diponegoro, lahir di Ngayogyakarta Hadiningrat, 11 November 1785 – meninggal di Makassar, Hindia Belanda, 8 Januari 1855 pada umur 69 tahun) adalah salah seorang pahlawan nasional Republik Indonesia, yang memimpin Perang Diponegoro atau Perang Jawa selama periode tahun 1825 hingga 1830 melawan pemerintah Hindia Belanda. Sejarah mencatat, Perang Diponegoro atau Perang Jawa dikenal sebagai perang yang menelan korban terbanyak dalam sejarah Indonesia, yakni 8.000 korban serdadu Hindia Belanda, 7.000 pribumi, dan 200 ribu orang Jawa serta kerugian materi 25 juta Gulden.""",
'question': "kapan pangeran diponegoro lahir?"
})
出力:
{
'answer': '11 November 1785',
'end': 131,
'score': 0.9272009134292603,
'start': 115
}
🔧 技術詳細
属性 |
詳細 |
モデルタイプ |
IndoBERT Base-Uncasedを翻訳版SQuAD v2.0でファインチューニング |
学習データ |
インドネシア語版Wikipedia、ニュース記事、インドネシア語のウェブコーパス、翻訳版SQuAD 2.0 |
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で提供されています。
参考文献
[1]Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin. 2020. IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP. Proceedings of the 28th COLING.