🚀 IndoBERT-QA:基於翻譯版SQuAD 2.0微調的問答模型
本項目使用在翻譯版SQuAD 2.0數據集上微調的IndoBERT基礎無大小寫模型,用於問答下游任務,在印尼語問答場景中表現出色。
Github
🔔 歸屬聲明
特此聲明,Muhammad Fajrin Buyang Daffa 並非本項目成員,且從未參與本項目。他們未對本倉庫做出任何貢獻,因此不應在與本工作相關的內容中提及他們。
如有進一步疑問,請聯繫 rifky@genta.tech。
本項目是題為 “Teman Belajar : Asisten Digital Pelajar SMA Negeri 28 Jakarta dalam Membaca” 的研究的一部分,該研究參與了 KOPSI(Kompetisi Penelitian Siswa Indonesia/印尼學生研究競賽)。
✨ 主要特性
IndoBERT 由 IndoLEM 訓練,並在 翻譯版SQuAD 2.0 上進行微調,用於問答下游任務。
模型大小(訓練後):420MB
📚 詳細文檔
IndoBERT 模型詳情
IndoBERT 是BERT模型的印尼語版本。該模型使用超過2.2億個單詞進行訓練,這些單詞主要來自三個來源:
- 印尼語維基百科(7400萬個單詞)
- 來自Kompas、Tempo(Tala等人,2003年)和Liputan6的新聞文章(總共5500萬個單詞)
- 印尼網絡語料庫(Medved和Suchomel,2017年)(9000萬個單詞)。
該模型訓練了240萬步(180個epoch),在開發集上的最終困惑度為3.97(與英語BERT基礎模型相似)。
這個IndoBERT模型用於評估IndoLEM——一個印尼語基準測試,包含七個針對印尼語的任務,涵蓋形態句法、語義和語篇等方面。[1]
下游任務詳情(問答) - 數據集
SQuAD 2.0將SQuAD 1.1中的10萬個問題與超過5萬個由眾包工作者對抗性編寫的無法回答的問題相結合,這些問題看起來與可回答的問題相似。要在SQuAD 2.0上表現良好,系統不僅要在可能的情況下回答問題,還要確定段落中是否沒有支持答案的信息,並避免回答。
數據集 |
劃分 |
樣本數量 |
SQuAD 2.0 |
訓練集 |
130k |
SQuAD 2.0 |
評估集 |
12.3k |
模型訓練
該模型在Tesla T4 GPU和12GB RAM上進行訓練。
模型結果
💻 使用示例
基礎用法
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="Rifky/Indobert-QA",
tokenizer="Rifky/Indobert-QA"
)
qa_pipeline({
'context': """Pangeran Harya Dipanegara (atau biasa dikenal dengan nama Pangeran Diponegoro, lahir di Ngayogyakarta Hadiningrat, 11 November 1785 – meninggal di Makassar, Hindia Belanda, 8 Januari 1855 pada umur 69 tahun) adalah salah seorang pahlawan nasional Republik Indonesia, yang memimpin Perang Diponegoro atau Perang Jawa selama periode tahun 1825 hingga 1830 melawan pemerintah Hindia Belanda. Sejarah mencatat, Perang Diponegoro atau Perang Jawa dikenal sebagai perang yang menelan korban terbanyak dalam sejarah Indonesia, yakni 8.000 korban serdadu Hindia Belanda, 7.000 pribumi, dan 200 ribu orang Jawa serta kerugian materi 25 juta Gulden.""",
'question': "kapan pangeran diponegoro lahir?"
})
輸出:
{
'answer': '11 November 1785',
'end': 131,
'score': 0.9272009134292603,
'start': 115
}
引用
[1]Fajri Koto and Afshin Rahimi and Jey Han Lau and Timothy Baldwin. 2020. IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP. Proceedings of the 28th COLING.
📄 許可證
本項目採用 Apache-2.0 許可證。
屬性 |
詳情 |
模型類型 |
IndoBERT基礎無大小寫模型,在翻譯版SQuAD 2.0上微調 |
訓練數據 |
翻譯版SQuAD 2.0數據集 |
評估指標 |
F1 |
基礎模型 |
indolem/indobert-base-uncased |
數據集 |
rajpurkar/squad_v2 |