🚀 Indo-roberta-indonli
Indo-roberta-indonliは、Indo-robertaモデルに基づく自然言語推論分類器です。このモデルは、IndoNLIデータセットを使用して学習されました。使用されたモデルはIndo-robertaで、自然推論分類器モデルに転移学習されました。モデルは、GitHubリポジトリに提供されている検証、テストレイヤー、およびテストエキスパートデータセットを使用してテストされ、その結果は以下の通りです。
🚀 クイックスタート
Indo-roberta-indonliは、自然言語推論のタスクに使用できるモデルです。このモデルを使用することで、文章間の関係を判断することができます。
✨ 主な機能
- 自然言語推論分類器として機能します。
- IndoNLIデータセットを使用して学習されています。
- 転移学習により、自然推論分類器モデルに最適化されています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
pretrained_name = "StevenLimcorn/indonesian-roberta-indonli"
nlp = pipeline(
"zero-shot-classification",
model=pretrained_name,
tokenizer=pretrained_name
)
nlp("Amir Sjarifoeddin Harahap lahir di Kota Medan, Sumatera Utara, 27 April 1907. Ia meninggal di Surakarta, Jawa Tengah, pada 19 Desember 1948 dalam usia 41 tahun. </s></s> Amir Sjarifoeddin Harahap masih hidup.")
📚 ドキュメント
結果
データセット |
正解率 |
F1値 |
適合率 |
再現率 |
Test Lay |
0.74329 |
0.74075 |
0.74283 |
0.74133 |
Test Expert |
0.6115 |
0.60543 |
0.63924 |
0.61742 |
モデル
このモデルは、5エポック、バッチサイズ16、学習率2e-5、重み減衰0.01で学習され、以下のような様々な指標を達成しました。
エポック |
学習損失 |
検証損失 |
正解率 |
F1値 |
適合率 |
再現率 |
1 |
0.942500 |
0.658559 |
0.737369 |
0.735552 |
0.735488 |
0.736679 |
2 |
0.649200 |
0.645290 |
0.761493 |
0.759593 |
0.762784 |
0.759642 |
3 |
0.437100 |
0.667163 |
0.766045 |
0.763979 |
0.765740 |
0.763792 |
4 |
0.282000 |
0.786683 |
0.764679 |
0.761802 |
0.762011 |
0.761684 |
5 |
0.193500 |
0.925717 |
0.765134 |
0.763127 |
0.763560 |
0.763489 |
🔧 技術詳細
このモデルは、事前学習されたRoBERTaモデルをベースに、IndoNLIデータセットを使用して転移学習されています。学習には、5エポック、バッチサイズ16、学習率2e-5、重み減衰0.01のパラメータが使用されました。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
参考情報
使用したデータセットはIndoNLIです。
@inproceedings{indonli,
title = "IndoNLI: A Natural Language Inference Dataset for Indonesian",
author = "Mahendra, Rahmad and Aji, Alham Fikri and Louvan, Samuel and Rahman, Fahrurrozi and Vania, Clara",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2021",
publisher = "Association for Computational Linguistics",
}
⚠️ 重要提示
事前学習されたRoBERTaモデルとINDONLI
データセットに由来するバイアスが、このモデルの結果に影響を与える可能性があることに注意してください。
💡 使用建议
このモデルは自然言語推論のタスクに最適化されていますが、使用する際にはデータセットの特性やバイアスに注意してください。