モデル概要
モデル特徴
モデル能力
使用事例
🚀 センドル:インドネシア語向けのオープンな命令調整型生成大規模言語モデル
センドルは、インドネシア語の微調整された生成大規模言語モデルのオープンソースコレクションです。デコーダーのみとエンコーダー・デコーダーのトランスフォーマーモデルアーキテクチャをカバーし、パラメータ数は3億から130億までの規模です。
これは 3億パラメータのセンドル mT5-small チャットモデル のリポジトリです。他のモデルへのリンクは以下にあります。
✨ 主な機能
モデルの詳細
注意: センドルの使用は Apache 2.0ライセンス の下でライセンスされています。
概要
IndoNLPは、大規模言語モデル(LLM)のセンドルファミリーを開発し、公開しました。これは、事前学習と微調整された生成テキストモデルのコレクションで、パラメータ数は5億6000万から130億までの規模です。
センドルモデルは2つの命令調整バージョンをカバーしています。
- センドル - インストラクト:感情分析、トピックモデリング、機械翻訳、要約、質問応答、言い換えなどのタスク固有のNLPデータで命令調整されたモデル。
- センドル - チャット:センドル - インストラクト から一般知識と人間中心のプロンプトで継続的に命令調整されたモデル。
センドル - インストラクトとセンドル - チャットの両方が、単ターンの会話を想定して設計されています。センドルは、テストしたほとんどのベンチマークで、オープンソースの多言語および地域固有のLLMを大きく上回っています。センドルの小規模バージョン(10億未満のパラメータ)は、70億パラメータの他のLLMとも非常に競争力があります。
モデル開発者: IndoNLP
バリエーション
センドルは2つのベースモデル(mT5とLLaMA - 2)から派生しており、それぞれにさまざまなパラメータサイズがあります。mT5ベースのセンドルには、3億(mT5 - small)、5億8000万(mT5 - base)、12億(mT5 - large)、37億(mT5 - XL)、130億(mT5 - XXL)のモデルがあり、LLaMA - 2ベースのセンドルには、70億(LLaMA2 - 7B)と130億(LLaMA2 - 13B)のモデルがあります。両方のバリエーションには、センドル - インストラクトとセンドル - チャットのバリエーションがあります。すべての130億パラメータのモデルはLoRAで調整されており、その他は完全に微調整されています。
論文では、LoRAを使用した地域固有のLLMの適応が非効率であることを示しています。つまり、130億(mT5 - XXL)のセンドルモデルは、12億(mT5 - large)のセンドルモデルよりもわずかに性能が劣り、トレーニング時間は3倍、推論時間は4倍遅くなります。LoRAの代替として、語彙置換が地域固有の適応に有効で効率的な戦略であることを示しています。トレーニング時間と推論時間の効率をそれぞれ 11.50% と 18.71% 向上させています。
評価性能に関しては、元の語彙でトレーニングされたセンドルモデルと同等の性能を示しています。また、Indonesian - Vocab Instruct
と表記されるインドネシア語彙適応モデルも公開しています。
入出力: モデルの入力と出力はテキストのみです。
モデルアーキテクチャ
プロパティ | 詳細 |
---|---|
モデル | [センドル mT5 - small Instruct](https://huggingface.co/indonlp/cendol - mt5 - small - inst)、[センドル mT5 - base Instruct](https://huggingface.co/indonlp/cendol - mt5 - base - inst)、[センドル mT5 - large Instruct](https://huggingface.co/indonlp/cendol - mt5 - large - inst)、[センドル mT5 - xl Instruct](https://huggingface.co/indonlp/cendol - mt5 - xl - inst)、[センドル mT5 - xxl Instruct](https://huggingface.co/indonlp/cendol - mt5 - xxl - merged - inst)、[センドル LLaMA - 2 (7B) Instruct](https://huggingface.co/indonlp/cendol - llama2 - 7b - inst)、[センドル LLaMA - 2 (7B) Indonesian - Vocab Instruct](https://huggingface.co/indonlp/cendol - llama2 - ind - vocab - inst)、[センドル LLaMA - 2 (13B) Instruct](https://huggingface.co/indonlp/cendol - llama2 - 13b - merged - inst)、[センドル mT5 - small Chat](https://huggingface.co/indonlp/cendol - mt5 - small - chat)、[センドル mT5 - base Chat](https://huggingface.co/indonlp/cendol - mt5 - base - chat)、[センドル mT5 - large Chat](https://huggingface.co/indonlp/cendol - mt5 - large - chat)、[センドル mT5 - xl Chat](https://huggingface.co/indonlp/cendol - mt5 - xl - chat)、[センドル mT5 - xxl Chat](https://huggingface.co/indonlp/cendol - mt5 - xxl - merged - chat)、[センドル LLaMA - 2 (7B) Chat](https://huggingface.co/indonlp/cendol - llama2 - 7b - chat)、[センドル LLaMA - 2 (13B) Chat](https://huggingface.co/indonlp/cendol - llama2 - 13b - merged - chat) |
トレーニングデータ | センドルコレクションv1、センドルコレクションv2 |
パラメータ | 3億、5億8000万、12億、37億、130億、70億 |
調整戦略 | 完全微調整、LoRA |
学習率 | 3.0 x 10-4、3.0 x 10-5、2.0 x 10-4、2.0 x 10-5、1.0 x 10-5 |
モデルの日付 センドルは2023年10月から2024年1月の間にトレーニングされました。
ライセンス センドルの使用は [Apache 2.0ライセンス](https://choosealicense.com/licenses/apache - 2.0/) の下でライセンスされています。
研究論文 "Cendol: Open Instruction - tuned Generative Large Language Models for Indonesian Languages"
想定される使用方法
想定される使用事例 センドルは、特にインドネシア語に関する研究用途を想定しています。センドルモデルは単ターンの命令を想定しており、センドル - インストラクトモデルはタスク固有の命令に、センドル - チャットモデルは一般知識の命令に使用できます。
想定外の使用方法 適用される法律や規制(貿易コンプライアンス法を含む)に違反する方法での使用。英語とインドネシア語以外の言語での使用。センドルの許容使用ポリシーとライセンス契約で禁止されているその他の方法での使用。
評価結果
このセクションでは、大規模なNLUとNLGのベンチマークにおけるセンドルモデルの結果を報告します。すべての評価では、内部の評価ライブラリを使用しています。
NLU性能

NLG性能

人間評価

倫理的な考慮事項と制限
センドルは、使用に伴うリスクを持つ新しい技術です。これまでに行われたテストはインドネシア語で行われており、すべてのシナリオをカバーしていない、またはカバーすることができない。これらの理由から、すべてのLLMと同様に、センドルの潜在的な出力を事前に予測することはできず、モデルは場合によっては、ユーザーのプロンプトに対して不正確、偏った、またはその他の不快な応答を生成する可能性があります。したがって、センドルのアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせた安全テストと調整を行う必要があります。
引用
センドルモデル、コード、またはデータを含むリソースを使用する場合は、次の論文を引用してください。
@misc{cahyawijaya - etal - 2024 - cendol,
title={Cendol: Open Instruction - tuned Generative Large Language Models for Indonesian Languages},
author={Samuel Cahyawijaya and Holy Lovenia and Fajri Koto and Rifki Afina Putri and Emmanuel Dave and Jhonson Lee and Nuur Shadieq and Wawan Cenggoro and Salsabil Maulana Akbar and Muhammad Ihza Mahendra and Dea Annisayanti Putri and Bryan Wilie and Genta Indra Winata and Alham Fikri Aji and Ayu Purwarianti and Pascale Fung},
year={2024},
eprint={2404.06138},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{cahyawijaya - etal - 2023 - nusacrowd,
title = "{N}usa{C}rowd: Open Source Initiative for {I}ndonesian {NLP} Resources",
author = "Cahyawijaya, Samuel and
Lovenia, Holy and
Aji, Alham Fikri and
Winata, Genta and
Wilie, Bryan and
Koto, Fajri and
Mahendra, Rahmad and
Wibisono, Christian and
Romadhony, Ade and
Vincentio, Karissa and
Santoso, Jennifer and
Moeljadi, David and
Wirawan, Cahya and
Hudi, Frederikus and
Wicaksono, Muhammad Satrio and
Parmonangan, Ivan and
Alfina, Ika and
Putra, Ilham Firdausi and
Rahmadani, Samsul and
Oenang, Yulianti and
Septiandri, Ali and
Jaya, James and
Dhole, Kaustubh and
Suryani, Arie and
Putri, Rifki Afina and
Su, Dan and
Stevens, Keith and
Nityasya, Made Nindyatama and
Adilazuarda, Muhammad and
Hadiwijaya, Ryan and
Diandaru, Ryandito and
Yu, Tiezheng and
Ghifari, Vito and
Dai, Wenliang and
Xu, Yan and
Damapuspita, Dyah and
Wibowo, Haryo and
Tho, Cuk and
Karo Karo, Ichwanul and
Fatyanosa, Tirana and
Ji, Ziwei and
Neubig, Graham and
Baldwin, Timothy and
Ruder, Sebastian and
Fung, Pascale and
Sujaini, Herry and
Sakti, Sakriani and
Purwarianti, Ayu",
editor = "Rogers, Anna and
Boyd - Graber, Jordan and
Okazaki, Naoaki",
booktitle = "Findings of the Association for Computational Linguistics: ACL 2023",
month = jul,
year = "2023",
address = "Toronto, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.findings - acl.868",
doi = "10.18653/v1/2023.findings - acl.868",
pages = "13745--13818"
}
さらに、インドネシア語とその地域言語向けの地域固有の言語モデルに関する研究に触発された場合は、次の論文も引用を検討してください。
@inproceedings{cahyawijaya - etal - 2023 - nusawrites,
title = "{N}usa{W}rites: Constructing High - Quality Corpora for Underrepresented and Extremely Low - Resource Languages",
author = "Cahyawijaya, Samuel and
Lovenia, Holy and
Koto, Fajri and
Adhista, Dea and
Dave, Emmanuel and
Oktavianti, Sarah and
Akbar, Salsabil and
Lee, Jhonson and
Shadieq, Nuur and
Cenggoro, Tjeng Wawan and
Linuwih, Hanung and
Wilie, Bryan and
Muridan, Galih and
Winata, Genta and
Moeljadi, David and
Aji, Alham Fikri and
Purwarianti, Ayu and
Fung, Pascale",
editor = "Park, Jong C. and
Arase, Yuki and
Hu, Baotian and
Lu, Wei and
Wijaya, Derry and
Purwarianti, Ayu and
Krisnadhi, Adila Alfa",
booktitle = "Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia - Pacific Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = nov,
year = "2023",
address = "Nusa Dua, Bali",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.ijcnlp - main.60",
doi = "10.18653/v1/2023.ijcnlp - main.60",
pages = "921--945"
}
@inproceedings{winata - etal - 2023 - nusax,
title = "{N}usa{X}: Multilingual Parallel Sentiment Dataset for 10 {I}ndonesian Local Languages",
author = "Winata, Genta Indra and
Aji, Alham Fikri and
Cahyawijaya, Samuel and
Mahendra, Rahmad and
Koto, Fajri and
Romadhony, Ade and
Kurniawan, Kemal and
Moeljadi, David and
Prasojo, Radityo Eko and
Fung, Pascale and
Baldwin, Timothy and
Lau, Jey Han and
Sennrich, Rico and
Ruder, Sebastian",
editor = "Vlachos, Andreas and
Augenstein, Isabelle",
booktitle = "Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics",
month = may,
year = "2023",
address = "Dubrovnik, Croatia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.eacl - main.57",
doi = "10.18653/v1/2023.eacl - main.57",
pages = "815--834"
}
@inproceedings{aji - etal - 2022 - one,
title = "One Country, 700+ Languages: {NLP} Challenges for Underrepresented Languages and Dialects in {I}ndonesia",
author = "Aji, Alham Fikri and
Winata, Genta Indra and
Koto, Fajri and
Cahyawijaya, Samuel and
Romadhony, Ade and
Mahendra, Rahmad and
Kurniawan, Kemal and
Moeljadi, David and
Prasojo, Radityo Eko and
Baldwin, Timothy and
Lau, Jey Han and
Ruder, Sebastian",
editor = "Muresan, Smaranda and
Nakov, Preslav and
Villavicencio, Aline",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.acl - long.500",
doi = "10.18653/v1/2022.acl - long.500",
pages = "7226--7249"
}
@inproceedings{cahyawijaya - etal - 2021 - indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and
Winata, Genta Indra and
Wilie, Bryan and
Vincentio, Karissa and
Li, Xiaohong and
Kuncoro, Adhiguna and
Ruder, Sebastian and
Lim, Zhi Yuan and
Bahar, Syafri and
Khodra, Masayu and
Purwarianti, Ayu and
Fung, Pascale",
editor = "Moens, Marie - Francine and
Huang, Xuanjing and
Specia, Lucia and
Yih, Scott Wen - tau",
booktitle = "Proceedings of the 2021 Conferen



