🚀 Gemma-SEA-LION-v3-9B
SEA-LION 是一系列大語言模型(LLMs),專為東南亞(SEA)地區進行了預訓練和指令微調。Gemma-SEA-LION-v3-9B 是一個多語言模型,它在約 2000 億 個標記的 11 種東南亞官方語言數據上進行了持續預訓練,這些語言包括英語、中文、越南語、印尼語、泰語、泰米爾語、菲律賓語、馬來語、高棉語、老撾語和緬甸語。
SEA-LION 代表 東南亞語言一網打盡。
- 開發者: 新加坡人工智能公司產品支柱團隊
- 資助方: 新加坡國家研究基金會
- 模型類型: 解碼器
- 支持語言: 緬甸語、中文、英語、菲律賓語、印尼語、高棉語、老撾語、馬來語、泰米爾語、泰語、越南語
- 許可證: Gemma 社區許可證
✨ 主要特性
模型詳情
模型描述
我們在 Gemma-2-9B 這個採用 Gemma 2 架構的解碼器模型基礎上,用英語和東盟語言進行了持續預訓練,從而創建了 Gemma-SEA-LION-v3-9B。
在標記化方面,該模型採用了 Gemma 2 9B 中使用的默認分詞器。
基準性能
我們對 Gemma-SEA-LION-v3-9B 的通用語言能力進行了評估。
- 通用語言能力:在評估通用語言能力時,我們使用了 SEA-HELM 評估基準 進行了多種任務的測試。這些任務包括問答(QA)、情感分析(Sentiment)、毒性檢測(Toxicity)、雙向翻譯(英語到其他語言和其他語言到英語)、摘要生成(Summ)、因果推理(Causal)和自然語言推理(NLI)。
注意:SEA HELM 採用提示的方式以嚴格的格式獲取答案。對於所有任務,模型需要提供一個答案標籤,以便自動提取答案。對於提供選項的任務,答案應從預定義的選項中選擇。每個任務的分數都進行了歸一化處理,以考慮隨機猜測的基線性能。
評估是在每個數據集的 100 - 1000 個實例上進行的 五樣本學習,使用了原生提示。
有關 Gemma-SEA-LION-v3-9B 基準性能的更多詳細信息,請參考 SEA HELM 排行榜:https://leaderboard.sea-lion.ai/
技術細節
基礎設施
Gemma-SEA-LION-v3-9B 是使用 MosaicML Composer 在以下硬件上進行訓練的:
訓練詳情 |
Gemma-SEA-LION-v3-9B |
新加坡電信 HGX-100 |
8 個實例 |
NVIDIA H100 80GB GPU |
64 個 |
訓練時長 |
10 天 |
配置
超參數 |
Gemma-SEA-LION-v3-9B |
精度 |
bfloat16 |
優化器 |
decoupled_adamw |
調度器 |
weight_stable_decay |
學習率 |
1.0e-5 |
全局批量大小 |
512 |
微批量大小 |
1 |
數據
Gemma-SEA-LION-v3-9B 在 2000 億個標記的以下數據上進行了持續預訓練:
語言 |
來源 |
總標記數(十億) |
百分比(%) |
累計百分比(%) |
代碼 |
StackV2 |
40 |
20 |
20 |
英語 |
Dolma |
37.5 |
18.75 |
25 |
|
Fineweb-Edu |
7.5 |
3.75 |
|
|
其他 |
5 |
2.5 |
|
中文 |
SEA-LION Pile v1 |
12 |
6 |
13 |
|
其他 |
14 |
7 |
|
越南語 |
SEA-LION Pile v1 |
8.4 |
4.2 |
13 |
|
VinBigData |
16 |
8 |
|
|
其他 |
1.6 |
0.8 |
|
印尼語 |
SEA-LION Pile v1 |
7 |
3.5 |
13 |
|
SEA-LION Pile v2 |
7 |
3.5 |
|
|
其他 |
12 |
6 |
|
泰語 |
SEA-LION Pile v1 |
10.7 |
5.35 |
10 |
|
WangChanBERTa |
8.5 |
4.25 |
|
|
其他 |
0.8 |
0.4 |
|
菲律賓語 - 馬來語 - 泰米爾語 |
SEA-LION Pile v1 |
4.28 |
2.14 |
3 |
|
其他 |
1.72 |
0.86 |
|
高棉語 - 老撾語 - 緬甸語 |
SEA-LION Pile v1 |
5.2 |
2.6 |
3 |
|
其他 |
0.8 |
0.4 |
|
注意:
- 所有標記數均使用 Gemma 2 9B 分詞器進行統計。
- SEA-LION Pile v1 是從 Common Crawl WET 處理而來,相關數據發佈在 此處。該版本的截止日期為 2020 年 9 月。
- SEA-LION Pile v2 是從 2020 年 10 月至 2024 年 4 月的 Common Crawl WARC 處理而來。
- 泰米爾語新聞數據經 Seithi 授權獲取。
📚 詳細文檔
貢獻呼籲
我們鼓勵研究人員、開發者和語言愛好者積極為 SEA-LION 的改進和擴展做出貢獻。貢獻內容可以包括識別和報告漏洞、分享預訓練、指令和偏好數據、提高文檔的可用性、提出並實現新的模型評估任務和指標,或者在更多東南亞語言上訓練模型版本。歡迎分享您的專業知識和見解,與我們一起塑造 SEA-LION 的未來,讓這些模型更加易用、準確和通用。有關貢獻呼籲的更多信息,請查看我們的 GitHub 倉庫。
團隊成員
Chan Adwin、Cheng Nicholas、Choa Esther、Huang Yuli、Hulagadri Adithya Venkatadri、Lau Wayne、Lee Chwan Ren、Leong Wai Yi、Leong Wei Qi、Limkonchotiwat Peerat、Liu Bing Jie Darius、Montalan Jann Railey、Ng Boon Cheong Raymond、Ngui Jian Gang、Nguyen Thanh Ngan、Ong Brandon、Ong Tat-Wee David、Ong Zhi Hao、Rengarajan Hamsawardhini、Siow Bryan、Susanto Yosephine、Tai Ngee Chia、Tan Choon Meng、Teng Walter、Teo Eng Sipp Leslie、Teo Wei Yi、Tjhi William、Yeo Yeow Tong、Yong Xianbin
致謝
新加坡人工智能公司 是一個由新加坡國家研究基金會支持、新加坡國立大學託管的國家項目。本材料中表達的任何觀點、研究結果、結論或建議均為作者個人觀點,不反映新加坡國家研究基金會或新加坡國立大學的意見。
聯繫方式
如需更多信息,請通過 SEA-LION 諮詢表單 與我們聯繫。
SEA-LION 的 GitHub 倉庫鏈接
免責聲明
這是商業指令微調模型的倉庫。該模型 未進行安全對齊。開發者和用戶應自行進行安全微調及相關安全措施。作者不對因使用發佈的權重和代碼而產生的任何索賠、損害或其他責任負責。
參考文獻
泰語預訓練數據參考文獻
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}