🚀 Llama-SEA-LION-v3-8B
SEA-LION 是一系列大語言模型(LLM),針對東南亞(SEA)地區進行了預訓練和指令微調。Llama-SEA-LION-v3-8B 是一個多語言模型,在約 2000 億 個東南亞 11 種語言的標記上進行了持續預訓練,這些語言包括緬甸語、中文、英語、菲律賓語、印尼語、高棉語、老撾語、馬來語、泰米爾語、泰語和越南語。SEA-LION 代表 “將東南亞語言整合在一個網絡中”。
🚀 快速開始
本部分暫未提供相關內容。
✨ 主要特性
- 多語言支持:支持緬甸語、中文、英語、菲律賓語、印尼語、高棉語、老撾語、馬來語、泰米爾語、泰語和越南語等 11 種東南亞語言。
- 持續預訓練:在約 2000 億個標記上進行了持續預訓練,提升了模型在這些語言上的性能。
📚 詳細文檔
模型詳情
模型描述
我們在 Llama-3.1-8B-Instruct 這個使用 Llama 3.1 架構的解碼器模型上,對英語和東南亞語言進行了持續預訓練,從而創建了 Llama-SEA-LION-v3-8B。在分詞方面,該模型採用了 Llama 3.1 8B Instruct 中使用的默認分詞器。
基準測試性能
我們評估了 Llama-SEA-LION-v3-8B 的通用語言能力和遵循約束的行為。
- 通用語言能力和遵循約束的行為:在評估通用語言能力時,我們使用了 SEA-HELM 評估基準 進行了各種任務的評估,這些任務包括問答(QA)、情感分析(Sentiment)、毒性檢測(Toxicity)、雙向翻譯(英語到其他語言和其他語言到英語)、摘要生成(Abssum)、因果推理(Causal)和自然語言推理(NLI)。
- 注意:SEA-HELM 使用提示來引出嚴格格式的答案。對於所有任務,模型需要提供一個答案標籤,以便自動提取答案。對於提供選項的任務,答案應包含預定義的選項之一。每個任務的分數都進行了歸一化處理,以考慮隨機猜測的基線性能。評估是在每個數據集的 100 - 1000 個實例樣本上進行的,採用五樣本學習(five-shot)和原生提示。
- SEA-IFEval:基於 IFEval,團隊中的語言學家和母語人士共同對數據集進行篩選、本地化和翻譯成各自的目標語言,以確保示例合理、有意義且自然。SEA-IFEval 評估模型遵循提示中提供的約束的能力,例如以特定的單詞/短語開始回覆或以特定數量的段落回答。此外,準確率通過正確語言的回覆比例進行歸一化處理(如果模型正確執行了任務但回覆語言錯誤,則判定任務失敗)。有關 Llama-SEA-LION-v3-8B 基準測試性能的更多詳細信息,請參考 SEA-HELM 排行榜,https://leaderboard.sea-lion.ai/。
技術規格
基礎設施
Llama-SEA-LION-v3-8B 使用 MosaicML Composer 在以下硬件上進行訓練:
訓練詳情 |
Llama-SEA-LION-v3-8B |
AWS p5e.48xlarge |
8 個實例 |
Nvidia H200 140GB GPU |
64 個 |
訓練時長 |
136 小時 |
配置
超參數 |
Llama-SEA-LION-v3-8B |
精度 |
bfloat16 |
優化器 |
decoupled_adamw |
調度器 |
weight_stable_decay |
學習率 |
1.0e-5 |
全局批量大小 |
512 |
數據
Llama-SEA-LION-v3-8B 在以下約 2000 億個標記的數據上進行了持續預訓練:
語言 |
來源 |
總標記數(B) |
百分比(%) |
總百分比(%) |
代碼 |
StackV2 |
40 |
20 |
20 |
英語 |
Dolma |
37.5 |
18.75 |
25 |
|
Fineweb-Edu |
7.5 |
3.75 |
|
|
其他 |
5 |
2.5 |
|
中文 |
SEA-LION Pile v1 |
12 |
6 |
13 |
|
其他 |
14 |
7 |
|
越南語 |
SEA-LION Pile v1 |
8.4 |
4.2 |
13 |
|
VinBigData |
16 |
8 |
|
|
其他 |
1.6 |
0.8 |
|
印尼語 |
SEA-LION Pile v1 |
7 |
3.5 |
13 |
|
SEA-LION Pile v2 |
7 |
3.5 |
|
|
其他 |
12 |
6 |
|
泰語 |
SEA-LION Pile v1 |
10.7 |
5.35 |
10 |
|
WangChanBERTa |
8.5 |
4.25 |
|
|
其他 |
0.8 |
0.4 |
|
菲律賓語 - 馬來語 - 泰米爾語 |
SEA-LION Pile v1, AI4Bharat Sangraha |
4.28 |
2.14 |
3 |
|
其他 |
1.72 |
0.86 |
|
高棉語 - 老撾語 - 緬甸語 |
SEA-LION Pile v1 |
5.2 |
2.6 |
3 |
|
其他 |
0.8 |
0.4 |
|
注意:
- 所有標記計數均使用 Llama 3.1 8B Instruct 分詞器進行計數。
- SEA-LION Pile v1 是從 Common Crawl WET 處理而來,發佈地址為 here。此版本的截止日期為 2020 年 9 月。
- SEA-LION Pile v2 是從 2020 年 10 月至 2024 年 4 月的 Common Crawl WARC 處理而來。
- Sangraha 中的泰米爾語數據發佈地址為 here。相關論文可在 here 找到。
- 泰米爾語新聞經 Seithi 許可獲取。
🔧 技術細節
本部分內容已在上述 “詳細文檔” 中的 “技術規格” 部分詳細介紹。
🤝 貢獻呼籲
我們鼓勵研究人員、開發者和語言愛好者積極為 SEA-LION 的改進和擴展做出貢獻。貢獻可以包括識別和報告錯誤、分享預訓練、指令和偏好數據、提高文檔的可用性、提出並實施新的模型評估任務和指標,或者在更多東南亞語言上訓練模型版本。通過分享您的專業知識和見解,加入我們塑造 SEA-LION 的未來,使這些模型更易訪問、更準確和更通用。有關貢獻呼籲的更多信息,請查看我們的 GitHub 倉庫。
👥 團隊成員
Chan Adwin、Cheng Nicholas、Choa Esther、Huang Yuli、Hulagadri Adithya Venkatadri、Lau Wayne、Lee Chwan Ren、Leong Wai Yi、Leong Wei Qi、Limkonchotiwat Peerat、Liu Bing Jie Darius、Montalan Jann Railey、Ng Boon Cheong Raymond、Ngui Jian Gang、Nguyen Thanh Ngan、Ong Brandon、Ong Tat-Wee David、Ong Zhi Hao、Rengarajan Hamsawardhini、Siow Bryan、Susanto Yosephine、Tai Ngee Chia、Tan Choon Meng、Teng Walter、Teo Eng Sipp Leslie、Teo Wei Yi、Tjhi William、Yeo Yeow Tong、Yong Xianbin
🙏 致謝
新加坡人工智能中心 是一個由新加坡國家研究基金會支持、新加坡國立大學託管的國家項目。本材料中表達的任何意見、研究結果、結論或建議均為作者個人觀點,不反映國家研究基金會或新加坡國立大學的觀點。
📞 聯繫我們
如需更多信息,請使用 SEA-LION 諮詢表單 與我們聯繫。
SEA-LION 的 GitHub 倉庫鏈接
⚠️ 免責聲明
這是商業指令微調模型的倉庫。該模型 未 進行安全對齊。開發者和用戶應自行進行安全微調及相關安全措施。在任何情況下,作者均不對因使用發佈的權重和代碼而產生的任何索賠、損害或其他責任負責。
📚 參考文獻
泰語預訓練數據參考
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}