sea-lion-3b開源多語言大模型 - 支持11種東南亞語言交流對話

首頁

Sea Lion 3b

由aisingapore開發

SEA-LION是一系列專為東南亞地區優化的多語言大語言模型，支持11種東南亞語言，基於MPT架構構建。

大型語言模型

Transformers

支持多種語言開源協議:MIT #東南亞多語言 #大詞彙量優化 #區域定製模型

下載量 770

發布時間 : 10/24/2023

模型概述

SEA-LION-v1-3B是一個30億參數的大語言模型，專門針對東南亞語言進行預訓練和指令調優，支持英語、中文及9種東南亞本地語言。

模型特點

東南亞語言優化

專門針對11種東南亞語言進行訓練，包括低資源語言如老撾語和高棉語

大詞彙量支持

採用256K詞彙量的SEABPETokenizer，優化東南亞語言分詞效果

大規模訓練數據

使用9800億token的多語言數據進行訓練，覆蓋多種語言和技術領域

高效架構

基於MPT架構優化，32層解碼器結構，適合東南亞語言處理

模型能力

多語言文本生成

跨語言理解

代碼生成(Python/Javascript等)

技術文檔處理

使用案例

多語言應用

東南亞地區客服機器人

支持多種東南亞語言的自動客服系統

可處理11種語言的客戶諮詢

多語言內容生成

為東南亞市場生成本地化營銷內容

支持多種語言的廣告文案和社交媒體內容創作

技術應用

代碼輔助

支持Python、Javascript等語言的代碼生成與補全

可幫助開發者提高編碼效率

🚀 SEA-LION-v1-3B

SEA-LION是一系列大語言模型（LLMs），針對東南亞（SEA）地區進行了預訓練和指令微調。模型的參數規模從30億到70億不等。此為SEA-LION-v1-3B的介紹頁。

SEA-LION代表東南亞語言一網打盡（Southeast Asian Languages In One Network）。

📚 詳細文檔

模型描述

SEA-LION模型是自然語言處理領域的重大突破，專門針對東南亞地區的語境進行訓練。

SEA-LION-v1-3B基於強大的MPT架構構建，詞彙量達256K。

在分詞方面，該模型採用了我們定製的SEABPETokenizer，它是專門為東南亞語言量身定製的，可確保模型達到最佳性能。

SEA-LION-v1-3B的訓練數據包含9800億個詞元。

開發者：新加坡人工智能公司產品支柱團隊
資助方：新加坡國家研究基金會
模型類型：解碼器
支持語言：英語、中文、印尼語、馬來語、泰語、越南語、菲律賓語、泰米爾語、緬甸語、高棉語、老撾語
許可證：MIT許可證

性能基準

SEA-LION-v1-3B在英語通用任務上表現出一定的平均性能（根據Hugging Face的大語言模型排行榜衡量）：

模型	ARC	HellaSwag	MMLU	TruthfulQA	平均
SEA-LION 3B	36.26	64.59	24.07	36.46	40.35

🔧 技術細節

數據

SEA-LION-v1-3B在以下9800億個詞元的數據上進行訓練：

數據源	唯一詞元	乘數	總詞元	百分比
RefinedWeb - 英語	5713億	1	5713億	58.20%
mC4 - 中文	912億	1	912億	9.29%
mC4 - 印尼語	36.8億	4	147億	1.50%
mC4 - 馬來語	7.2億	4	29億	0.29%
mC4 - 菲律賓語	13.2億	4	53億	0.54%
mC4 - 緬甸語	12億	4	49億	0.49%
mC4 - 越南語	634億	1	634億	6.46%
WangChanBERTa - 泰語	50億	2	100億	1.02%
mC4 - 泰語	58億	2	116億	1.18%
mC4 - 老撾語	2.7億	4	11億	0.12%
mC4 - 高棉語	9.7億	4	39億	0.40%
mC4 - 泰米爾語	25.5億	4	102億	1.04%
the Stack - Python	209億	2	418億	4.26%
the Stack - Javascript	556億	1	556億	5.66%
the Stack - Shell	12.5億	2	25億	0.26%
the Stack - SQL	64億	2	128億	1.31%
the Stack - Markdown	266億	1	266億	2.71%
RedPajama - StackExchange	212億	1	212億	2.16%
RedPajama - ArXiv	306億	1	306億	3.12%

基礎設施

SEA-LION-v1-3B使用MosaicML Composer在以下硬件上進行訓練：

訓練詳情	SEA-LION-v1-3B
AWS EC2 p4d.24xlarge	30 個實例
Nvidia A100 40GB GPU	240 個
訓練時長	14 天

配置

超參數	SEA-LION-v1-3B
精度	bfloat16
優化器	decoupled_adamw
調度器	cosine_with_warmup
學習率	1.6e-4
全局批次大小	1200
微批次大小	5

模型架構和目標

SEA-LION-v1-3B是一個使用MPT架構的解碼器模型。

參數	SEA-LION-v1-3B
層數	32
d_model	2560
頭維度	20
詞彙量	256000
序列長度	2048

分詞器詳情

我們從訓練數據中抽取了2000萬行來訓練分詞器。訓練框架為SentencePiece，分詞器類型為字節對編碼（BPE）。

👥 團隊成員

Lam Wen Zhi Clarence
Leong Wei Qi
Li Yier
Liu Bing Jie Darius
Lovenia Holy
Montalan Jann Railey
Ng Boon Cheong Raymond
Ngui Jian Gang
Nguyen Thanh Ngan
Ong Tat-Wee David
Rengarajan Hamsawardhini
Susanto Yosephine
Tai Ngee Chia
Tan Choon Meng
Teo Jin Howe
Teo Eng Sipp Leslie
Teo Wei Yi
Tjhi William
Yeo Yeow Tong
Yong Xianbin

🙏 致謝

新加坡人工智能是由新加坡國家研究基金會支持的國家項目，由新加坡國立大學主辦。本材料中表達的任何觀點、研究結果、結論或建議均為作者個人觀點，不反映新加坡國家研究基金會的意見。

📞 聯繫我們

如需更多信息，請通過此SEA-LION諮詢表單與我們聯繫。

SEA-LION的GitHub倉庫鏈接

⚠️ 免責聲明

此為基礎模型的倉庫。該模型尚未進行安全對齊。開發者和用戶應自行進行安全微調及相關安全措施。在任何情況下，作者均不對因使用發佈的權重和代碼而產生的任何索賠、損害或其他責任負責。

📚 參考文獻

泰語預訓練數據參考

@misc{lowphansirikul2021wangchanberta,
    title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
    author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
    year={2021},
    eprint={2101.09635},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}