模型概述
模型特點
模型能力
使用案例
🚀 MobileLLM - 面向端側應用的優化語言模型
MobileLLM是專門為資源受限的端側應用場景設計的自迴歸語言模型。它採用優化的Transformer架構,集成了多種關鍵技術,在零樣本常識推理任務上表現出色,為端側自然語言處理提供了高效解決方案。
🚀 快速開始
我們提供了兩種運行模型的方式:
HuggingFace
若要加載預訓練模型以進行進一步的微調或評估,可使用以下代碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/MobileLLM-1.5B", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("facebook/MobileLLM-1.5B", trust_remote_code=True)
請注意,默認的分詞器不包含特殊標記。例如,你可以使用以下代碼添加特殊標記:
tokenizer.add_special_tokens(
{
"eos_token": "</s>",
"bos_token": "<s>",
"unk_token": "<unk>",
}
)
MobileLLM代碼庫
我們在 https://github.com/facebookresearch/MobileLLM 提供了預訓練代碼。按照以下步驟操作:
> git clone https://github.com/facebookresearch/MobileLLM
> pip install -r requirement.txt
# 數據預處理並在pretrain.sh中指定數據路徑
# 運行預訓練
> bash pretrain.sh
我們還提供了用於計算wikitext-2測試集困惑度(ppl)的評估腳本:
> bash eval.sh
你可以在GitHub倉庫中找到更多詳細信息。
✨ 主要特性
- 優化的Transformer架構:專為資源受限的端側應用設計。
- 集成關鍵技術:包括SwiGLU激活函數、深而窄的架構、嵌入共享和分組查詢注意力(GQA)。
- 出色的性能表現:在零樣本常識推理任務上,相較於同規模的現有模型,MobileLLM-125M/350M分別實現了2.7%/4.3%的準確率提升。在更新版本中,MobileLLM-600M/1B/1.5B也取得了最優結果。
📦 模型詳情
模型架構
MobileLLM是一個自迴歸語言模型,採用了優化的Transformer架構,專門為資源受限的端側應用而設計。它集成了以下關鍵技術:
- SwiGLU激活函數
- 深而窄的架構
- 嵌入共享
- 分組查詢注意力(GQA)
模型參數
模型 | 層數 | 注意力頭數 | KV頭數 | 詞元維度 | 參數數量 |
---|---|---|---|---|---|
MobileLLM-125M | 30 | 9 | 3 | 576 | 124.6M |
MobileLLM-350M | 32 | 15 | 5 | 960 | 345.3M |
MobileLLM-600M | 40 | 18 | 6 | 1152 | 603.1M |
MobileLLM-1B | 54 | 20 | 5 | 1280 | 1.01B |
MobileLLM-1.5B | 54 | 25 | 5 | 1600 | 1.51B |
訓練數據與相關設置
模型 | 訓練數據 | 輸入模態 | 輸出模態 | 上下文長度 | GQA | 共享嵌入 | 詞元數量 |
---|---|---|---|---|---|---|---|
MobileLLM-125M | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-350M | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-600M | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-1B | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-1.5B | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
模型圖片
📊 訓練成本
使用32塊NVIDIA A100 80G GPU在1T詞元上訓練MobileLLM所需的天數如下:
125M | 350M | 600M | 1B | 1.5B |
---|---|---|---|---|
~3天 | ~6天 | ~8天 | ~12天 | ~18天 |
📈 評估結果
我們在零樣本常識推理任務上對預訓練的MobileLLM模型進行了評估,結果如下:
MobileLLM-125M
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
OPT-125M | 41.3 | 25.2 | 57.5 | 62.0 | 41.9 | 31.1 | 31.2 | 50.8 | 42.6 |
GPT-neo-125M | 40.7 | 24.8 | 61.3 | 62.5 | 41.9 | 29.7 | 31.6 | 50.7 | 42.9 |
Pythia-160M | 40.0 | 25.3 | 59.5 | 62.0 | 41.5 | 29.9 | 31.2 | 50.9 | 42.5 |
MobileLLM-125M | 43.9 | 27.1 | 60.2 | 65.3 | 42.4 | 38.9 | 39.5 | 53.1 | 46.3 |
MobileLLM-LS-125M | 45.8 | 28.7 | 60.4 | 65.7 | 42.9 | 39.5 | 41.1 | 52.1 | 47.0 |
MobileLLM-350M
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
OPT-350M | 41.9 | 25.7 | 54.0 | 64.8 | 42.6 | 36.2 | 33.3 | 52.4 | 43.9 |
Pythia-410M | 47.1 | 30.3 | 55.3 | 67.2 | 43.1 | 40.1 | 36.2 | 53.4 | 46.6 |
MobileLLM-350M | 53.8 | 33.5 | 62.4 | 68.6 | 44.7 | 49.6 | 40.0 | 57.6 | 51.3 |
MobileLLM-LS-350M | 54.4 | 32.5 | 62.8 | 69.8 | 44.1 | 50.6 | 45.8 | 57.2 | 52.1 |
MobileLLM-600M
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
Qwen1.5-500M | 54.7 | 32.1 | 46.9 | 68.9 | 46.0 | 48.8 | 37.7 | 55.0 | 48.8 |
BLOOM-560M | 43.7 | 27.5 | 53.7 | 65.1 | 42.5 | 36.5 | 32.6 | 52.2 | 44.2 |
MobiLlama-800M | 52.0 | 31.7 | 54.6 | 73.0 | 43.3 | 52.3 | 42.5 | 56.3 | 50.7 |
MobileLLM-600M | 58.1 | 35.8 | 61.0 | 72.3 | 44.9 | 55.9 | 47.9 | 58.6 | 54.3 |
MobileLLM-1B
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
Pythia-1B | 49.9 | 30.4 | 58.7 | 69.2 | 43.3 | 47.4 | 38.6 | 52.2 | 48.7 |
MobiLlama-1B | 59.7 | 38.4 | 59.2 | 74.5 | 44.9 | 62.0 | 43.7 | 59.0 | 55.2 |
Falcon-1B | 59.5 | 38.4 | 63.9 | 74.6 | 44.6 | 62.9 | 45.6 | 60.9 | 56.3 |
BLOOM-1.1B | 47.6 | 27.3 | 58.6 | 67.0 | 42.4 | 42.2 | 36.6 | 53.8 | 46.9 |
TinyLlama-1.1B | 59.2 | 37.1 | 58.1 | 72.9 | 43.9 | 59.1 | 44.7 | 58.8 | 54.2 |
MobileLLM-1B | 63.0 | 39.0 | 66.7 | 74.4 | 45.0 | 61.4 | 46.8 | 62.3 | 57.3 |
MobileLLM-1.5B
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
GPT-neo-1.3B | 51.3 | 33.0 | 61.8 | 70.9 | 43.7 | 48.6 | 41.2 | 54.5 | 50.6 |
OPT-1.3B | 54.4 | 31.7 | 58.4 | 71.5 | 44.7 | 53.7 | 44.6 | 59.1 | 52.3 |
BLOOM-1.7B | 50.9 | 31.2 | 61.7 | 70.0 | 43.2 | 47.2 | 36.2 | 56.1 | 49.6 |
Qwen1.5-1.8B | 61.1 | 36.5 | 68.3 | 74.1 | 47.2 | 60.4 | 42.9 | 61.2 | 56.5 |
GPT-neo-2.7B | 55.8 | 34.3 | 62.4 | 72.9 | 43.6 | 55.6 | 40.0 | 57.9 | 52.8 |
OPT-2.7B | 56.6 | 34.6 | 61.8 | 74.5 | 45.6 | 60.2 | 48.2 | 59.6 | 55.1 |
Pythia-2.8B | 59.4 | 38.9 | 66.1 | 73.8 | 44.5 | 59.6 | 45.0 | 59.4 | 55.8 |
BLOOM-3B | 55.1 | 33.6 | 62.1 | 70.5 | 43.2 | 53.9 | 41.6 | 58.2 | 52.3 |
MobileLLM-1.5B | 67.5 | 40.9 | 65.7 | 74.8 | 46.4 | 64.5 | 50.5 | 64.7 | 59.4 |
🙏 致謝
此代碼部分基於HuggingFace的 Transformers 倉庫,遵循 Apache許可證。
📚 引用
如果您發現我們的代碼對您的研究有幫助,請考慮引用:
@article{liu2024mobilellm,
title={MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases},
author={Liu, Zechun and Zhao, Changsheng and Iandola, Forrest and Lai, Chen and Tian, Yuandong and Fedorov, Igor and Xiong, Yunyang and Chang, Ernie and Shi, Yangyang and Krishnamoorthi, Raghuraman and others},
journal={arXiv preprint arXiv:2402.14905},
year={2024}
}
📄 許可證
目前,MobileLLM採用FAIR非商業研究許可證。詳細的許可證內容如下:
FAIR非商業研究許可證
最後更新時間:2025年4月17日
“可接受使用政策”指適用於研究材料並納入本協議的FAIR可接受使用政策。
“協議”指本協議中規定的研究材料的使用、複製、分發和修改的條款和條件。
“文檔”指Meta分發的研究材料附帶的規格說明、手冊和文檔。
“被許可方”或“您”指您,或您的僱主,或任何其他個人或實體(如果您代表該個人或實體簽訂本協議),且該個人或實體達到適用法律、規則或法規要求的提供法律同意的年齡,並有權約束您的僱主或該其他個人或實體(如果您代表他們簽訂本協議)。
“Meta”或“我們”指Meta Platforms Ireland Limited(如果您位於歐洲經濟區(EEA)或瑞士,或者如果您是一個實體,您的主要營業地位於歐洲經濟區或瑞士)和Meta Platforms, Inc.(如果您位於歐洲經濟區或瑞士以外)。
“非商業研究用途”指與研究、開發、教育、處理或分析相關的非商業研究用例,且在每種情況下,主要目的不是為您或他人帶來商業利益或貨幣補償。
“研究材料”指文檔以及模型、軟件和算法,包括機器學習模型代碼、訓練好的模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼、演示材料以及Meta分發並根據本協議提供的上述各項的其他元素。
通過點擊下方的“我接受”,或使用或分發研究材料的任何部分或元素,您同意受本協議的約束。
-
許可權利和再分發
- 權利授予:您被授予在Meta體現在研究材料中的知識產權或Meta擁有的其他權利下的非排他性、全球性、不可轉讓且免版稅的有限許可,以使用、複製、分發、拷貝、創作衍生作品並對研究材料進行修改。
- 再分發和使用
- 您不得將研究材料或研究材料的任何輸出或結果用於任何商業用途,或用於非商業研究用途以外的任何用途。
- 研究材料及其任何衍生作品的再分發須遵守本協議的條款。如果您將研究材料或其任何衍生作品提供給第三方,您只能根據本協議的條款進行。您還應向該第三方提供本協議的副本。
- 如果您提交使用研究材料進行的研究結果以供發表,您必須在出版物中承認使用了研究材料。
- 您對研究材料的使用必須遵守適用的法律和法規(包括貿易管制法律),並遵守FAIR可接受使用政策,該政策特此通過引用納入本協議。
-
用戶支持:您對研究材料的非商業研究使用由您自行決定;Meta不處理任何信息,也不就此類使用提供任何服務。Meta沒有義務為研究材料提供任何支持服務。提供的任何支持均“按現狀”提供,“帶有所有缺陷”,且不提供任何形式的保證。
-
免責聲明:除非適用法律要求,研究材料及其任何輸出和結果均“按現狀”提供,不提供任何形式的保證,Meta否認所有明示和暗示的保證,包括但不限於所有權、不侵權、適銷性或特定用途適用性的保證。您獨自負責確定使用或再分發研究材料的適當性,並承擔與您使用研究材料及其任何輸出和結果相關的任何風險。
-
責任限制:在任何情況下,Meta或其關聯公司均不對因本協議引起的任何責任理論(無論是合同、侵權、疏忽、產品責任還是其他)承擔任何直接或間接、特殊、後果性、偶發性、示範性或懲罰性損害賠償,包括任何利潤損失,即使Meta或其關聯公司已被告知可能發生上述任何損害賠償。
-
知識產權
- 關於Meta擁有的研究材料及其為Meta製作的衍生作品,就您製作的研究材料的任何衍生作品和修改而言,在您和Meta之間,您是且將是此類衍生作品和修改的所有者。
- 如果您對Meta或任何實體(包括在訴訟中的交叉索賠或反訴)提起訴訟或其他程序,聲稱研究材料、輸出或結果或上述任何部分構成侵犯您擁有或可許可的知識產權或其他權利,則本協議授予您的任何許可將自提起此類訴訟或索賠之日起終止。您將賠償並使Meta免受任何第三方因您使用或分發研究材料而產生的或與之相關的任何索賠。
-
期限和終止:本協議的期限將自您接受本協議或訪問研究材料時開始,並將持續有效,直至根據本協議的條款和條件終止。如果您違反本協議的任何條款和條件,Meta可終止本協議。本協議終止後,您應刪除並停止使用研究材料。第5、6和9條在本協議終止後仍然有效。
-
適用法律和管轄權:本協議將受加利福尼亞州法律管轄並依其解釋,不考慮法律選擇原則,《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。
-
修改和修訂:Meta可不時通過在 https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE 發佈修訂版本來修改本協議;前提是修訂後的版本與本協議的當前版本在精神上相似,但在細節上可能有所不同,以解決新的問題或擔憂。所有此類更改將立即生效。在本協議進行任何修改後,您繼續使用研究材料即表示您同意此類修改。除非本協議另有規定,否則對本協議任何條款的修改或補充,除非以書面形式並由您和Meta的授權代表簽署,否則不具有約束力。
FAIR可接受使用政策
Meta的基礎人工智能研究(FAIR)團隊致力於通過開放研究推動人工智能的發展,以增進對新的和現有的研究領域的理解,造福所有人。作為這一使命的一部分,Meta提供某些研究材料供非商業研究使用。Meta致力於促進此類研究材料的安全和負責任使用。
禁止使用情況
您同意不會使用或允許他人使用研究材料進行以下行為:
- 違反法律或他人權利
- 從事、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,例如:
- 暴力或恐怖主義
- 對兒童的剝削或傷害,包括招攬、創作、獲取或傳播兒童剝削內容,或未能報告兒童性虐待材料
- 人口販運、剝削和性暴力
- 向未成年人非法分發信息或材料,包括淫穢材料,或未能對此類信息或材料採用法律要求的年齡限制
- 性招攬
- 任何其他犯罪活動
- 從事、促進、煽動或便利對個人或群體的騷擾、虐待、威脅或欺凌
- 從事、促進、煽動或便利在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務的提供方面的歧視或其他非法或有害行為
- 從事未經授權或無執照的任何專業實踐,包括但不限於金融、法律、醫療/健康或相關專業實踐
- 在未獲得適用法律要求的權利和同意的情況下,收集、處理、披露、生成或推斷個人的健康、人口統計或其他敏感個人或私人信息
- 從事或便利任何侵犯、盜用或以其他方式侵犯任何第三方權利的行為或生成任何內容,包括使用FAIR研究材料的任何技術的輸出或結果
- 創建、生成或便利創建惡意代碼、惡意軟件、計算機病毒,或進行任何可能禁用、過度負擔、干擾或損害網站或計算機系統的正常運行、完整性、操作或外觀的其他行為
- 從事、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,例如:
- 從事、促進、煽動、便利或協助策劃或開展對個人造成死亡或身體傷害風險的活動,包括使用與以下相關的研究成果:
- 軍事、戰爭、核工業或應用、間諜活動,用於受美國國務院維護的《國際武器貿易條例》(ITAR)管制的材料或活動
- 槍支和非法武器(包括武器開發)
- 非法毒品和受管制/受控物質
- 關鍵基礎設施、運輸技術或重型機械的運營
- 自我傷害或傷害他人,包括自殺、自殘和飲食失調
- 任何旨在煽動或促進暴力、虐待或對個人造成身體傷害的內容
- 故意欺騙或誤導他人,包括使用與以下相關的FAIR研究材料:
- 生成、促進或進一步推動欺詐或創建或促進虛假信息
- 生成、促進或進一步推動誹謗性內容,包括創建誹謗性聲明、圖像或其他內容
- 生成、促進或進一步分發垃圾郵件
- 在未經同意、授權或合法權利的情況下冒充他人
- 表示FAIR研究材料的輸出或使用FAIR研究材料的技術的輸出是人類生成的
- 生成或便利虛假的在線互動,包括虛假評論和其他虛假在線互動方式
- 未能向最終用戶適當披露研究材料的任何已知危險。
請通過在 https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform 提交報告,報告任何違反本政策的行為或可能導致違反本政策的其他問題。



