Mobilellm 125M Layer Share
模型概述
模型特點
模型能力
使用案例
🚀 MobileLLM
MobileLLM是一款專為設備端應用場景優化的語言模型,它採用了優化的Transformer架構,能在資源受限的設備上高效運行,在零樣本常識推理任務中表現出色。
🚀 快速開始
我們提供了兩種方式來運行該模型:
HuggingFace
若要加載預訓練模型以進行進一步的微調或評估,可使用以下代碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/MobileLLM-125M-layer-share", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("facebook/MobileLLM-125M-layer-share", trust_remote_code=True)
請注意,默認的分詞器不包含特殊標記。例如,你可以使用以下代碼添加特殊標記:
tokenizer.add_special_tokens(
{
"eos_token": "</s>",
"bos_token": "<s>",
"unk_token": "<unk>",
}
)
MobileLLM代碼庫
我們在 https://github.com/facebookresearch/MobileLLM 提供了預訓練代碼。
> git clone https://github.com/facebookresearch/MobileLLM
> pip install -r requirement.txt
# 數據預處理並在pretrain.sh中指定數據路徑
# 運行預訓練
> bash pretrain.sh
我們還提供了用於計算wikitext-2測試集困惑度(ppl)的評估腳本:
> bash eval.sh
你可以在GitHub倉庫中找到更多詳細信息。
✨ 主要特性
- 優化架構:MobileLLM是一個自迴歸語言模型,採用了優化的Transformer架構,專為資源受限的設備端應用而設計。
- 關鍵技術集成:集成了多種關鍵技術,包括SwiGLU激活函數、深而窄的架構、嵌入共享和分組查詢注意力(GQA)。
- 性能提升:在零樣本常識推理任務中,MobileLLM-125M/350M比之前的125M/350M最優模型分別提高了2.7%/4.3%的準確率。更新版本中,MobileLLM-600M/1B/1.5B也取得了最優結果。
📦 安裝指南
HuggingFace方式
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/MobileLLM-125M-layer-share", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("facebook/MobileLLM-125M-layer-share", trust_remote_code=True)
MobileLLM代碼庫方式
> git clone https://github.com/facebookresearch/MobileLLM
> pip install -r requirement.txt
> bash pretrain.sh
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("facebook/MobileLLM-125M-layer-share", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("facebook/MobileLLM-125M-layer-share", trust_remote_code=True)
高級用法
tokenizer.add_special_tokens(
{
"eos_token": "</s>",
"bos_token": "<s>",
"unk_token": "<unk>",
}
)
📚 詳細文檔
模型詳情
MobileLLM在論文 "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" 中被提出,並發表於ICML 2024。
模型開發者:Meta
模型架構:MobileLLM是一個自迴歸語言模型,採用了優化的Transformer架構,專為資源受限的設備端應用而設計。它集成了多種關鍵技術,包括SwiGLU激活函數、深而窄的架構、嵌入共享和分組查詢注意力(GQA)。
模型參數
模型 | 層數 | 注意力頭數 | KV頭數 | 詞元維度 | 參數數量 |
---|---|---|---|---|---|
MobileLLM-125M | 30 | 9 | 3 | 576 | 124.6M |
MobileLLM-350M | 32 | 15 | 5 | 960 | 345.3M |
MobileLLM-600M | 40 | 18 | 6 | 1152 | 603.1M |
MobileLLM-1B | 54 | 20 | 5 | 1280 | 1.01B |
MobileLLM-1.5B | 54 | 25 | 5 | 1600 | 1.51B |
訓練數據及相關信息
模型 | 訓練數據 | 輸入模態 | 輸出模態 | 上下文長度 | GQA | 共享嵌入 | 詞元數量 |
---|---|---|---|---|---|---|---|
MobileLLM-125M | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-350M | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-600M | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-1B | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
MobileLLM-1.5B | 公開可用的在線數據 | 文本 | 文本 | 2k | 是 | 是 | 1T詞元 |
訓練成本
使用32塊NVIDIA A100 80G GPU在1T詞元上訓練MobileLLM所需的天數如下:
125M | 350M | 600M | 1B | 1.5B |
---|---|---|---|---|
~3天 | ~6天 | ~8天 | ~12天 | ~18天 |
評估
我們在零樣本常識推理任務上對預訓練的MobileLLM模型進行了評估。
MobileLLM-125M
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
OPT-125M | 41.3 | 25.2 | 57.5 | 62.0 | 41.9 | 31.1 | 31.2 | 50.8 | 42.6 |
GPT-neo-125M | 40.7 | 24.8 | 61.3 | 62.5 | 41.9 | 29.7 | 31.6 | 50.7 | 42.9 |
Pythia-160M | 40.0 | 25.3 | 59.5 | 62.0 | 41.5 | 29.9 | 31.2 | 50.9 | 42.5 |
MobileLLM-125M | 43.9 | 27.1 | 60.2 | 65.3 | 42.4 | 38.9 | 39.5 | 53.1 | 46.3 |
MobileLLM-LS-125M | 45.8 | 28.7 | 60.4 | 65.7 | 42.9 | 39.5 | 41.1 | 52.1 | 47.0 |
MobileLLM-350M
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
OPT-350M | 41.9 | 25.7 | 54.0 | 64.8 | 42.6 | 36.2 | 33.3 | 52.4 | 43.9 |
Pythia-410M | 47.1 | 30.3 | 55.3 | 67.2 | 43.1 | 40.1 | 36.2 | 53.4 | 46.6 |
MobileLLM-350M | 53.8 | 33.5 | 62.4 | 68.6 | 44.7 | 49.6 | 40.0 | 57.6 | 51.3 |
MobileLLM-LS-350M | 54.4 | 32.5 | 62.8 | 69.8 | 44.1 | 50.6 | 45.8 | 57.2 | 52.1 |
MobileLLM-600M
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
Qwen1.5-500M | 54.7 | 32.1 | 46.9 | 68.9 | 46.0 | 48.8 | 37.7 | 55.0 | 48.8 |
BLOOM-560M | 43.7 | 27.5 | 53.7 | 65.1 | 42.5 | 36.5 | 32.6 | 52.2 | 44.2 |
MobiLlama-800M | 52.0 | 31.7 | 54.6 | 73.0 | 43.3 | 52.3 | 42.5 | 56.3 | 50.7 |
MobileLLM-600M | 58.1 | 35.8 | 61.0 | 72.3 | 44.9 | 55.9 | 47.9 | 58.6 | 54.3 |
MobileLLM-1B
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
Pythia-1B | 49.9 | 30.4 | 58.7 | 69.2 | 43.3 | 47.4 | 38.6 | 52.2 | 48.7 |
MobiLlama-1B | 59.7 | 38.4 | 59.2 | 74.5 | 44.9 | 62.0 | 43.7 | 59.0 | 55.2 |
Falcon-1B | 59.5 | 38.4 | 63.9 | 74.6 | 44.6 | 62.9 | 45.6 | 60.9 | 56.3 |
BLOOM-1.1B | 47.6 | 27.3 | 58.6 | 67.0 | 42.4 | 42.2 | 36.6 | 53.8 | 46.9 |
TinyLlama-1.1B | 59.2 | 37.1 | 58.1 | 72.9 | 43.9 | 59.1 | 44.7 | 58.8 | 54.2 |
MobileLLM-1B | 63.0 | 39.0 | 66.7 | 74.4 | 45.0 | 61.4 | 46.8 | 62.3 | 57.3 |
MobileLLM-1.5B
模型 | arc_easy | arc_challenge | boolq | piqa | siqa | hellaswag | obqa | winogrande | 平均 |
---|---|---|---|---|---|---|---|---|---|
GPT-neo-1.3B | 51.3 | 33.0 | 61.8 | 70.9 | 43.7 | 48.6 | 41.2 | 54.5 | 50.6 |
OPT-1.3B | 54.4 | 31.7 | 58.4 | 71.5 | 44.7 | 53.7 | 44.6 | 59.1 | 52.3 |
BLOOM-1.7B | 50.9 | 31.2 | 61.7 | 70.0 | 43.2 | 47.2 | 36.2 | 56.1 | 49.6 |
Qwen1.5-1.8B | 61.1 | 36.5 | 68.3 | 74.1 | 47.2 | 60.4 | 42.9 | 61.2 | 56.5 |
GPT-neo-2.7B | 55.8 | 34.3 | 62.4 | 72.9 | 43.6 | 55.6 | 40.0 | 57.9 | 52.8 |
OPT-2.7B | 56.6 | 34.6 | 61.8 | 74.5 | 45.6 | 60.2 | 48.2 | 59.6 | 55.1 |
Pythia-2.8B | 59.4 | 38.9 | 66.1 | 73.8 | 44.5 | 59.6 | 45.0 | 59.4 | 55.8 |
BLOOM-3B | 55.1 | 33.6 | 62.1 | 70.5 | 43.2 | 53.9 | 41.6 | 58.2 | 52.3 |
MobileLLM-1.5B | 67.5 | 40.9 | 65.7 | 74.8 | 46.4 | 64.5 | 50.5 | 64.7 | 59.4 |
🔧 技術細節
MobileLLM集成了多種關鍵技術,包括SwiGLU激活函數、深而窄的架構、嵌入共享和分組查詢注意力(GQA)。這些技術的應用使得模型在資源受限的設備端應用中能夠高效運行,並取得了較好的性能。
📄 許可證
MobileLLM目前採用FAIR非商業研究許可證。點擊 “我接受” 或使用或分發研究材料的任何部分或元素,即表示你同意受本協議的約束。詳細的許可證信息請參考以下內容:
FAIR非商業研究許可證
最後更新時間:2025年4月17日
“可接受使用政策” 指適用於研究材料的FAIR可接受使用政策,該政策已納入本協議。
“協議” 指本協議中規定的研究材料的使用、複製、分發和修改的條款和條件。
“文檔” 指Meta分發的研究材料所附帶的規格、手冊和文檔。
“被許可人” 或 “你” 指你、你的僱主或任何其他人或實體(如果你代表該人或實體簽訂本協議),且你已達到適用法律、規則或法規要求的提供法律同意的年齡,並且如果你代表你的僱主或其他人員或實體簽訂本協議,你具有約束他們的法律權力。
“Meta” 或 “我們” 指Meta Platforms Ireland Limited(如果你位於歐洲經濟區(EEA)或瑞士,或者如果你是一家實體,你的主要營業地點在EEA或瑞士)和Meta Platforms, Inc.(如果你位於EEA或瑞士以外的地區)。
“非商業研究用途” 指與研究、開發、教育、處理或分析相關的非商業研究用例,並且在每種情況下,主要目的不是為你或他人謀取商業利益或金錢補償。
“研究材料” 指文檔以及Meta分發並根據本協議提供的模型、軟件和算法,包括機器學習模型代碼、訓練好的模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼、演示材料和其他相關元素。
通過點擊下面的 “我接受”,或使用或分發研究材料的任何部分或元素,你同意受本協議的約束。
1. 許可權利和再分發
- 權利授予:你被授予在Meta體現在研究材料中的知識產權或其他權利下的非排他性、全球性、不可轉讓和免版稅的有限許可,以使用、複製、分發、複製、創建衍生作品並對研究材料進行修改。
- 再分發和使用
- 你不得將研究材料或研究材料的任何輸出或結果用於任何商業用途,或用於非商業研究用途以外的任何用途。
- 研究材料及其任何衍生作品的再分發須遵守本協議的條款。如果你將研究材料或其任何衍生作品分發給第三方,你只能根據本協議的條款進行分發。你還應向該第三方提供本協議的副本。
- 如果你提交使用研究材料進行的研究結果以供發表,你必須在出版物中承認使用了研究材料。
- 你對研究材料的使用必須遵守適用的法律和法規(包括貿易管制法律),並遵守FAIR可接受使用政策,該政策已通過引用納入本協議。
2. 用戶支持
你對研究材料的非商業研究使用由你自行決定;Meta不處理任何信息,也不就此類使用提供任何服務。Meta沒有義務為研究材料提供任何支持服務。提供的任何支持均 “按現狀”、“帶有所有缺陷” 提供,且不提供任何形式的保證。
3. 保證免責
除非適用法律要求,研究材料及其任何輸出和結果均 “按現狀” 提供,不提供任何形式的保證,Meta免除所有明示和暗示的保證,包括但不限於所有權、不侵權、適銷性或特定用途適用性的任何保證。你獨自負責確定使用或再分發研究材料的適當性,並承擔與你使用研究材料及其任何輸出和結果相關的任何風險。
4. 責任限制
在任何情況下,Meta或其附屬公司均不對因本協議引起的任何責任理論(無論是合同、侵權、疏忽、產品責任還是其他)承擔任何利潤損失或任何直接或間接、特殊、後果性、偶然、懲戒性或懲罰性損害賠償的責任,即使Meta或其附屬公司已被告知此類損害賠償的可能性。
5. 知識產權
- 除Meta對研究材料及其為Meta製作的衍生作品的所有權外,對於你對研究材料所做的任何衍生作品和修改,在你和Meta之間,你是並將是此類衍生作品和修改的所有者。
- 如果你對Meta或任何實體提起訴訟或其他法律程序(包括在訴訟中的交叉索賠或反訴),聲稱研究材料、輸出或結果或其任何部分構成侵犯你擁有或可許可的知識產權或其他權利,則本協議授予你的任何許可將自提起此類訴訟或索賠之日起終止。你將賠償並使Meta免受任何第三方因你使用或分發研究材料而產生的或與之相關的任何索賠。
6. 期限和終止
本協議的期限自你接受本協議或訪問研究材料之日起開始,並將持續有效,直至根據本協議的條款和條件終止。如果你違反本協議的任何條款或條件,Meta可終止本協議。本協議終止後,你應刪除並停止使用研究材料。第5、6和9條在本協議終止後仍然有效。
7. 適用法律和管轄權
本協議將受加利福尼亞州法律管轄並依其解釋,不考慮法律選擇原則,《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。
8. 修改和修訂
Meta可不時通過在 https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE 上發佈修訂版本來修改本協議;前提是這些修改在精神上與本協議的當前版本相似,但在細節上可能有所不同,以解決新的問題或擔憂。所有此類更改將立即生效。在本協議進行任何修改後,你繼續使用研究材料即表示你同意此類修改。除非本協議另有規定,否則對本協議任何條款的修改或補充除非以書面形式並由你和Meta的授權代表簽字,否則不具有約束力。
FAIR可接受使用政策
Meta的基礎人工智能研究(FAIR)團隊致力於通過開放研究推動人工智能的發展,以造福所有人,進一步理解新的和現有的研究領域。
作為這一使命的一部分,Meta提供某些研究材料供非商業研究使用。Meta致力於促進此類研究材料的安全和負責任使用。
禁止使用情況
你同意你不會使用或允許他人使用研究材料來:
- 違反法律或他人權利
- 從事、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,例如:
- 暴力或恐怖主義
- 對兒童的剝削或傷害,包括招攬、創建、獲取或傳播兒童剝削內容,或未能報告兒童性虐待材料
- 人口販運、剝削和性暴力
- 向未成年人非法分發信息或材料,包括淫穢材料,或未能對此類信息或材料採用法律要求的年齡限制
- 性招攬
- 任何其他犯罪活動
- 從事、促進、煽動或便利對個人或群體的騷擾、虐待、威脅或欺凌
- 從事、促進、煽動或便利在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務的提供方面的歧視或其他非法或有害行為
- 從事未經授權或無執照的任何專業實踐,包括但不限於金融、法律、醫療/健康或相關專業實踐
- 在未獲得適用法律要求的權利和同意的情況下,收集、處理、披露、生成或推斷個人的健康、人口統計或其他敏感個人或私人信息
- 從事或便利任何侵犯、挪用或以其他方式侵犯任何第三方權利的行為或生成任何內容,包括使用FAIR研究材料的任何技術的輸出或結果
- 創建、生成或便利創建惡意代碼、惡意軟件、計算機病毒或做任何可能禁用、使負擔過重、干擾或損害網站或計算機系統的正常工作、完整性、操作或外觀的事情
- 從事、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,例如:
- 從事有生命或身體傷害風險的活動
- 從事、促進、煽動、便利或協助策劃或開展對個人有生命或身體傷害風險的活動,包括使用與以下相關的研究成果:
- 軍事、戰爭、核工業或應用、間諜活動、用於受美國國務院維護的《國際武器貿易條例》(ITAR)管制的材料或活動
- 槍支和非法武器(包括武器開發)
- 非法藥物和受管制/受控物質
- 關鍵基礎設施、運輸技術或重型機械的操作
- 自我傷害或傷害他人,包括自殺、自殘和飲食失調
- 任何旨在煽動或促進暴力、虐待或對個人造成身體傷害的內容
- 從事、促進、煽動、便利或協助策劃或開展對個人有生命或身體傷害風險的活動,包括使用與以下相關的研究成果:
- 故意欺騙或誤導他人
- 生成、促進或進一步推動欺詐或創建或推廣虛假信息
- 生成、促進或進一步推動誹謗性內容,包括創建誹謗性聲明、圖像或其他內容
- 生成、促進或進一步分發垃圾郵件
- 在未經同意、授權或合法權利的情況下冒充他人
- 聲稱FAIR研究材料的輸出或使用FAIR研究材料的技術的輸出是人類生成的
- 生成或便利虛假的在線互動,包括虛假評論和其他虛假在線互動手段
- 未向最終用戶適當披露研究材料的已知危險
請通過在 https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform 提交報告,報告任何違反本政策的行為或可能導致違反本政策的其他問題。
額外的許可字段信息
屬性 | 詳情 |
---|---|
名字 | 文本輸入 |
姓氏 | 文本輸入 |
出生日期 | 日期選擇器 |
國家 | 國家選擇 |
所屬機構 | 文本輸入 |
職位 | 選擇項(學生、研究畢業生、AI研究員、AI開發者/工程師、記者、其他) |
地理位置 | IP定位 |
勾選框 | 點擊 “提交” 即表示你接受許可證的條款,並確認你提供的信息將根據 Meta隱私政策 進行收集、存儲、處理和共享。 |
額外的許可描述
你提供的信息將根據 Meta隱私政策 進行收集、存儲、處理和共享。
額外的許可按鈕內容
提交
額外的許可標題
請務必提供你的完整法定姓名、出生日期和完整的組織名稱,包括所有公司標識符。避免使用縮寫和特殊字符。不遵守這些說明可能會阻止你訪問此模型和Hugging Face上的其他模型。提交後你將無法編輯此表單,因此請確保所有信息準確無誤。
致謝
本代碼部分基於HuggingFace的 Transformers 倉庫,該倉庫採用 Apache許可證。
引用
如果你發現我們的代碼對你的研究有用,請考慮引用:
@article{liu2024mobilellm,
title={MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases},
author={Liu, Zechun and Zhao, Changsheng and Iandola, Forrest and Lai, Chen and Tian, Yuandong and Fedorov, Igor and Xiong, Yunyang and Chang, Ernie and Shi, Yangyang and Krishnamoorthi, Raghuraman and others},
journal={arXiv preprint arXiv:2402.14905},
year={2024}
}



