🚀 speechless-llama2-orca-platypus-13b
speechless-llama2-orca-platypus-13b 是 AIDC-ai-business/Luban-13B 和 Open-Orca/OpenOrca-Platypus2-13B 的合併模型。它在多個標準學術基準測試中展現出了優秀的性能。
指標 |
數值 |
ARC |
62.54 |
HellaSwag |
82.76 |
MMLU |
59.23 |
TruthfulQA |
54.66 |
平均值 |
64.80 |
🚀 快速開始
本項目主要圍繞 speechless-llama2-orca-platypus-13b 模型展開,它基於 Llama 2 架構。若你想使用該模型,需先從 Meta 獲得下載權限,再通過 Hugging Face 訪問。
✨ 主要特性
Llama 2 特性
- 多參數規模:Llama 2 涵蓋了從 70 億到 700 億參數規模的預訓練和微調生成文本模型。
- 對話優化:微調後的 Llama-2-Chat 模型針對對話用例進行了優化,在多數基準測試中表現優於開源聊天模型,在有用性和安全性的人工評估中,與 ChatGPT 和 PaLM 等流行的閉源模型相當。
- 先進架構:採用優化的 Transformer 架構,微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)來符合人類對有用性和安全性的偏好。
speechless-llama2-orca-platypus-13b 特性
- 模型融合:結合了 AIDC-ai-business/Luban-13B 和 Open-Orca/OpenOrca-Platypus2-13B 的優勢。
- 性能優越:在多個基準測試中取得了良好的成績,如 ARC、HellaSwag 等。
📚 詳細文檔
模型詳情
基本信息
- 模型開發者:Meta
- 模型變體:Llama 2 有 7B、13B 和 70B 等不同參數規模,以及預訓練和微調版本。
- 輸入輸出:模型僅接受文本輸入,並生成文本輸出。
- 模型架構:Llama 2 是自迴歸語言模型,採用優化的 Transformer 架構。微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)。
訓練信息
訓練數據詳情
- 數據概述:預訓練數據有 2 萬億個標記,來自公開數據源;微調數據包括公開指令數據集和超 100 萬個新的人工標註示例,不包含 Meta 用戶數據。
- 數據新鮮度:預訓練數據截止到 2022 年 9 月,部分微調數據更新至 2023 年 7 月。
預期用途
預期用例
- 商業和研究:Llama 2 適用於英語的商業和研究用途。
- 對話場景:微調模型適用於類似助手的聊天場景;預訓練模型可用於各種自然語言生成任務。
注意事項
若要獲得聊天版本的預期特性和性能,需遵循特定格式,包括 INST
和 <<SYS>>
標籤、BOS
和 EOS
標記,以及其間的空格和換行符(建議對輸入調用 strip()
方法以避免雙空格)。詳情見 GitHub 參考代碼:chat_completion
。
非預期用途
- 任何違反適用法律法規(包括貿易合規法律)的使用方式。
- 使用英語以外的語言。
- 任何違反 Llama 2 可接受使用政策和許可協議的使用方式。
硬件和軟件
訓練因素
- 預訓練使用自定義訓練庫、Meta 的研究超級集群和生產集群。
- 微調、標註和評估在第三方雲計算平臺上進行。
碳足跡
預訓練使用 A100 - 80GB 類型的硬件,累計計算 330 萬 GPU 小時(TDP 為 350 - 400W)。估計總排放量為 539 tCO2eq,100% 由 Meta 的可持續發展計劃抵消。
模型 |
時間(GPU 小時) |
功耗(W) |
碳排放(tCO₂eq) |
Llama 2 7B |
184320 |
400 |
31.22 |
Llama 2 13B |
368640 |
400 |
62.44 |
Llama 2 70B |
1720320 |
400 |
291.42 |
總計 |
3311616 |
|
539.00 |
評估結果
標準學術基準測試
模型 |
規模 |
代碼 |
常識推理 |
世界知識 |
閱讀理解 |
數學 |
MMLU |
BBH |
AGI 評估 |
Llama 1 7B |
7B |
14.1 |
60.8 |
46.2 |
58.5 |
6.95 |
35.1 |
30.3 |
23.9 |
Llama 1 13B |
13B |
18.9 |
66.1 |
52.6 |
62.3 |
10.9 |
46.9 |
37.0 |
33.9 |
Llama 1 33B |
33B |
26.0 |
70.0 |
58.4 |
67.6 |
21.4 |
57.8 |
39.8 |
41.7 |
Llama 1 65B |
65B |
30.7 |
70.7 |
60.5 |
68.6 |
30.8 |
63.4 |
43.5 |
47.6 |
Llama 2 7B |
7B |
16.8 |
63.9 |
48.9 |
61.3 |
14.6 |
45.3 |
32.6 |
29.3 |
Llama 2 13B |
13B |
24.5 |
66.9 |
55.4 |
65.8 |
28.7 |
54.8 |
39.4 |
39.1 |
Llama 2 70B |
70B |
37.5 |
71.9 |
63.6 |
69.4 |
35.2 |
68.9 |
51.2 |
54.2 |
自動安全基準測試
模型 |
TruthfulQA |
Toxigen |
Llama 1 7B |
27.42 |
23.00 |
Llama 1 13B |
41.74 |
23.08 |
Llama 1 33B |
44.19 |
22.57 |
Llama 1 65B |
48.71 |
21.77 |
Llama 2 7B |
33.29 |
21.25 |
Llama 2 13B |
41.86 |
26.10 |
Llama 2 70B |
50.18 |
24.60 |
微調模型安全數據集評估
模型 |
TruthfulQA |
Toxigen |
Llama-2-Chat 7B |
57.04 |
0.00 |
Llama-2-Chat 13B |
62.18 |
0.00 |
Llama-2-Chat 70B |
64.14 |
0.01 |
倫理考量和侷限性
Llama 2 是一項新技術,使用時存在風險。目前的測試僅在英語環境下進行,無法涵蓋所有場景。因此,與所有大語言模型一樣,Llama 2 的潛在輸出無法提前預測,模型可能在某些情況下產生不準確、有偏見或其他令人反感的回覆。在部署 Llama 2 的任何應用之前,開發者應針對特定應用進行安全測試和調整。
請參閱 負責任使用指南。
問題反饋
若遇到任何軟件“漏洞”或模型相關問題,請通過以下方式反饋:
Llama 模型索引
🔧 技術細節
訪問 Llama 2
若你已從 Meta 獲得訪問權限,可通過以下表單在 Hugging Face 上訪問 Llama 2。請先訪問 Meta 網站 並接受許可條款和可接受使用政策,再提交表單。請求將在 1 - 2 天內處理。
⚠️ 重要提示
你的 Hugging Face 賬戶電子郵件地址必須與你在 Meta 網站上提供的電子郵件地址匹配,否則請求將不被批准。
表單提交按鈕文字:提交
表單字段:我同意與 Meta 共享我的姓名、電子郵件地址和用戶名,並確認我已在 Meta 網站上獲得下載權限:複選框
模型轉換
本項目是 13B 預訓練模型的倉庫,已轉換為 Hugging Face Transformers 格式。其他模型鏈接可在底部索引中找到。