模型概述
模型特點
模型能力
使用案例
🚀 Llama-2-7b-chat-hf GGUF模型
Llama-2-7b-chat-hf GGUF模型是一系列經過優化的生成式文本模型,適用於多種自然語言處理任務。這些模型在不同的硬件條件和應用場景下具有出色的性能表現,能夠滿足用戶多樣化的需求。
🚀 快速開始
模型格式選擇
選擇正確的模型格式取決於您的硬件能力和內存限制。以下是不同模型格式的特點和適用場景:
BF16(Brain Float 16) – 若支持BF16加速則使用
- 這是一種16位浮點格式,專為更快的計算而設計,同時保留了良好的精度。
- 提供與FP32 相似的動態範圍,但內存使用更低。
- 建議在您的硬件支持BF16加速時使用(請檢查設備規格)。
- 與FP32相比,非常適合在減少內存佔用的情況下進行高性能推理。
📌 適用場景: ✔ 您的硬件具有原生BF16支持(例如,較新的GPU、TPU)。 ✔ 您希望在節省內存的同時獲得更高的精度。 ✔ 您計劃將模型重新量化為其他格式。
📌 不適用場景: ❌ 您的硬件不支持BF16(可能會回退到FP32並運行較慢)。 ❌ 您需要與缺乏BF16優化的舊設備兼容。
F16(Float 16) – 比BF16更廣泛支持
- 這是一種16位浮點格式,具有高精度,但取值範圍比BF16小。
- 適用於大多數支持FP16加速的設備(包括許多GPU和一些CPU)。
- 數值精度略低於BF16,但通常足以進行推理。
📌 適用場景: ✔ 您的硬件支持FP16但不支持BF16。 ✔ 您需要在速度、內存使用和準確性之間取得平衡。 ✔ 您在GPU或其他針對FP16計算優化的設備上運行。
📌 不適用場景: ❌ 您的設備缺乏原生FP16支持(可能會比預期運行得慢)。 ❌ 您有內存限制。
量化模型(Q4_K、Q6_K、Q8等) – 用於CPU和低VRAM推理
量化可以在儘可能保持準確性的同時減小模型大小和內存使用。
- 低比特模型(Q4_K) → 最適合最小化內存使用,但可能精度較低。
- 高比特模型(Q6_K、Q8_0) → 準確性更高,但需要更多內存。
📌 適用場景: ✔ 您在CPU上運行推理,需要一個優化的模型。 ✔ 您的設備VRAM較低,無法加載全精度模型。 ✔ 您希望在保持合理準確性的同時減少內存佔用。
📌 不適用場景: ❌ 您需要最高的準確性(全精度模型更適合此需求)。 ❌ 您的硬件有足夠的VRAM來支持更高精度的格式(BF16/F16)。
極低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
這些模型針對極端內存效率進行了優化,非常適合低功耗設備或大規模部署,其中內存是關鍵限制因素。
-
IQ3_XS:超低位量化(3位),具有極高的內存效率。
- 適用場景:最適合超低內存設備,即使Q4_K也可能太大。
- 權衡:與高比特量化相比,準確性較低。
-
IQ3_S:小塊大小,以實現最大內存效率。
- 適用場景:最適合低內存設備,其中IQ3_XS可能過於激進。
-
IQ3_M:中等塊大小,比IQ3_S具有更好的準確性。
- 適用場景:適用於低內存設備,其中IQ3_S的限制太大。
-
Q4_K:4位量化,具有逐塊優化以提高準確性。
- 適用場景:最適合低內存設備,其中Q6_K可能太大。
-
Q4_0:純4位量化,針對ARM設備進行了優化。
- 適用場景:最適合基於ARM的設備或低內存環境。
模型格式選擇總結表
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 減少內存的高速推理 |
F16 | 高 | 高 | 支持FP16的設備 | 當不支持BF16時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低VRAM設備 | 內存受限環境的最佳選擇 |
Q6_K | 中 | 中等 | 內存較多的CPU | 量化模型中較好的準確性 |
Q8_0 | 高 | 中等 | 有足夠VRAM的CPU或GPU | 量化模型中最佳的準確性 |
IQ3_XS | 極低 | 極低 | 超低內存設備 | 極端內存效率和低準確性 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備進行優化 |
包含文件及詳情
Llama-2-7b-chat-hf-bf16.gguf
- 模型權重以BF16格式保存。
- 如果您想將模型重新量化為不同的格式,請使用此文件。
- 當您的設備支持BF16加速時效果最佳。
Llama-2-7b-chat-hf-f16.gguf
- 模型權重以F16格式存儲。
- 如果您的設備支持FP16,尤其是在不支持BF16的情況下,請使用此文件。
Llama-2-7b-chat-hf-bf16-q8_0.gguf
- 輸出和嵌入保持為BF16。
- 所有其他層量化為Q8_0。
- 如果您的設備支持BF16並且您想要一個量化版本,請使用此文件。
Llama-2-7b-chat-hf-f16-q8_0.gguf
- 輸出和嵌入保持為F16。
- 所有其他層量化為Q8_0。
Llama-2-7b-chat-hf-q4_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q4_K。
- 適合在內存有限的情況下進行CPU推理。
Llama-2-7b-chat-hf-q4_k_s.gguf
- 最小的Q4_K變體,以犧牲準確性為代價使用更少的內存。
- 最適合極低內存設置。
Llama-2-7b-chat-hf-q6_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q6_K。
Llama-2-7b-chat-hf-q8_0.gguf
- 完全Q8量化的模型,以獲得更好的準確性。
- 需要更多的內存,但提供更高的精度。
Llama-2-7b-chat-hf-iq3_xs.gguf
- IQ3_XS量化,針對極端內存效率進行了優化。
- 最適合超低內存設備。
Llama-2-7b-chat-hf-iq3_m.gguf
- IQ3_M量化,提供中等塊大小以提高準確性。
- 適用於低內存設備。
Llama-2-7b-chat-hf-q4_0.gguf
- 純Q4_0量化,針對ARM設備進行了優化。
- 最適合低內存環境。
- 若追求更高準確性,建議選擇IQ4_NL。
✨ 主要特性
模型測試與反饋
如果您發現這些模型有用,請點擊點贊 ❤ 。同時,如果您能測試我的網絡監控助手,我將不勝感激。您可以點擊👉 網絡監控助手 進行測試。
💬 點擊聊天圖標(主頁面和儀表盤頁面的右下角),選擇一個大語言模型(LLM),並在不同的LLM類型(TurboLLM -> FreeLLM -> TestLLM)之間切換。
測試內容
我正在針對我的網絡監控服務進行函數調用實驗,使用小型開源模型。我關注的問題是“模型可以多小仍能正常工作”。
🟡 TestLLM – 使用llama.cpp在CPU虛擬機的6個線程上運行當前測試模型(加載大約需要15秒。推理速度相當慢,並且一次只能處理一個用戶提示,我仍在努力進行擴展!)。如果您感興趣,我很樂意分享其工作原理。
其他可用的AI助手
🟢 TurboLLM – 使用gpt-4o-mini,速度快!注意:由於OpenAI模型價格昂貴,令牌數量有限,但您可以登錄或下載免費的網絡監控代理以獲取更多令牌,或者使用TestLLM。
🔵 HugLLM – 運行開源的Hugging Face模型,速度快,但運行小型模型(≈8B),因此質量較低。您可以獲得2倍的令牌數量(取決於Hugging Face API的可用性)。
📚 詳細文檔
Llama 2模型概述
Llama 2是一系列預訓練和微調的生成式文本模型,參數規模從70億到700億不等。本倉庫是針對7B微調模型的,該模型針對對話用例進行了優化,並轉換為Hugging Face Transformers格式。其他模型的鏈接可在底部索引中找到。
模型詳情
注意:使用此模型受Meta許可證的約束。要下載模型權重和分詞器,請訪問網站,並在請求訪問之前接受我們的許可證。
Meta開發並公開發布了Llama 2系列大語言模型(LLMs),這是一系列預訓練和微調的生成式文本模型,參數規模從70億到700億不等。我們的微調LLMs,稱為Llama-2-Chat,針對對話用例進行了優化。在我們測試的大多數基準測試中,Llama-2-Chat模型的表現優於開源聊天模型,並且在我們的人工評估中,其在有用性和安全性方面與一些流行的閉源模型(如ChatGPT和PaLM)相當。
屬性 | 詳情 |
---|---|
模型開發者 | Meta |
變體 | Llama 2有多種參數規模 — 7B、13B和70B — 以及預訓練和微調的變體。 |
輸入 | 模型僅接受文本輸入。 |
輸出 | 模型僅生成文本輸出。 |
模型架構 | Llama 2是一種自迴歸語言模型,使用了優化的Transformer架構。微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)來符合人類對有用性和安全性的偏好。 |
訓練數據 | Llama 2在2萬億個公開可用來源的令牌上進行了預訓練。微調數據包括公開可用的指令數據集,以及超過100萬個新的人工標註示例。預訓練和微調數據集均不包含Meta用戶數據。 |
模型日期 | Llama 2於2023年1月至2023年7月期間進行訓練。 |
狀態 | 這是一個基於離線數據集訓練的靜態模型。隨著我們根據社區反饋改進模型安全性,未來將發佈微調模型的新版本。 |
許可證 | 可在此處獲取自定義商業許可證。 |
研究論文 | "Llama-2: Open Foundation and Fine-tuned Chat Models" |
訓練數據詳情
模型 | 參數 | 代碼 | 常識推理 | 世界知識 | 閱讀理解 | 數學 | MMLU | BBH | AGI評估 |
---|---|---|---|---|---|---|---|---|---|
Llama 1 7B | 70億 | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 13B | 130億 | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 33B | 330億 | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 65B | 650億 | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 7B | 70億 | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 13B | 130億 | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 70B | 700億 | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
評估結果詳情
標準學術基準測試結果
模型 | 大小 | 代碼 | 常識推理 | 世界知識 | 閱讀理解 | 數學 | MMLU | BBH | AGI評估 |
---|---|---|---|---|---|---|---|---|---|
Llama 1 7B | 7B | 14.1 | 60.8 | 46.2 | 58.5 | 6.95 | 35.1 | 30.3 | 23.9 |
Llama 1 13B | 13B | 18.9 | 66.1 | 52.6 | 62.3 | 10.9 | 46.9 | 37.0 | 33.9 |
Llama 1 33B | 33B | 26.0 | 70.0 | 58.4 | 67.6 | 21.4 | 57.8 | 39.8 | 41.7 |
Llama 1 65B | 65B | 30.7 | 70.7 | 60.5 | 68.6 | 30.8 | 63.4 | 43.5 | 47.6 |
Llama 2 7B | 7B | 16.8 | 63.9 | 48.9 | 61.3 | 14.6 | 45.3 | 32.6 | 29.3 |
Llama 2 13B | 13B | 24.5 | 66.9 | 55.4 | 65.8 | 28.7 | 54.8 | 39.4 | 39.1 |
Llama 2 70B | 70B | 37.5 | 71.9 | 63.6 | 69.4 | 35.2 | 68.9 | 51.2 | 54.2 |
自動安全基準測試結果
真實問答(TruthfulQA) | 毒性生成(Toxigen) | ||
---|---|---|---|
Llama 1 | 7B | 27.42 | 23.00 |
Llama 1 | 13B | 41.74 | 23.08 |
Llama 1 | 33B | 44.19 | 22.57 |
Llama 1 | 65B | 48.71 | 21.77 |
Llama 2 | 7B | 33.29 | 21.25 |
Llama 2 | 13B | 41.86 | 26.10 |
Llama 2 | 70B | 50.18 | 24.60 |
微調LLMs在不同安全數據集上的評估結果
真實問答(TruthfulQA) | 毒性生成(Toxigen) | ||
---|---|---|---|
Llama-2-Chat | 7B | 57.04 | 0.00 |
Llama-2-Chat | 13B | 62.18 | 0.00 |
Llama-2-Chat | 70B | 64.14 | 0.01 |
預期用途
預期用例
Llama 2旨在用於英語的商業和研究用途。微調模型適用於類似助手的聊天場景,而預訓練模型可用於多種自然語言生成任務。
為了獲得聊天版本的預期功能和性能,需要遵循特定的格式,包括INST
和<<SYS>>
標籤、BOS
和EOS
令牌,以及它們之間的空格和換行符(我們建議對輸入調用strip()
以避免雙空格)。有關詳細信息,請參閱github上的參考代碼:chat_completion
。
超出範圍的用途
- 以任何違反適用法律法規(包括貿易合規法律)的方式使用。
- 在英語以外的語言中使用。
- 以任何違反Llama 2可接受使用政策和許可協議的方式使用。
硬件和軟件
訓練因素
我們使用自定義訓練庫、Meta的研究超級集群和生產集群進行預訓練。微調、標註和評估也在第三方雲計算平臺上進行。
碳足跡
預訓練在A100 - 80GB類型的硬件上累計使用了330萬個GPU小時的計算資源(TDP為350 - 400W)。估計總排放量為539 tCO2eq,其中100%由Meta的可持續發展計劃進行了抵消。
模型 | 時間(GPU小時) | 功耗(W) | 碳排放(tCO₂eq) |
---|---|---|---|
Llama 2 7B | 184320 | 400 | 31.22 |
Llama 2 13B | 368640 | 400 | 62.44 |
Llama 2 70B | 1720320 | 400 | 291.42 |
總計 | 3311616 | 539.00 |
訓練數據
概述
Llama 2在2萬億個公開可用來源的令牌上進行了預訓練。微調數據包括公開可用的指令數據集,以及超過100萬個新的人工標註示例。預訓練和微調數據集均不包含Meta用戶數據。
數據新鮮度
預訓練數據的截止日期為2022年9月,但一些微調數據更新至2023年7月。
🔧 技術細節
模型架構
Llama 2是一種自迴歸語言模型,使用了優化的Transformer架構。微調版本使用監督微調(SFT)和基於人類反饋的強化學習(RLHF)來符合人類對有用性和安全性的偏好。
訓練過程
- 預訓練:在2萬億個公開可用來源的令牌上進行預訓練。
- 微調:使用公開可用的指令數據集和超過100萬個新的人工標註示例進行微調。
評估方法
在標準學術基準測試中,使用內部評估庫對Llama 1和Llama 2模型進行評估,包括代碼、常識推理、世界知識、閱讀理解、數學、MMLU、BBH和AGI評估等方面。同時,在自動安全基準測試(TruthfulQA和Toxigen)和微調LLMs的不同安全數據集上進行評估。
📄 許可證
使用此模型受Meta許可證的約束。要下載模型權重和分詞器,請訪問網站,並在請求訪問之前接受我們的許可證。
Llama 2社區許可協議
通過點擊下面的“我接受”,或使用或分發Llama材料的任何部分或元素,即表示您同意受本協議的約束。協議主要內容如下:
- 許可權利和再分發:授予您在Llama材料中Meta擁有的知識產權或其他權利下的非排他性、全球性、不可轉讓和免版稅的有限許可,以使用、複製、分發、複製、創建衍生作品並對Llama材料進行修改。
- 額外商業條款:如果在Llama 2版本發佈日期,被許可人或其關聯公司提供的產品或服務的月活躍用戶在前一個日曆月超過7億,則必須向Meta請求許可。
- 免責聲明:除非適用法律要求,否則Llama材料及其任何輸出和結果按“原樣”提供,不提供任何形式的保證。
- 責任限制:在任何情況下,Meta或其關聯公司均不對因本協議引起的任何利潤損失或任何間接、特殊、後果性、偶發性、懲戒性或懲罰性損害承擔責任。
- 知識產權:本協議未授予商標許可,對於您製作的Llama材料的任何衍生作品和修改,您是其所有者。
- 期限和終止:本協議自您接受本協議或訪問Llama材料時開始,直至根據本協議的條款和條件終止。如果您違反本協議的任何條款或條件,Meta可終止本協議。
- 適用法律和管轄權:本協議受加利福尼亞州法律管轄,加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。
Llama 2可接受使用政策
Meta致力於促進其工具和功能(包括Llama 2)的安全和公平使用。如果您訪問或使用Llama 2,則同意本可接受使用政策。最新版本的政策可在ai.meta.com/llama/use-policy找到。
禁止使用情況
- 違反法律或他人權利:包括從事、促進、生成、鼓勵、計劃、煽動或助長非法或違法活動或內容,如暴力或恐怖主義、對兒童的剝削或傷害、人口販運、非法向未成年人分發信息或材料等。
- 從事危險活動:包括從事、促進、煽動、便利或協助規劃或開展對個人生命或身體造成傷害風險的活動,如軍事、戰爭、核工業或應用、槍支和非法武器、非法藥物等。
- 故意欺騙或誤導他人:包括生成、促進或助長欺詐、虛假信息、誹謗性內容、垃圾郵件等。
- 未適當披露風險:未能向最終用戶適當披露您的AI系統的任何已知危險。
報告問題
請通過以下方式報告任何軟件“漏洞”或其他模型問題:
- 報告模型問題:github.com/facebookresearch/llama
- 報告模型生成的有問題內容:developers.facebook.com/llama_output_feedback
- 報告漏洞和安全問題:facebook.com/whitehat/info
Llama模型索引
模型 | Llama2 | Llama2 - hf | Llama2 - chat | Llama2 - chat - hf |
---|---|---|---|---|
7B | 鏈接 | 鏈接 | 鏈接 | 鏈接 |
13B | 鏈接 | 鏈接 | 鏈接 | 鏈接 |
70B | 鏈接 | 鏈接 | 鏈接 | 鏈接 |
⚠️ 重要提示
Llama 2是一項新技術,使用時存在風險。到目前為止進行的測試均為英文,且無法涵蓋所有場景。因此,與所有大語言模型一樣,Llama 2的潛在輸出無法提前預測,在某些情況下,模型可能會對用戶提示產生不準確、有偏見或其他令人反感的響應。因此,在部署Llama 2的任何應用程序之前,開發人員應針對其特定應用對模型進行安全測試和調整。
請參閱負責任使用指南獲取更多信息。
💡 使用建議
在選擇模型格式時,請根據您的硬件能力和內存限制進行選擇,以確保獲得最佳的性能和效果。同時,遵循Llama 2的可接受使用政策和許可協議,避免超出範圍的使用。在使用聊天版本時,注意遵循特定的格式要求,以獲得預期的功能和性能。



