模型概述
模型特點
模型能力
使用案例
🚀 Llama-3.3-70B-Instruct-abliterated的Llamacpp imatrix量化
本項目使用 llama.cpp 的 b4381 版本進行量化。原始模型可訪問 https://huggingface.co/huihui-ai/Llama-3.3-70B-Instruct-abliterated。所有量化均使用 imatrix 選項,並採用了 此處 的數據集。你可以在 LM Studio 中運行這些量化模型。
🚀 快速開始
提示格式
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024
{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
文件下載
你可以從以下列表中選擇下載單個文件(而非整個分支):
嵌入/輸出權重
部分量化(如 Q3_K_XL、Q4_K_L 等)採用標準量化方法,將嵌入和輸出權重量化為 Q8_0,而非默認值。
使用 huggingface-cli 下載
點擊查看下載說明
首先,確保你已安裝 hugginface-cli:
pip install -U "huggingface_hub[cli]"
然後,你可以指定要下載的特定文件:
huggingface-cli download bartowski/Llama-3.3-70B-Instruct-abliterated-GGUF --include "Llama-3.3-70B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./
如果模型大小超過 50GB,它將被拆分為多個文件。若要將它們全部下載到本地文件夾,請運行:
huggingface-cli download bartowski/Llama-3.3-70B-Instruct-abliterated-GGUF --include "Llama-3.3-70B-Instruct-abliterated-Q8_0/*" --local-dir ./
你可以指定一個新的本地目錄(如 Llama-3.3-70B-Instruct-abliterated-Q8_0),也可以將它們全部下載到當前目錄(./)。
ARM/AVX 信息
以前,你會下載 Q4_0_4_4/4_8/8_8 格式的文件,這些文件的權重會在內存中交錯排列,以通過一次加載更多數據來提高 ARM 和 AVX 機器的性能。
然而,現在有了一種名為“在線重新打包”的權重處理方式,詳情見 此 PR。如果你使用 Q4_0 且硬件能從權重重新打包中受益,它將自動即時進行處理。
從 llama.cpp 版本 b4282 開始,你將無法運行 Q4_0_X_X 文件,而需要使用 Q4_0。
此外,如果你想獲得稍好的質量,可以使用 IQ4_NL,這得益於 此 PR,它也會為 ARM 重新打包權重,不過目前僅支持 4_4 格式。加載時間可能會更長,但總體速度會提高。
點擊查看 Q4_0_X_X 信息(已棄用)
我保留這部分內容是為了展示使用支持在線重新打包的 Q4_0 時潛在的理論性能提升。
點擊查看 AVX2 系統(EPYC7702)上的基準測試
模型 | 大小 | 參數 | 後端 | 線程數 | 測試 | 令牌/秒 | 與 Q4_0 相比的百分比 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8 在提示處理方面有顯著提升,在文本生成方面也有小幅提升。
如何選擇文件
點擊查看詳情
Artefact2 提供了一篇很棒的文章,配有圖表展示各種性能,鏈接為 此處。
首先,你需要確定能運行多大的模型。為此,你需要了解自己有多少內存(RAM)和/或顯存(VRAM)。
如果你希望模型運行得儘可能快,你需要將整個模型加載到 GPU 的顯存中。選擇文件大小比 GPU 總顯存小 1 - 2GB 的量化文件。
如果你追求絕對的最高質量,將系統內存和 GPU 顯存相加,然後選擇文件大小比該總和小 1 - 2GB 的量化文件。
接下來,你需要決定是使用“I 量化”還是“K 量化”。
如果你不想考慮太多,選擇 K 量化文件。這些文件的格式為 'QX_K_X',如 Q5_K_M。
如果你想深入瞭解,可以查看這個非常有用的特性圖表:llama.cpp 特性矩陣。
但基本上,如果你目標是低於 Q4 的量化,並且使用 cuBLAS(Nvidia)或 rocBLAS(AMD),你應該考慮 I 量化文件。這些文件的格式為 IQX_X,如 IQ3_M。它們是較新的格式,在相同大小下提供更好的性能。
這些 I 量化文件也可以在 CPU 和蘋果 Metal 上使用,但比對應的 K 量化文件慢,因此你需要在速度和性能之間進行權衡。
I 量化文件與 Vulcan(同樣適用於 AMD)不兼容,所以如果你使用 AMD 顯卡,請仔細檢查你使用的是 rocBLAS 版本還是 Vulcan 版本。在撰寫本文時,LM Studio 有一個支持 ROCm 的預覽版,其他推理引擎也有針對 ROCm 的特定版本。
📄 許可證
Llama 3.3 社區許可協議
Llama 3.3 版本發佈日期:2024 年 12 月 6 日
“協議”指本協議中規定的 Llama 材料的使用、複製、分發和修改的條款和條件。 “文檔”指 Meta 在 https://www.llama.com/docs/overview 上分發的隨 Llama 3.3 附帶的規格、手冊和文檔。 “被許可方”或“你”指你,或你的僱主,或任何其他人或實體(如果你代表該人或實體簽訂本協議),且你已達到適用法律、規則或法規要求的提供法律同意的年齡,並且如果你代表你的僱主或其他人員或實體簽訂本協議,你具有約束他們的法律權力。 “Llama 3.3”指 Meta 在 https://www.llama.com/llama-downloads 上分發的基礎大語言模型、軟件和算法,包括機器學習模型代碼、訓練好的模型權重、推理啟用代碼、訓練啟用代碼、微調啟用代碼以及上述內容的其他元素。 “Llama 材料”指 Meta 根據本協議提供的專有 Llama 3.3 和文檔(及其任何部分)的統稱。 “Meta”或“我們”指 Meta Platforms Ireland Limited(如果你位於歐洲經濟區或瑞士,或者如果你是一個實體,你的主要營業地位於歐洲經濟區或瑞士)和 Meta Platforms, Inc.(如果你位於歐洲經濟區或瑞士以外)。
通過點擊下方的“我接受”,或使用或分發 Llama 材料的任何部分或元素,你同意受本協議約束。
- 許可權利和再分發
- 權利授予:你被授予一項非排他性、全球性、不可轉讓且免版稅的有限許可,可根據 Meta 在 Llama 材料中擁有的知識產權或其他權利,使用、複製、分發、拷貝、創作衍生作品並對 Llama 材料進行修改。
- 再分發和使用
- 如果你分發或提供 Llama 材料(或其任何衍生作品),或包含其中任何內容的產品或服務(包括另一個 AI 模型),你應:
- 隨任何此類 Llama 材料提供本協議的副本;
- 在相關網站、用戶界面、博客文章、關於頁面或產品文檔上顯著顯示“Built with Llama”。如果你使用 Llama 材料或 Llama 材料的任何輸出或結果來創建、訓練、微調或以其他方式改進一個 AI 模型,並將其分發或提供,你還應在任何此類 AI 模型名稱的開頭包含“Llama”。
- 如果你作為集成終端用戶產品的一部分從被許可方處獲得 Llama 材料或其任何衍生作品,則本協議第 2 條不適用於你。
- 你必須在分發的所有 Llama 材料副本中,在作為副本一部分分發的“通知”文本文件中保留以下歸屬聲明:“Llama 3.3 遵循 Llama 3.3 社區許可協議,版權所有 © Meta Platforms, Inc. 保留所有權利。”
- 你使用 Llama 材料必須遵守適用的法律法規(包括貿易合規法律法規),並遵守 Llama 材料的可接受使用政策(可在 https://www.llama.com/llama3_3/use-policy 上獲取),該政策特此通過引用併入本協議。
- 如果你分發或提供 Llama 材料(或其任何衍生作品),或包含其中任何內容的產品或服務(包括另一個 AI 模型),你應:
- 額外商業條款:如果在 Llama 3.3 版本發佈日期,被許可方或其關聯方提供的產品或服務的月活躍用戶在前一個日曆月超過 7 億,則你必須向 Meta 請求許可,Meta 可自行決定是否授予你許可。在 Meta 明確授予你此類權利之前,你無權行使本協議下的任何權利。
- 保修免責聲明:除非適用法律要求,Llama 材料及其任何輸出和結果均按“現狀”提供,不提供任何形式的保證。Meta 明確放棄所有明示和暗示的保證,包括但不限於所有權、不侵權、適銷性或特定用途適用性的保證。你獨自負責確定使用或再分發 Llama 材料的適當性,並承擔使用 Llama 材料及其任何輸出和結果的所有風險。
- 責任限制:在任何情況下,Meta 或其關聯方均不對因本協議引起的任何利潤損失或任何間接、特殊、後果性、偶發性、懲戒性或懲罰性損害承擔責任,無論責任理論是合同、侵權、疏忽、產品責任還是其他,即使 Meta 或其關聯方已被告知此類損害的可能性。
- 知識產權
- 本協議未授予任何商標許可,關於 Llama 材料,除非為合理和慣常描述和再分發 Llama 材料所需,或如本節 5(a) 所述,Meta 和被許可方均不得使用對方或其關聯方擁有或與之相關的任何名稱或標記。Meta 特此授予你僅為遵守第 1.b.i 條最後一句所需使用“Llama”(“標記”)的許可。你將遵守 Meta 的品牌指南(目前可在 https://about.meta.com/brand/resources/meta/company-brand/ 訪問)。你使用標記產生的所有商譽將歸 Meta 所有。
- 鑑於 Meta 對 Llama 材料及其衍生作品的所有權,關於你對 Llama 材料所做的任何衍生作品和修改,在你和 Meta 之間,你是並將繼續是此類衍生作品和修改的所有者。
- 如果你對 Meta 或任何實體提起訴訟或其他法律程序(包括在訴訟中的交叉索賠或反訴),聲稱 Llama 材料或 Llama 3.3 的輸出或結果,或上述任何內容的任何部分,構成侵犯你擁有或可許可的知識產權或其他權利,則本協議授予你的任何許可將自此類訴訟或索賠提起之日起終止。你將賠償並使 Meta 免受因你使用或分發 Llama 材料而引起的或與之相關的任何第三方索賠。
- 期限和終止:本協議的期限自你接受本協議或訪問 Llama 材料時開始,並將持續有效,直至根據本協議的條款和條件終止。如果你違反本協議的任何條款或條件,Meta 可終止本協議。本協議終止後,你應刪除並停止使用 Llama 材料。第 3、4 和 7 條在本協議終止後仍然有效。
- 適用法律和管轄權:本協議將受加利福尼亞州法律管轄並依其解釋,不考慮法律選擇原則,《聯合國國際貨物銷售合同公約》不適用於本協議。加利福尼亞州的法院對因本協議引起的任何爭議具有專屬管轄權。
Llama 3.3 可接受使用政策
Meta 致力於促進其工具和功能(包括 Llama 3.3)的安全和公平使用。如果你訪問或使用 Llama 3.3,你同意遵守本可接受使用政策(“政策”)。本政策的最新版本可在 https://www.llama.com/llama3_3/use-policy 上找到。
禁止使用情況 我們希望每個人都能安全、負責任地使用 Llama 3.3。你同意不會使用或允許他人使用 Llama 3.3 進行以下行為:
- 違反法律或他人權利,包括但不限於:
- 參與、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,例如:
- 暴力或恐怖主義;
- 對兒童的剝削或傷害,包括招攬、創作、獲取或傳播兒童剝削內容,或未能報告兒童性虐待材料;
- 人口販運、剝削和性暴力;
- 向未成年人非法分發信息或材料,包括淫穢材料,或未能對此類信息或材料採用法律要求的年齡限制;
- 性招攬;
- 任何其他犯罪活動。
- 參與、促進、煽動或便利對個人或群體的騷擾、虐待、威脅或欺凌;
- 參與、促進、煽動或便利在就業、就業福利、信貸、住房、其他經濟福利或其他基本商品和服務的提供方面的歧視或其他非法或有害行為;
- 從事未經授權或無執照的任何專業實踐,包括但不限於金融、法律、醫療/健康或相關專業實踐;
- 收集、處理、披露、生成或推斷個人的私人或敏感信息,包括個人身份、健康或人口統計信息,除非你已根據適用法律獲得這樣做的權利;
- 從事或便利任何侵犯、盜用或以其他方式侵犯任何第三方權利的行為或生成任何內容,包括使用 Llama 材料的任何產品或服務的輸出或結果;
- 創建、生成或便利創建惡意代碼、惡意軟件、計算機病毒,或進行任何可能禁用、使負擔過重、干擾或損害網站或計算機系統的正常運行、完整性、操作或外觀的行為;
- 從事任何故意規避或移除使用限制或其他安全措施的行為,或便利此類行為,或啟用 Meta 禁用的功能。
- 參與、促進、生成、促成、鼓勵、策劃、煽動或進一步推動非法或違法活動或內容,例如:
- 參與、促進、煽動、便利或協助策劃或開展對個人造成死亡或身體傷害風險的活動,包括與以下相關的 Llama 3.3 使用:
- 軍事、戰爭、核工業或應用、間諜活動,或使用受美國國務院維護的《國際武器貿易條例》(ITAR)或 1989 年《美國生物武器反恐法》或 1997 年《化學武器公約實施法》約束的材料或活動;
- 槍支和非法武器(包括武器開發);
- 非法毒品和受管制/受控物質;
- 關鍵基礎設施、運輸技術或重型機械的操作;
- 自我傷害或傷害他人,包括自殺、自殘和飲食失調;
- 任何旨在煽動或促進暴力、虐待或對個人造成身體傷害的內容。
- 故意欺騙或誤導他人,包括與以下相關的 Llama 3.3 使用:
- 生成、促進或推動欺詐或虛假信息的創建或傳播;
- 生成、促進或推動誹謗性內容,包括創建誹謗性聲明、圖像或其他內容;
- 生成、促進或進一步分發垃圾郵件;
- 在未經同意、授權或合法權利的情況下冒充他人;
- 聲稱 Llama 3.3 的使用或輸出是人類生成的;
- 生成或便利虛假的在線互動,包括虛假評論和其他虛假在線互動方式。
- 未能向終端用戶適當披露你的 AI 系統的任何已知危險;
- 與旨在生成非法內容或從事非法或有害行為的第三方工具、模型或軟件進行交互,並/或聲稱此類工具、模型或軟件的輸出與 Meta 或 Llama 3.3 相關。
對於 Llama 3.3 中包含的任何多模態模型,如果你是居住在歐盟的個人,或主要營業地在歐盟的公司,本 Llama 3.3 社區許可協議第 1(a) 條授予的權利將不授予你。此限制不適用於包含任何此類多模態模型的產品或服務的終端用戶。
請通過以下方式報告任何違反本政策的行為、軟件“漏洞”或其他可能導致違反本政策的問題:
- 報告模型問題:https://github.com/meta-llama/llama-models/issues
- 報告模型生成的風險內容:developers.facebook.com/llama_output_feedback
- 報告漏洞和安全問題:facebook.com/whitehat/info
- 報告違反可接受使用政策或未經授權使用 Llama 3.3 的行為:LlamaUseReport@meta.com
致謝
感謝 kalomaze 和 Dampf 在創建 imatrix 校準數據集方面提供的幫助。 感謝 ZeroWw 啟發我們對嵌入/輸出進行實驗。
如果你想支持我的工作,請訪問我的 ko-fi 頁面:https://ko-fi.com/bartowski



