模型概述
模型特點
模型能力
使用案例
🚀 Leo Hessianai 7B - GGUF
本項目提供了 LAION LeoLM的Leo Hessianai 7B 模型的GGUF格式文件,方便用戶在不同環境中進行推理。

TheBloke的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助
🚀 快速開始
本倉庫包含 LAION LeoLM的Leo Hessianai 7B 的GGUF格式模型文件。
✨ 主要特性
關於GGUF
GGUF是llama.cpp團隊在2023年8月21日推出的一種新格式,它取代了GGML,而GGML已不再被llama.cpp支持。
以下是已知支持GGUF的客戶端和庫的不完全列表:
- llama.cpp:GGUF的源項目,提供了命令行界面和服務器選項。
- text-generation-webui:最廣泛使用的Web UI,具有許多功能和強大的擴展,支持GPU加速。
- KoboldCpp:功能齊全的Web UI,支持跨所有平臺和GPU架構的GPU加速,尤其適合講故事。
- LM Studio:適用於Windows和macOS(Silicon)的易於使用且功能強大的本地GUI,支持GPU加速。
- LoLLMS Web UI:一個很棒的Web UI,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天GUI,適用於Windows和macOS(Silicon和Intel),支持GPU加速。
- ctransformers:一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
- llama-cpp-python:一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
- candle:一個Rust機器學習框架,注重性能,包括GPU支持和易用性。
可用倉庫
- 用於GPU推理的AWQ模型。
- 用於GPU推理的GPTQ模型,具有多種量化參數選項。
- 用於CPU+GPU推理的2、3、4、5、6和8位GGUF模型。
- LAION LeoLM原始未量化的fp16格式PyTorch模型,用於GPU推理和進一步轉換。
提示模板
{prompt}
兼容性
這些量化的GGUFv2文件與2023年8月27日之後的llama.cpp版本兼容,對應提交版本為 d0cee0d。
它們也與許多第三方UI和庫兼容,請參閱本README頂部的列表。
量化方法解釋
點擊查看詳情
可用的新方法如下:
- GGML_TYPE_Q2_K:“type-1” 2位量化,超級塊包含16個塊,每個塊有16個權重。塊的縮放和最小值用4位量化,最終每個權重有效使用2.5625位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3位量化,超級塊包含16個塊,每個塊有16個權重。縮放用6位量化,最終使用3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4位量化,超級塊包含8個塊,每個塊有32個權重。縮放和最小值用6位量化,最終使用4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5位量化,與GGML_TYPE_Q4_K的超級塊結構相同,最終使用5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6位量化,超級塊有16個塊,每個塊有16個權重。縮放用8位量化,最終使用6.5625 bpw。
請參考下面的“提供的文件”表,瞭解哪些文件使用了哪些方法以及如何使用。
📦 安裝指南
如何下載GGUF文件
手動下載者注意:你幾乎不需要克隆整個倉庫!這裡提供了多種不同的量化格式,大多數用戶只需要選擇並下載單個文件。
以下客戶端/庫會自動為你下載模型,並提供可用模型列表供你選擇:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中
在“下載模型”下,你可以輸入模型倉庫地址:TheBloke/leo-hessianai-7B-GGUF,並在其下方輸入要下載的特定文件名,例如:leo-hessianai-7b.Q4_K_M.gguf。 然後點擊“下載”。
在命令行中,包括一次下載多個文件
我建議使用 huggingface-hub
Python庫:
pip3 install huggingface-hub
然後你可以使用如下命令將任何單個模型文件高速下載到當前目錄:
huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高級的huggingface-cli下載用法
你也可以使用通配符一次下載多個文件:
huggingface-cli download TheBloke/leo-hessianai-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有關使用 huggingface-cli
下載的更多文檔,請參閱:HF -> Hub Python Library -> 下載文件 -> 從命令行下載。
要在高速連接(1Gbit/s或更高)上加速下載,請安裝 hf_transfer
:
pip3 install hf_transfer
並將環境變量 HF_HUB_ENABLE_HF_TRANSFER
設置為 1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用戶:你可以在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1
來設置環境變量。
💻 使用示例
示例 llama.cpp
命令
確保你使用的是 d0cee0d 或更高版本的llama.cpp。
./main -ngl 32 -m leo-hessianai-7b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
將 -ngl 32
更改為要卸載到GPU的層數。如果你沒有GPU加速,請刪除該參數。
將 -c 4096
更改為所需的序列長度。對於擴展序列模型(例如8K、16K、32K),必要的RoPE縮放參數會從GGUF文件中讀取,並由llama.cpp自動設置。
如果你想進行聊天式對話,請將 -p <PROMPT>
參數替換為 -i -ins
。
有關其他參數及其使用方法,請參考 llama.cpp文檔。
如何在 text-generation-webui
中運行
更多說明請參考:text-generation-webui/docs/llama.cpp.md。
如何從Python代碼運行
你可以使用 llama-cpp-python 或 ctransformers 庫從Python中使用GGUF模型。
如何使用ctransformers在Python代碼中加載此模型
首先安裝包
根據你的系統運行以下命令之一:
# 無GPU加速的基礎ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速(僅適用於Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或僅適用於macOS系統的Metal GPU加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers
簡單的ctransformers示例代碼
from ctransformers import AutoModelForCausalLM
# 將gpu_layers設置為要卸載到GPU的層數。如果你的系統沒有GPU加速,請將其設置為0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/leo-hessianai-7B-GGUF", model_file="leo-hessianai-7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
如何與LangChain一起使用
以下是使用llama-cpp-python和ctransformers與LangChain的指南:
📚 詳細文檔
提供的文件
名稱 | 量化方法 | 位數 | 大小 | 所需最大RAM | 使用場景 |
---|---|---|---|---|---|
leo-hessianai-7b.Q2_K.gguf | Q2_K | 2 | 2.83 GB | 5.33 GB | 最小,但質量損失顯著,不建議用於大多數場景 |
leo-hessianai-7b.Q3_K_S.gguf | Q3_K_S | 3 | 2.95 GB | 5.45 GB | 非常小,但質量損失高 |
leo-hessianai-7b.Q3_K_M.gguf | Q3_K_M | 3 | 3.30 GB | 5.80 GB | 非常小,但質量損失高 |
leo-hessianai-7b.Q3_K_L.gguf | Q3_K_L | 3 | 3.60 GB | 6.10 GB | 小,但質量損失較大 |
leo-hessianai-7b.Q4_0.gguf | Q4_0 | 4 | 3.83 GB | 6.33 GB | 舊版本;小,但質量損失非常高,建議使用Q3_K_M |
leo-hessianai-7b.Q4_K_S.gguf | Q4_K_S | 4 | 3.86 GB | 6.36 GB | 小,但質量損失更大 |
leo-hessianai-7b.Q4_K_M.gguf | Q4_K_M | 4 | 4.08 GB | 6.58 GB | 中等,質量平衡,推薦使用 |
leo-hessianai-7b.Q5_0.gguf | Q5_0 | 5 | 4.65 GB | 7.15 GB | 舊版本;中等,質量平衡,建議使用Q4_K_M |
leo-hessianai-7b.Q5_K_S.gguf | Q5_K_S | 5 | 4.65 GB | 7.15 GB | 大,質量損失低,推薦使用 |
leo-hessianai-7b.Q5_K_M.gguf | Q5_K_M | 5 | 4.78 GB | 7.28 GB | 大,質量損失非常低,推薦使用 |
leo-hessianai-7b.Q6_K.gguf | Q6_K | 6 | 5.53 GB | 8.03 GB | 非常大,質量損失極低 |
leo-hessianai-7b.Q8_0.gguf | Q8_0 | 8 | 7.16 GB | 9.66 GB | 非常大,質量損失極低,不建議使用 |
注意:上述RAM數字假設沒有GPU卸載。如果將層卸載到GPU,這將減少RAM使用,轉而使用VRAM。
原始模型卡片:LAION LeoLM的Leo Hessianai 7B
LAION LeoLM:語言增強的開放語言模型
LeoLM是第一個基於Llama-2構建的開放且可商業使用的德語基礎語言模型。我們的模型通過在大量德語和特定地區文本語料庫上進行持續預訓練,將Llama-2的能力擴展到了德語。
由於HessianAI的新超級計算機 42 提供的計算支持,我們發佈了兩個具有8k上下文長度的基礎模型:LeoLM/leo-hessianai-7b
和 LeoLM/leo-hessianai-13b
,遵循 Llama-2社區許可證(70b模型也即將推出!)。
通過這次發佈,我們希望為德語開源和商業大語言模型研究帶來新的機遇,並加速其應用。更多詳情請閱讀我們的 博客文章 或論文(預印本即將推出)!
該項目由Björn Plüster和Christoph Schuhmann與LAION和HessianAI合作完成。
模型詳情
屬性 | 詳情 |
---|---|
微調自 | meta-llama/Llama-2-7b-hf |
模型類型 | 因果解碼器-only的Transformer語言模型 |
語言 | 英語和德語 |
許可證 | LLAMA 2社區許可協議 |
聯繫方式 | LAION Discord 或 Björn Plüster |
在 Transformers
中使用
首先安裝直接依賴項:
pip install transformers torch sentencepiece
如果你想使用flash-attention2進行更快的推理,你需要安裝這些依賴項:
pip install packaging ninja
pip install flash-attn==v2.1.1 --no-build-isolation
pip install git+https://github.com/HazyResearch/flash-attention.git@v2.1.1#subdirectory=csrc/rotary
然後在transformers中加載模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
model="LeoLM/leo-hessianai-7b",
device_map="auto",
torch_dtype=torch.float16,
trust_remote_code=True # 對於flash-attn2為True,否則為False
)
訓練參數
基準測試
📄 許可證
本項目模型遵循 LLAMA 2社區許可協議。
其他信息
Discord
如需進一步支持,以及討論這些模型和人工智能相關內容,請加入我們的 TheBloke AI的Discord服務器。
感謝與貢獻方式
感謝 chirper.ai 團隊! 感謝來自 gpus.llm-utils.org 的Clay!
很多人問是否可以貢獻。我喜歡提供模型並幫助他人,也希望能有更多時間做這些事情,以及開展新的項目,如微調/訓練。
如果你有能力且願意貢獻,我將不勝感激,這將幫助我繼續提供更多模型,並開展新的人工智能項目。
捐贈者將在所有人工智能/大語言模型/模型問題和請求上獲得優先支持,訪問私人Discord房間,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon特別提及:Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, ϧÄ͵ê ÍπÄ, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon, terasurfer, Jeff Scroggin, James Bentley, Vadim, Gabriel Puliatti, Harry Royden McLaughlin, Sean Connelly, Dan Guido, Edmond Seymore, Alicia Loh, subjectnull, AzureBlack, Manuel Alberto Morcote, Thomas Belote, Lone Striker, Chris Smitley, Vitor Caleffi, Johann-Peter Hartmann, Clay Pascal, biorpg, Brandon Frisco, sidney chen, transmissions 11, Pedro Madruga, jinyuan sun, Ajan Kanaga, Emad Mostaque, Trenton Dambrowitz, Jonathan Leane, Iucharbius, usrbinkat, vamX, George Stoitzev, Luke Pendergrass, theTransient, Olakabola, Swaroop Kallakuri, Cap'n Zoog, Brandon Phillips, Michael Dempsey, Nikolai Manek, danny, Matthew Berman, Gabriel Tamborski, alfie_i, Raymond Fosdick, Tom X Nguyen, Raven Klaugh, LangChain4j, Magnesian, Illia Dulskyi, David Ziegler, Mano Prime, Luis Javier Navarrete Lozano, Erik Bj√§reholt, ÈòøÊòé, Nathan Dryer, Alex, Rainer Wilmers, zynix, TL, Joseph William Delisle, John Villwock, Nathan LeClaire, Willem Michiel, Joguhyik, GodLy, OG, Alps Aficionado, Jeffrey Morgan, ReadyPlayerEmma, Tiffany J. Kim, Sebastain Graf, Spencer Kim, Michael Davis, webtim, Talal Aujan, knownsqashed, John Detwiler, Imad Khwaja, Deo Leter, Jerry Meng, Elijah Stavena, Rooh Singh, Pieter, SuperWojo, Alexandros Triantafyllidis, Stephen Murray, Ai Maven, ya boyyy, Enrico Ros, Ken Nordquist, Deep Realms, Nicholas, Spiking Neurons AB, Elle, Will Dee, Jack West, RoA, Luke @flexchar, Viktor Bowallius, Derek Yates, Subspace Studios, jjj, Toran Billups, Asp the Wyvern, Fen Risland, Ilya, NimbleBox.ai, Chadd, Nitin Borwankar, Emre, Mandus, Leonard Tan, Kalila, K, Trailburnt, S_X, Cory Kujawski
感謝所有慷慨的贊助者和捐贈者! 再次感謝a16z的慷慨資助。



