leo-hessianai-7B-GGUF開源德語語言模型 - 擴展Llama-2德語能力輕鬆交流

首頁

Leo Hessianai 7B GGUF

由TheBloke開發

LeoLM是首個基於Llama-2構建的開放且可商用的德語基礎語言模型，通過大量德語文本的持續預訓練擴展了Llama-2的德語能力。

大型語言模型

Transformers

支持多種語言#德語增強 #多語言支持 #長上下文處理

下載量 497

發布時間 : 9/28/2023

模型概述

Leo Hessianai 7B是基於Llama-2構建的德語語言模型，支持英語和德語，適用於文本生成任務。

模型特點

德語優化

通過大量德語文本的持續預訓練，顯著提升了Llama-2的德語能力。

8k上下文長度

支持長達8k的上下文長度，適合處理長文本。

開源商用

遵循Llama-2社區許可，可用於商業和研究用途。

模型能力

德語文本生成

英語文本生成

長文本處理

使用案例

語言處理

德語內容創作

生成高質量的德語文本內容，如文章、報告等。

多語言應用

支持英語和德語的雙語文本生成和處理。

🚀 Leo Hessianai 7B - GGUF

本項目提供了 LAION LeoLM的Leo Hessianai 7B 模型的GGUF格式文件，方便用戶在不同環境中進行推理。

交流與支持：TheBloke的Discord服務器

想要貢獻？TheBloke的Patreon頁面

TheBloke的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助

🚀 快速開始

本倉庫包含 LAION LeoLM的Leo Hessianai 7B 的GGUF格式模型文件。

✨ 主要特性

關於GGUF

GGUF是llama.cpp團隊在2023年8月21日推出的一種新格式，它取代了GGML，而GGML已不再被llama.cpp支持。

以下是已知支持GGUF的客戶端和庫的不完全列表：

llama.cpp：GGUF的源項目，提供了命令行界面和服務器選項。
text-generation-webui：最廣泛使用的Web UI，具有許多功能和強大的擴展，支持GPU加速。
KoboldCpp：功能齊全的Web UI，支持跨所有平臺和GPU架構的GPU加速，尤其適合講故事。
LM Studio：適用於Windows和macOS（Silicon）的易於使用且功能強大的本地GUI，支持GPU加速。
LoLLMS Web UI：一個很棒的Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天GUI，適用於Windows和macOS（Silicon和Intel），支持GPU加速。
ctransformers：一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
llama-cpp-python：一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
candle：一個Rust機器學習框架，注重性能，包括GPU支持和易用性。

可用倉庫

提示模板

{prompt}

兼容性

這些量化的GGUFv2文件與2023年8月27日之後的llama.cpp版本兼容，對應提交版本為 d0cee0d。

它們也與許多第三方UI和庫兼容，請參閱本README頂部的列表。

量化方法解釋

點擊查看詳情

可用的新方法如下：

GGML_TYPE_Q2_K：“type-1” 2位量化，超級塊包含16個塊，每個塊有16個權重。塊的縮放和最小值用4位量化，最終每個權重有效使用2.5625位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3位量化，超級塊包含16個塊，每個塊有16個權重。縮放用6位量化，最終使用3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4位量化，超級塊包含8個塊，每個塊有32個權重。縮放和最小值用6位量化，最終使用4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5位量化，與GGML_TYPE_Q4_K的超級塊結構相同，最終使用5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6位量化，超級塊有16個塊，每個塊有16個權重。縮放用8位量化，最終使用6.5625 bpw。

請參考下面的“提供的文件”表，瞭解哪些文件使用了哪些方法以及如何使用。

📦 安裝指南

如何下載GGUF文件

手動下載者注意：你幾乎不需要克隆整個倉庫！這裡提供了多種不同的量化格式，大多數用戶只需要選擇並下載單個文件。

以下客戶端/庫會自動為你下載模型，並提供可用模型列表供你選擇：

LM Studio
LoLLMS Web UI
Faraday.dev

在 `text-generation-webui` 中

在“下載模型”下，你可以輸入模型倉庫地址：TheBloke/leo-hessianai-7B-GGUF，並在其下方輸入要下載的特定文件名，例如：leo-hessianai-7b.Q4_K_M.gguf。然後點擊“下載”。

在命令行中，包括一次下載多個文件

我建議使用 huggingface-hub Python庫：

pip3 install huggingface-hub

然後你可以使用如下命令將任何單個模型文件高速下載到當前目錄：

huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高級的huggingface-cli下載用法

你也可以使用通配符一次下載多個文件：

huggingface-cli download TheBloke/leo-hessianai-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有關使用 huggingface-cli 下載的更多文檔，請參閱：HF -> Hub Python Library -> 下載文件 -> 從命令行下載。

要在高速連接（1Gbit/s或更高）上加速下載，請安裝 hf_transfer：

pip3 install hf_transfer

並將環境變量 HF_HUB_ENABLE_HF_TRANSFER 設置為 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用戶：你可以在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1 來設置環境變量。

💻 使用示例

示例 `llama.cpp` 命令

確保你使用的是 d0cee0d 或更高版本的llama.cpp。

./main -ngl 32 -m leo-hessianai-7b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"

將 -ngl 32 更改為要卸載到GPU的層數。如果你沒有GPU加速，請刪除該參數。將 -c 4096 更改為所需的序列長度。對於擴展序列模型（例如8K、16K、32K），必要的RoPE縮放參數會從GGUF文件中讀取，並由llama.cpp自動設置。

如果你想進行聊天式對話，請將 -p <PROMPT> 參數替換為 -i -ins。

有關其他參數及其使用方法，請參考 llama.cpp文檔。

如何在 `text-generation-webui` 中運行

更多說明請參考：text-generation-webui/docs/llama.cpp.md。

如何從Python代碼運行

你可以使用 llama-cpp-python 或 ctransformers 庫從Python中使用GGUF模型。

如何使用ctransformers在Python代碼中加載此模型

首先安裝包

根據你的系統運行以下命令之一：

# 無GPU加速的基礎ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速（僅適用於Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或僅適用於macOS系統的Metal GPU加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers

簡單的ctransformers示例代碼

from ctransformers import AutoModelForCausalLM

# 將gpu_layers設置為要卸載到GPU的層數。如果你的系統沒有GPU加速，請將其設置為0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/leo-hessianai-7B-GGUF", model_file="leo-hessianai-7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

如何與LangChain一起使用

以下是使用llama-cpp-python和ctransformers與LangChain的指南：

📚 詳細文檔

提供的文件

名稱	量化方法	位數	大小	所需最大RAM	使用場景
leo-hessianai-7b.Q2_K.gguf	Q2_K	2	2.83 GB	5.33 GB	最小，但質量損失顯著，不建議用於大多數場景
leo-hessianai-7b.Q3_K_S.gguf	Q3_K_S	3	2.95 GB	5.45 GB	非常小，但質量損失高
leo-hessianai-7b.Q3_K_M.gguf	Q3_K_M	3	3.30 GB	5.80 GB	非常小，但質量損失高
leo-hessianai-7b.Q3_K_L.gguf	Q3_K_L	3	3.60 GB	6.10 GB	小，但質量損失較大
leo-hessianai-7b.Q4_0.gguf	Q4_0	4	3.83 GB	6.33 GB	舊版本；小，但質量損失非常高，建議使用Q3_K_M
leo-hessianai-7b.Q4_K_S.gguf	Q4_K_S	4	3.86 GB	6.36 GB	小，但質量損失更大
leo-hessianai-7b.Q4_K_M.gguf	Q4_K_M	4	4.08 GB	6.58 GB	中等，質量平衡，推薦使用
leo-hessianai-7b.Q5_0.gguf	Q5_0	5	4.65 GB	7.15 GB	舊版本；中等，質量平衡，建議使用Q4_K_M
leo-hessianai-7b.Q5_K_S.gguf	Q5_K_S	5	4.65 GB	7.15 GB	大，質量損失低，推薦使用
leo-hessianai-7b.Q5_K_M.gguf	Q5_K_M	5	4.78 GB	7.28 GB	大，質量損失非常低，推薦使用
leo-hessianai-7b.Q6_K.gguf	Q6_K	6	5.53 GB	8.03 GB	非常大，質量損失極低
leo-hessianai-7b.Q8_0.gguf	Q8_0	8	7.16 GB	9.66 GB	非常大，質量損失極低，不建議使用

注意：上述RAM數字假設沒有GPU卸載。如果將層卸載到GPU，這將減少RAM使用，轉而使用VRAM。

原始模型卡片：LAION LeoLM的Leo Hessianai 7B

LAION LeoLM：語言增強的開放語言模型

LeoLM是第一個基於Llama-2構建的開放且可商業使用的德語基礎語言模型。我們的模型通過在大量德語和特定地區文本語料庫上進行持續預訓練，將Llama-2的能力擴展到了德語。

由於HessianAI的新超級計算機 42 提供的計算支持，我們發佈了兩個具有8k上下文長度的基礎模型：LeoLM/leo-hessianai-7b 和 LeoLM/leo-hessianai-13b，遵循 Llama-2社區許可證（70b模型也即將推出！）。

通過這次發佈，我們希望為德語開源和商業大語言模型研究帶來新的機遇，並加速其應用。更多詳情請閱讀我們的博客文章或論文（預印本即將推出）！

該項目由Björn Plüster和Christoph Schuhmann與LAION和HessianAI合作完成。

模型詳情

屬性	詳情
微調自	meta-llama/Llama-2-7b-hf
模型類型	因果解碼器-only的Transformer語言模型
語言	英語和德語
許可證	LLAMA 2社區許可協議
聯繫方式	LAION Discord 或 Björn Plüster

在 `Transformers` 中使用

首先安裝直接依賴項：

pip install transformers torch sentencepiece

如果你想使用flash-attention2進行更快的推理，你需要安裝這些依賴項：

pip install packaging ninja
pip install flash-attn==v2.1.1 --no-build-isolation
pip install git+https://github.com/HazyResearch/flash-attention.git@v2.1.1#subdirectory=csrc/rotary

然後在transformers中加載模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    model="LeoLM/leo-hessianai-7b",
    device_map="auto",
    torch_dtype=torch.float16,
    trust_remote_code=True  # 對於flash-attn2為True，否則為False
)

訓練參數

基準測試

📄 許可證

本項目模型遵循 LLAMA 2社區許可協議。

其他信息

Discord

如需進一步支持，以及討論這些模型和人工智能相關內容，請加入我們的 TheBloke AI的Discord服務器。

感謝與貢獻方式

感謝 chirper.ai 團隊！感謝來自 gpus.llm-utils.org 的Clay！

很多人問是否可以貢獻。我喜歡提供模型並幫助他人，也希望能有更多時間做這些事情，以及開展新的項目，如微調/訓練。

如果你有能力且願意貢獻，我將不勝感激，這將幫助我繼續提供更多模型，並開展新的人工智能項目。

捐贈者將在所有人工智能/大語言模型/模型問題和請求上獲得優先支持，訪問私人Discord房間，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon特別提及：Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, Ï§ÄÍµê ÍπÄ, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon, terasurfer, Jeff Scroggin, James Bentley, Vadim, Gabriel Puliatti, Harry Royden McLaughlin, Sean Connelly, Dan Guido, Edmond Seymore, Alicia Loh, subjectnull, AzureBlack, Manuel Alberto Morcote, Thomas Belote, Lone Striker, Chris Smitley, Vitor Caleffi, Johann-Peter Hartmann, Clay Pascal, biorpg, Brandon Frisco, sidney chen, transmissions 11, Pedro Madruga, jinyuan sun, Ajan Kanaga, Emad Mostaque, Trenton Dambrowitz, Jonathan Leane, Iucharbius, usrbinkat, vamX, George Stoitzev, Luke Pendergrass, theTransient, Olakabola, Swaroop Kallakuri, Cap'n Zoog, Brandon Phillips, Michael Dempsey, Nikolai Manek, danny, Matthew Berman, Gabriel Tamborski, alfie_i, Raymond Fosdick, Tom X Nguyen, Raven Klaugh, LangChain4j, Magnesian, Illia Dulskyi, David Ziegler, Mano Prime, Luis Javier Navarrete Lozano, Erik Bj√§reholt, ÈòøÊòé, Nathan Dryer, Alex, Rainer Wilmers, zynix, TL, Joseph William Delisle, John Villwock, Nathan LeClaire, Willem Michiel, Joguhyik, GodLy, OG, Alps Aficionado, Jeffrey Morgan, ReadyPlayerEmma, Tiffany J. Kim, Sebastain Graf, Spencer Kim, Michael Davis, webtim, Talal Aujan, knownsqashed, John Detwiler, Imad Khwaja, Deo Leter, Jerry Meng, Elijah Stavena, Rooh Singh, Pieter, SuperWojo, Alexandros Triantafyllidis, Stephen Murray, Ai Maven, ya boyyy, Enrico Ros, Ken Nordquist, Deep Realms, Nicholas, Spiking Neurons AB, Elle, Will Dee, Jack West, RoA, Luke @flexchar, Viktor Bowallius, Derek Yates, Subspace Studios, jjj, Toran Billups, Asp the Wyvern, Fen Risland, Ilya, NimbleBox.ai, Chadd, Nitin Borwankar, Emre, Mandus, Leonard Tan, Kalila, K, Trailburnt, S_X, Cory Kujawski

感謝所有慷慨的贊助者和捐贈者！再次感謝a16z的慷慨資助。