模型概述
模型特點
模型能力
使用案例
🚀 EM German Leo Mistral - GGUF
本項目提供了Jan Philipp Harries的EM German Leo Mistral模型的GGUF格式文件,適用於文本生成任務,支持多種量化方法和推理場景。
🚀 快速開始
本倉庫包含 Jan Philipp Harries的EM German Leo Mistral 模型的GGUF格式文件。
✨ 主要特性
- 模型創建者:Jan Philipp Harries
- 原始模型:EM German Leo Mistral
- 模型類型:Mistral
- 支持多種量化方法:提供Q2_K、Q3_K、Q4_K等多種量化方法的文件,滿足不同場景需求。
- 廣泛的兼容性:與llama.cpp及多種第三方UI和庫兼容。
📦 安裝指南
如何下載GGUF文件
手動下載注意事項:通常不需要克隆整個倉庫,因為提供了多種不同的量化格式,大多數用戶只需選擇並下載單個文件。
以下客戶端/庫會自動為你下載模型,並提供可用模型列表供選擇:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在 text-generation-webui
中下載
在“Download Model”下,輸入模型倉庫地址:TheBloke/em_german_leo_mistral-GGUF,然後在下方輸入要下載的具體文件名,例如:em_german_leo_mistral.Q4_K_M.gguf,最後點擊“Download”。
在命令行下載(可同時下載多個文件)
推薦使用 huggingface-hub
Python庫:
pip3 install huggingface-hub
然後可以使用以下命令將任何單個模型文件高速下載到當前目錄:
huggingface-cli download TheBloke/em_german_leo_mistral-GGUF em_german_leo_mistral.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高級的huggingface-cli下載用法
你還可以使用通配符同時下載多個文件:
huggingface-cli download TheBloke/em_german_leo_mistral-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有關使用 huggingface-cli
下載的更多文檔,請參閱:HF -> Hub Python Library -> Download files -> Download from the CLI。
要在高速連接(1Gbit/s 或更高)上加速下載,請安裝 hf_transfer
:
pip3 install hf_transfer
並將環境變量 HF_HUB_ENABLE_HF_TRANSFER
設置為 1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/em_german_leo_mistral-GGUF em_german_leo_mistral.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用戶:可以在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1
來設置環境變量。
💻 使用示例
示例 llama.cpp
命令
確保使用的是 d0cee0d 及之後提交版本的 llama.cpp
。
./main -ngl 32 -m em_german_leo_mistral.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT:"
- 將
-ngl 32
更改為要卸載到GPU的層數。如果沒有GPU加速,請刪除該參數。 - 將
-c 2048
更改為所需的序列長度。對於擴展序列模型(如 8K、16K、32K),必要的RoPE縮放參數會從GGUF文件中讀取,並由llama.cpp自動設置。
如果你想進行聊天式對話,將 -p <PROMPT>
參數替換為 -i -ins
。
有關其他參數及其使用方法,請參考 llama.cpp文檔。
如何在 text-generation-webui
中運行
更多說明請參考:text-generation-webui/docs/llama.cpp.md。
如何從Python代碼運行
你可以使用 llama-cpp-python 或 ctransformers 庫從Python中使用GGUF模型。
如何使用ctransformers在Python代碼中加載此模型
首先安裝包,根據你的系統運行以下命令之一:
# 無GPU加速的基礎ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速(僅適用於Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用Metal GPU加速(僅適用於macOS系統)
CT_METAL=1 pip install ctransformers --no-binary ctransformers
簡單的ctransformers示例代碼
from ctransformers import AutoModelForCausalLM
# 將gpu_layers設置為要卸載到GPU的層數。如果系統上沒有GPU加速,請將其設置為0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/em_german_leo_mistral-GGUF", model_file="em_german_leo_mistral.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("AI is going to"))
📚 詳細文檔
關於GGUF
GGUF是llama.cpp團隊在2023年8月21日引入的一種新格式,它取代了不再受llama.cpp支持的GGML格式。
以下是已知支持GGUF的客戶端和庫的不完全列表:
- llama.cpp:GGUF的源項目,提供CLI和服務器選項。
- text-generation-webui:最廣泛使用的Web UI,具有許多功能和強大的擴展,支持GPU加速。
- KoboldCpp:功能齊全的Web UI,支持所有平臺和GPU架構的GPU加速,特別適合講故事。
- LM Studio:易於使用且功能強大的本地GUI,適用於Windows和macOS(Silicon),支持GPU加速。
- LoLLMS Web UI:一個很棒的Web UI,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天GUI,適用於Windows和macOS(Silicon和Intel),支持GPU加速。
- ctransformers:一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
- llama-cpp-python:一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
- candle:一個Rust機器學習框架,注重性能,包括GPU支持和易用性。
可用的倉庫
- 用於GPU推理的AWQ模型
- 用於GPU推理的GPTQ模型,具有多種量化參數選項
- 用於CPU+GPU推理的2、3、4、5、6和8位GGUF模型
- Jan Philipp Harries的原始未量化fp16 PyTorch格式模型,用於GPU推理和進一步轉換
提示模板:EmGerman
Du bist ein hilfreicher Assistent. USER: {prompt} ASSISTANT:
兼容性
這些量化的GGUFv2文件與8月27日及之後的llama.cpp版本兼容,對應提交版本為 d0cee0d。
它們也與許多第三方UI和庫兼容,請參閱本README頂部的列表。
量化方法說明
點擊查看詳情
可用的新方法如下:
- GGML_TYPE_Q2_K:“type-1” 2位量化,超級塊包含16個塊,每個塊有16個權重。塊的縮放因子和最小值用4位量化,最終每個權重有效使用2.5625位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3位量化,超級塊包含16個塊,每個塊有16個權重。縮放因子用6位量化,最終使用3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4位量化,超級塊包含8個塊,每個塊有32個權重。縮放因子和最小值用6位量化,最終使用4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5位量化,與GGML_TYPE_Q4_K的超級塊結構相同,最終使用5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6位量化,超級塊包含16個塊,每個塊有16個權重。縮放因子用8位量化,最終使用6.5625 bpw。
請參考下面的“提供的文件”表,瞭解哪些文件使用了哪些方法以及如何使用。
提供的文件
名稱 | 量化方法 | 位數 | 大小 | 所需最大RAM | 使用場景 |
---|---|---|---|---|---|
em_german_leo_mistral.Q2_K.gguf | Q2_K | 2 | 3.08 GB | 5.58 GB | 最小,但質量損失顯著,不推薦用於大多數場景 |
em_german_leo_mistral.Q3_K_S.gguf | Q3_K_S | 3 | 3.16 GB | 5.66 GB | 非常小,但質量損失高 |
em_german_leo_mistral.Q3_K_M.gguf | Q3_K_M | 3 | 3.52 GB | 6.02 GB | 非常小,但質量損失高 |
em_german_leo_mistral.Q3_K_L.gguf | Q3_K_L | 3 | 3.82 GB | 6.32 GB | 小,但質量損失較大 |
em_german_leo_mistral.Q4_0.gguf | Q4_0 | 4 | 4.11 GB | 6.61 GB | 舊版本;小,但質量損失非常高,建議使用Q3_K_M |
em_german_leo_mistral.Q4_K_S.gguf | Q4_K_S | 4 | 4.14 GB | 6.64 GB | 小,但質量損失較大 |
em_german_leo_mistral.Q4_K_M.gguf | Q4_K_M | 4 | 4.37 GB | 6.87 GB | 中等,質量平衡,推薦使用 |
em_german_leo_mistral.Q5_0.gguf | Q5_0 | 5 | 5.00 GB | 7.50 GB | 舊版本;中等,質量平衡,建議使用Q4_K_M |
em_german_leo_mistral.Q5_K_S.gguf | Q5_K_S | 5 | 5.00 GB | 7.50 GB | 大,質量損失低,推薦使用 |
em_german_leo_mistral.Q5_K_M.gguf | Q5_K_M | 5 | 5.13 GB | 7.63 GB | 大,質量損失非常低,推薦使用 |
em_german_leo_mistral.Q6_K.gguf | Q6_K | 6 | 5.94 GB | 8.44 GB | 非常大,質量損失極低 |
em_german_leo_mistral.Q8_0.gguf | Q8_0 | 8 | 7.70 GB | 10.20 GB | 非常大,質量損失極低,但不推薦使用 |
注意:上述RAM數字假設沒有進行GPU卸載。如果將層卸載到GPU,這將減少RAM使用,轉而使用VRAM。
🔧 技術細節
本模型基於Mistral架構,經過特定的訓練和優化,以適應德語文本生成任務。通過不同的量化方法,可以在模型大小和性能之間進行權衡,滿足不同用戶的需求。
📄 許可證
本模型遵循原始基礎模型的許可證,許可證隨模型文件一起分發。
其他信息
Discord
如需進一步支持,或參與有關這些模型和AI的討論,請加入:TheBloke AI的Discord服務器
感謝與貢獻
感謝 chirper.ai 團隊!感謝來自 gpus.llm-utils.org 的Clay!
很多人詢問是否可以進行貢獻。我喜歡提供模型並幫助他人,也希望能有更多時間來做這些事情,同時拓展新的項目,如微調/訓練。
如果你有能力且願意貢獻,我將非常感激,這將幫助我繼續提供更多模型,並開展新的AI項目。
捐贈者將在所有AI/LLM/模型問題和請求上獲得優先支持,訪問私人Discord房間,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon特別提及:Pierre Kircher、Stanislav Ovsiannikov、Michael Levine、Eugene Pentland、Andrey、준교 김、Randy H、Fred von Graf、Artur Olbinski、Caitlyn Gatomon、terasurfer、Jeff Scroggin、James Bentley、Vadim、Gabriel Puliatti、Harry Royden McLaughlin、Sean Connelly、Dan Guido、Edmond Seymore、Alicia Loh、subjectnull、AzureBlack、Manuel Alberto Morcote、Thomas Belote、Lone Striker、Chris Smitley、Vitor Caleffi、Johann-Peter Hartmann、Clay Pascal、biorpg、Brandon Frisco、sidney chen、transmissions 11、Pedro Madruga、jinyuan sun、Ajan Kanaga、Emad Mostaque、Trenton Dambrowitz、Jonathan Leane、Iucharbius、usrbinkat、vamX、George Stoitzev、Luke Pendergrass、theTransient、Olakabola、Swaroop Kallakuri、Cap'n Zoog、Brandon Phillips、Michael Dempsey、Nikolai Manek、danny、Matthew Berman、Gabriel Tamborski、alfie_i、Raymond Fosdick、Tom X Nguyen、Raven Klaugh、LangChain4j、Magnesian、Illia Dulskyi、David Ziegler、Mano Prime、Luis Javier Navarrete Lozano、Erik Bjäreholt、阿明、Nathan Dryer、Alex、Rainer Wilmers、zynix、TL、Joseph William Delisle、John Villwock、Nathan LeClaire、Willem Michiel、Joguhyik、GodLy、OG、Alps Aficionado、Jeffrey Morgan、ReadyPlayerEmma、Tiffany J. Kim、Sebastain Graf、Spencer Kim、Michael Davis、webtim、Talal Aujan、knownsqashed、John Detwiler、Imad Khwaja、Deo Leter、Jerry Meng、Elijah Stavena、Rooh Singh、Pieter、SuperWojo、Alexandros Triantafyllidis、Stephen Murray、Ai Maven、ya boyyy、Enrico Ros、Ken Nordquist、Deep Realms、Nicholas、Spiking Neurons AB、Elle、Will Dee、Jack West、RoA、Luke @flexchar、Viktor Bowallius、Derek Yates、Subspace Studios、jjj、Toran Billups、Asp the Wyvern、Fen Risland、Ilya、NimbleBox.ai、Chadd、Nitin Borwankar、Emre、Mandus、Leonard Tan、Kalila、K、Trailburnt、S_X、Cory Kujawski
感謝所有慷慨的贊助者和捐贈者!再次感謝a16z的慷慨資助。
原始模型卡:Jan Philipp Harries的EM German Leo Mistral
我們認為,這是用於德語應用的最強大的開源7b模型。
非常感謝 LeoLM 團隊發佈了一個經過德語文本持續預訓練的基礎模型,極大地提高了生成能力。
請注意,Mistral架構非常新,並非所有庫都支持(例如AutoGPTQ)。如果遇到任何問題,請嘗試使用不同的格式/基礎模型。
介紹
EM German 是一個基於Llama2/Mistral/LeoLM的模型家族,在大量德語指令數據集上進行了微調。這些模型針對德語文本進行了優化,能夠熟練理解、生成和交互德語內容。
我們提供基於7b、13b和70b Llama-2、Mistral和LeoLM(Llama-2/Mistral經過德語文本持續預訓練)模型的版本。
有關EM German模型家族的所有信息、示例輸出、特殊RAG提示格式、輸出示例和評估結果,請參閱 我們的Github倉庫。(德語版本)
鏈接與演示
- 模型鏈接:如果你只嘗試一個模型版本,強烈推薦 LeoLM Mistral 模型,它在性能和計算要求方面提供了迄今為止最好的平衡!
基礎模型 | HF | GPTQ | GGUF | AWQ |
---|---|---|---|---|
Llama2 7b | 鏈接 | 鏈接 | 鏈接 | 鏈接 |
Llama2 13b | 鏈接 | 鏈接 | 鏈接 | 鏈接 |
Llama2 70b | 鏈接 | 鏈接 | 鏈接 | 鏈接 |
Mistral 7b | 鏈接 | 鏈接 | 鏈接 | 鏈接 |
LeoLM 7b | 鏈接 | 鏈接 | 鏈接 | tbc |
LeoLM 13b | 即將推出 | 即將推出 | 鏈接 | tbc |
LeoLM Mistral 7b | 鏈接 | 即將推出 | 鏈接 | tbc |
不同版本的說明:另請參閱 示例輸出比較,以比較(7b)模型的能力。
如果你對某個EM German版本的結果不滿意,請嘗試為你的用例選擇不同(和/或更大)的模型或版本。
- 演示:你可以使用一些模型與免費的Google Colab實例(例如8位的70億參數模型或使用GPTQ的13b模型):
提示格式
此模型遵循Vicuna格式,無需換行(但換行也應有效)。格式如下:
Du bist ein hilfreicher Assistent. USER: <instruction> ASSISTANT:
你可以將標準系統提示替換為更合適的提示(有關RAG任務,請參閱下文)。
示例輸出
請在 此處 找到EM German所有7b版本的各種示例輸出。
提示:
Erkläre die Bedeutung von drei wesentlichen Elementen der Bilanzierung und des Accountings nach IFRS für Unternehmen, die auf internationaler Ebene tätig sind.
EM German Leo Mistral 7b回答:
Die International Financial Reporting Standards (IFRS) sind eine Reihe von internationalen Rechnungslegungsstandards, die von der International Accounting Standards Board (IASB) entwickelt wurden. Sie sollen dazu beitragen, dass Finanzberichte vergleichbar, zuverlässig und relevant sind.
1. Fair Value: Dieses Konzept ist ein zentraler Bestandteil der IFRS. Es besagt, dass Vermögenswerte und Schulden zum fairen Wert bilanziert werden sollten, was dem Preis entspricht, zu dem sie zwischen Marktteilnehmern gehandelt werden könnten. Dadurch wird sichergestellt, dass das Unternehmen eine genaue Darstellung seiner finanziellen Lage liefert.
2. Konsolidierung: Die IFRS verlangen von Unternehmen, ihre Finanzergebnisse auf konsolidierter Basis darzustellen. Das bedeutet, dass alle Tochtergesellschaften und verbundenen Unternehmen in die Bilanz des Mutterunternehmens aufgenommen werden. Dadurch wird ein klareres Bild von der finanziellen Situation des Konzerns geschaffen.
3. Vollständigkeitsprinzip: Die IFRS verlangen von Unternehmen, alle relevanten Informationen offenzulegen. Dies umfasst sowohl positive als auch negative Faktoren, wie zum Beispiel Gewinne und Verluste, Einnahmen und Ausgaben sowie Risiken und Unsicherheiten. Durch dieses Prinzip wird sichergestellt, dass Investoren, Kreditgeber und andere Stakeholder eine umfassende Einschätzung der finanziellen Lage des Unternehmens vornehmen können.
提示:
Ein Mensch atmet durchschnittlich 16 Mal pro Minute. Wie oft atmet er an einem Tag?
EM German Leo Mistral 7b回答:
Zuerst berechnen wir, wie oft eine Person in einer Stunde atmet. Wir wissen, dass eine Stunde 60 Minuten hat, also:
Atemzüge pro Stunde = Atemfrequenz * Minuten pro Stunde
= 16 Atemzüge pro Minute * 60 Minuten
= 960 Atemzüge
Um herauszufinden, wie viele Atemzüge eine Person an einem Tag macht, müssen wir diese stündliche Rate mit der Anzahl der Stunden an einem Tag multiplizieren, also 24:
Atemzüge pro Tag = Atemzüge pro Stunde * Stunden pro Tag
= 960 Atemzüge * 24 Stunden
= 23.040 Atemzüge
Also macht ein durchschnittlicher Mensch etwa 23.040 Atemzüge an einem Tag.
(更多示例,請訪問 我們的Github倉庫。)
致謝
非常感謝 winglian/caseus 在Axolotl上的出色工作,我使用它來訓練EM模型。我也感謝 Jon Durbin 及其 Airoboros 模型和代碼,我從中借鑑了許多想法和代碼片段。
此外,非常感謝 Björn Plüster 和LeoLM團隊在LeoLM上的出色預訓練工作,最後但同樣重要的是,非常感謝 TheBloke 以各種格式準備量化版本。
70b模型的訓練得到了 OVH Cloud Startup Program 的支持。
聯繫
如果你對用於商業應用的定製大語言模型感興趣,請通過 我的網站 與我聯繫。我也始終歡迎建議和反饋。
附言:我們也一直對支持我們的初創公司 ellamind 感興趣,該公司未來將提供用於商業應用的定製模型(我們目前仍處於隱身模式)。如果你將我們的模型用於商業應用,並且對專業能力有高級需求,請與我們聯繫。
免責聲明
我不對使用此模型的第三方的行為或模型的輸出負責。此模型僅應用於研究目的。原始基礎模型的許可證適用,並隨模型文件一起分發。



