OrionStar-Yi-34B-Chat-Llama-GGUF开源大模型 - 免费部署助力高效中文对话

首页

Orionstar Yi 34B Chat Llama GGUF

由 TheBloke 开发

OrionStar Yi 34B Chat Llama 是一个基于 Yi 34B 架构的大型语言模型，专注于中文对话任务。

大型语言模型其他开源协议:其他 #大语言模型 #中文对话 #34B参数

下载量 557

发布时间 : 11/22/2023

模型简介

该模型是一个34B参数的大型语言模型，基于Yi架构，专为中文对话场景优化。它采用了Llama格式，支持文本生成任务。

模型特点

大参数规模

34B参数的模型规模，提供强大的语言理解和生成能力

中文优化

专门针对中文对话场景进行优化

Llama兼容格式

采用Llama格式，便于在多种支持Llama的平台上使用

模型能力

中文文本生成

对话系统

上下文理解

使用案例

对话系统

智能客服

用于构建中文智能客服系统

能够理解用户问题并生成自然流畅的回复

个人助手

作为个人数字助手使用

能够完成日常问答、信息查询等任务

🚀 猎户星空易 34B 聊天 Llama - GGUF

本项目提供了猎户星空易 34B 聊天 Llama 模型的 GGUF 格式文件，可用于文本生成任务，为大模型社区用户提供出色的交互体验。

🚀 快速开始

下载 GGUF 文件

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库可自动下载模型，并提供可用模型列表供选择。
text-generation-webui 下载：在“Download Model”中输入模型仓库地址 TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF，并指定要下载的文件名，如 orionstar-yi-34b-chat-llama.Q4_K_M.gguf，然后点击“Download”。
命令行下载：推荐使用 huggingface-hub Python 库，示例命令如下：

pip3 install huggingface-hub
huggingface-cli download TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF orionstar-yi-34b-chat-llama.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

运行模型

llama.cpp 命令示例

确保使用的是 d0cee0d 或更新版本的 llama.cpp。示例命令如下：

./main -ngl 32 -m orionstar-yi-34b-chat-llama.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "Human: {prompt}\n\nAssistant:"

参数说明：

-ngl 32：指定要卸载到 GPU 的层数，若无 GPU 加速可移除该参数。
-c 2048：指定所需的序列长度。
若要进行聊天式对话，将 -p <PROMPT> 参数替换为 -i -ins。

text-generation-webui 运行方法

更多说明可参考 text-generation-webui 文档。

Python 代码运行方法

可使用 llama-cpp-python 或 ctransformers 库从 Python 中使用 GGUF 模型。以 ctransformers 为例：

# 无 GPU 加速的基础 ctransformers
pip install ctransformers
# 或使用 CUDA GPU 加速
pip install ctransformers[cuda]
# 或使用 AMD ROCm GPU 加速（仅适用于 Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用 Metal GPU 加速（仅适用于 macOS 系统）
CT_METAL=1 pip install ctransformers --no-binary ctransformers

示例代码：

from ctransformers import AutoModelForCausalLM

# 设置要卸载到 GPU 的层数。若系统无 GPU 加速，设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)

print(llm("AI is going to"))

✨ 主要特性

GGUF 格式：由 llama.cpp 团队于 2023 年 8 月 21 日引入的新格式，取代不再受 llama.cpp 支持的 GGML 格式。
多客户端支持：众多客户端和库支持 GGUF 格式，如 llama.cpp、text-generation-webui、KoboldCpp 等。
多量化模型可选：提供多种量化方法和比特数的模型文件，可根据不同需求选择。
高性能表现：基于猎户星空易 34B 聊天 Llama 模型，在多个通用领域数据集上表现出色。

📦 安装指南

安装依赖库

pip3 install huggingface-hub

若要加速下载，可安装 hf_transfer：

pip3 install hf_transfer

💻 使用示例

基础用法

from ctransformers import AutoModelForCausalLM

# 设置要卸载到 GPU 的层数。若系统无 GPU 加速，设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)

print(llm("你好！"))

高级用法

from ctransformers import AutoModelForCausalLM

# 设置要卸载到 GPU 的层数。若系统无 GPU 加速，设置为 0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/OrionStar-Yi-34B-Chat-Llama-GGUF", model_file="orionstar-yi-34b-chat-llama.Q4_K_M.gguf", model_type="yi", gpu_layers=50)

prompt = "请介绍一下人工智能的发展历程。"
response = llm(prompt)
print(response)

📚 详细文档

关于 GGUF

GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日引入的新格式，用于取代不再受 llama.cpp 支持的 GGML 格式。以下是已知支持 GGUF 的客户端和库：

llama.cpp：GGUF 的源项目，提供 CLI 和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持跨所有平台和 GPU 架构的 GPU 加速，特别适合讲故事。
LM Studio：适用于 Windows 和 macOS（Silicon）的易于使用且功能强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
ctransformers：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服务器的 Python 库。
llama-cpp-python：一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个 Rust ML 框架，注重性能，包括 GPU 支持和易用性。

可用仓库

提示模板

Human: {prompt}

Assistant:

兼容性

这些量化的 GGUFv2 文件与 2023 年 8 月 27 日及以后的 llama.cpp 兼容，对应提交版本为 d0cee0d。同时，它们也与许多第三方 UI 和库兼容。

量化方法说明

点击查看详情

新的量化方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块的缩放和最小值用 4 位量化，最终每个权重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。缩放用 6 位量化，最终使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。缩放和最小值用 6 位量化，最终使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化，与 GGML_TYPE_Q4_K 具有相同的超级块结构，最终使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化，超级块有 16 个块，每个块有 16 个权重。缩放用 8 位量化，最终使用 6.5625 bpw。

请参考下面的“提供的文件”表，了解哪些文件使用了哪些方法。

提供的文件

名称	量化方法	比特数	大小	所需最大 RAM	使用场景
orionstar-yi-34b-chat-llama.Q2_K.gguf	Q2_K	2	14.56 GB	17.06 GB	最小，但质量损失显著，不建议用于大多数场景
orionstar-yi-34b-chat-llama.Q3_K_S.gguf	Q3_K_S	3	14.96 GB	17.46 GB	非常小，但质量损失高
orionstar-yi-34b-chat-llama.Q3_K_M.gguf	Q3_K_M	3	16.64 GB	19.14 GB	非常小，但质量损失高
orionstar-yi-34b-chat-llama.Q3_K_L.gguf	Q3_K_L	3	18.14 GB	20.64 GB	小，但质量损失较大
orionstar-yi-34b-chat-llama.Q4_0.gguf	Q4_0	4	19.47 GB	21.97 GB	旧版本；小，但质量损失非常高，建议使用 Q3_K_M
orionstar-yi-34b-chat-llama.Q4_K_S.gguf	Q4_K_S	4	19.54 GB	22.04 GB	小，但质量损失较大
orionstar-yi-34b-chat-llama.Q4_K_M.gguf	Q4_K_M	4	20.66 GB	23.16 GB	中等，质量平衡，推荐使用
orionstar-yi-34b-chat-llama.Q5_0.gguf	Q5_0	5	23.71 GB	26.21 GB	旧版本；中等，质量平衡，建议使用 Q4_K_M
orionstar-yi-34b-chat-llama.Q5_K_S.gguf	Q5_K_S	5	23.71 GB	26.21 GB	大，质量损失低，推荐使用
orionstar-yi-34b-chat-llama.Q5_K_M.gguf	Q5_K_M	5	24.32 GB	26.82 GB	大，质量损失非常低，推荐使用
orionstar-yi-34b-chat-llama.Q6_K.gguf	Q6_K	6	28.21 GB	30.71 GB	非常大，质量损失极低
orionstar-yi-34b-chat-llama.Q8_0.gguf	Q8_0	8	36.54 GB	39.04 GB	非常大，质量损失极低，不建议使用

注意：上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU，将减少 RAM 使用并使用 VRAM。

🔧 技术细节

模型评估结果

使用 opencompass 在以下通用领域数据集上进行 5 次测试，其他模型的评估结果取自 opencompass 排行榜。

模型	C-Eval	MMLU	CMMLU
GPT-4	69.9	83	71
ChatGPT	52.5	69.1	53.9
Claude-1	52	65.7	-
TigerBot-70B-Chat-V2	57.7	65.9	59.9
WeMix-LLaMA2-70B	55.2	71.3	56
LLaMA-2-70B-Chat	44.3	63.8	43.3
Qwen-14B-Chat	71.7	66.4	70
百川 2-13B-Chat	56.7	57	58.4
猎户星空易 34B 聊天	77.71	78.32	73.52