Yi-34B-Chat开源双语大模型 - 免费部署，语言理解与常识推理超棒

首页

Yi 34B

由 01-ai 开发

Yi-34B-Chat是由01.AI训练的新一代开源双语大语言模型，在语言理解、常识推理、阅读理解等方面表现卓越，是全球最强大的LLM之一。

大型语言模型

Transformers

开源协议:Apache-2.0 #双语对话 #长文本处理 #高精度推理

下载量 3,738

发布时间 : 11/1/2023

模型简介

Yi-34B-Chat是基于3T多语言语料训练的双语优化语言模型，支持中英文，在多项基准测试中表现优异。

模型特点

双语优化

专门针对中英文优化的语言模型，在双语环境下表现卓越

高性能

在AlpacaEval排行榜上仅次于GPT-4 Turbo，超越其他主流LLM

开源

完全开源，采用Apache-2.0许可证

长文本处理

支持200K上下文长度，在长文本任务中表现优异

模型能力

文本生成

对话交互

常识推理

阅读理解

指令遵循

使用案例

智能助手

客服对话

用于构建智能客服系统，处理用户咨询

能够理解复杂问题并提供准确回答

内容创作

文章写作

辅助进行中英文内容创作

生成流畅、连贯的文本内容

教育

学习辅导

作为学习助手解答学生问题

提供准确的知识解释和推理过程

🚀 零一万物大模型 Yi

零一万物大模型 Yi 是由 01.AI 从头开始训练的下一代开源大语言模型。它以双语语言模型为目标，在 3T 多语言语料上进行训练，在语言理解、常识推理、阅读理解等方面表现出色，是全球最强大的大语言模型之一。

🚀 快速开始

💡 提示：如果您想开始使用 Yi 模型并探索不同的推理方法，请查看 Yi 手册。

选择路径

选择以下路径之一开启您的 Yi 之旅！

快速开始 - 选择路径

🎯 本地部署 Yi

如果您想在本地部署 Yi 模型，

🙋‍♀️ 并且您有充足的资源（例如，NVIDIA A800 80GB），您可以选择以下方法之一：
🙋‍♀️ 并且您的资源有限（例如，MacBook Pro），您可以使用 llama.cpp 安装。

🎯 不进行本地部署

如果您不想在本地部署 Yi 模型，您可以通过以下任何选项探索 Yi 的功能。

🙋‍♀️ 使用 API 运行 Yi 如果您想探索 Yi 的更多功能，可以采用以下方法之一：
- Yi API（Yi 官方）：部分申请者已获得早期访问权限，请关注下一轮访问！
- Yi API（Replicate）
🙋‍♀️ 在 playground 中运行 Yi 如果您想通过更多可定制选项（例如系统提示、温度、重复惩罚等）与 Yi 聊天，可以尝试以下选项之一：
- Yi-34B-Chat-Playground（Yi 官方）：通过白名单访问，欢迎申请（填写英文或中文表格）。

💻 使用示例

基础用法

# 以下是使用 pip 进行推理的示例代码
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = '<your-model-path>'

tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)

# 从 transformers 4.35.0 版本开始，可以使用 AutoModelForCausalLM 加载 GPT-Q/AWQ 模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",
    torch_dtype='auto'
).eval()

# 提示内容："hi"
messages = [
    {"role": "user", "content": "hi"}
]

input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, add_generation_prompt=True, return_tensors='pt')
output_ids = model.generate(input_ids.to('cuda'))
response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=True)

# 模型响应："Hello! How can I assist you today?"
print(response)

高级用法

# 以下是使用 Docker 进行推理的示例命令
docker run -it --gpus all \
-v <your-model-path>:/models
ghcr.io/01-ai/yi:latest

✨ 主要特性

强大性能：Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二（仅次于 GPT-4 Turbo），超越了其他大语言模型（如 GPT-4、Mixtral、Claude）。Yi-34B 模型在多个基准测试中，包括 Hugging Face Open LLM 排行榜（预训练）和 C-Eval，在英语和中文方面均排名第一，超越了所有现有开源模型（如 Falcon-180B、Llama-70B、Claude）。
架构优势：Yi 系列模型采用与 Llama 相同的模型架构，但并非 Llama 的衍生模型。它独立创建了自己的高质量训练数据集、高效训练管道和强大训练基础设施，性能优异。
全面生态：拥有全面的生态系统，提供一系列工具、服务和模型，包括上游可利用 Llama 生态系统的现有资源，下游有服务、量化、微调、API 等多种应用。

📦 安装指南

pip 安装

git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt

Docker 安装

docker run -it --gpus all \
-v <your-model-path>:/models
ghcr.io/01-ai/yi:latest

conda-lock 安装

micromamba install -y -n yi -f conda-lock.yml

llama.cpp 安装

git clone git@github.com:ggerganov/llama.cpp.git
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF
git-lfs pull --include yi-chat-6b.Q2_K.gguf

📚 详细文档

模型信息

属性	详情
模型类型	包括聊天模型和基础模型，有 6B、9B、34B 等不同尺寸
训练数据	3T 多语言语料，其中 Yi-9B 基于 Yi-6B 继续训练，使用 0.8T 令牌
默认上下文窗口	4K（部分模型可扩展）
预训练令牌	3T（Yi-9B 基于 Yi-6B 继续训练使用 0.8T 令牌）
训练数据日期	截至 2023 年 6 月

常见问题解答

如果您在使用 Yi 系列模型时遇到任何问题，以下答案可能会对您有所帮助。 ⬇️

💡 微调相关

基础模型还是聊天模型 - 选择哪个进行微调？ 选择用于微调的预训练语言模型取决于您可用的计算资源和任务的特定需求。
- 如果您有大量的微调数据（例如，超过 10,000 个样本），基础模型可能是您的首选。
- 如果您的微调数据不是很多，选择聊天模型可能更合适。
- 通常建议同时微调基础模型和聊天模型，比较它们的性能，然后选择最符合您特定需求的模型。
全量微调 Yi-34B 和 Yi-34B-Chat 有什么区别？ Yi-34B 和 Yi-34B-Chat 全量微调的关键区别在于微调方法和结果。
- Yi-34B-Chat 采用特殊微调（SFT）方法，生成的响应更接近人类对话风格。
- 基础模型的微调更具通用性，性能潜力相对较高。
- 如果您对数据质量有信心，可以选择使用 Yi-34B 进行微调。
- 如果您希望模型生成的响应更能模仿人类对话风格，或者对数据质量有疑虑，Yi-34B-Chat 可能是您的最佳选择。

💡 量化相关

量化模型与原始模型的性能差距是多少？ 性能差异在很大程度上取决于所采用的量化方法和这些模型的具体用例。例如，从基准测试的角度来看，对于 AWQ 官方提供的模型，量化可能会导致几个百分点的轻微性能下降。从主观上来说，在逻辑推理等情况下，即使 1% 的性能变化也可能影响输出结果的准确性。

💡 通用相关

在哪里可以获取微调问答数据集？ 您可以在 Hugging Face 等平台上找到微调问答数据集，例如 m-a-p/COIG-CQIA。此外，Github 提供了微调框架，如 hiyouga/LLaMA-Factory，其中集成了预建的数据集。
微调 Yi-34B FP16 需要多少 GPU 内存？ 微调 34B FP16 所需的 GPU 内存取决于所采用的具体微调方法。对于全参数微调，您需要 8 个每个 80GB 的 GPU；然而，像 Lora 这样更经济的解决方案需要的内存较少。更多详细信息，请查看 hiyouga/LLaMA-Factory。此外，考虑使用 BF16 而不是 FP16 进行微调以优化性能。
是否有支持 Yi-34b-200k 模型聊天功能的第三方平台？ 如果您正在寻找第三方聊天平台，选项包括 fireworks.ai。

🔧 技术细节

模型架构

Yi 系列模型采用与 Llama 相同的模型架构，但并非 Llama 的衍生模型。它基于 Transformer 结构，利用了 Llama 架构的稳定性、收敛性和兼容性等优点，但通过独立创建的高质量训练数据集、高效训练管道和强大训练基础设施，实现了出色的性能。

训练过程

在 3T 多语言语料上进行训练，其中 Yi-9B 基于 Yi-6B 继续训练，使用 0.8T 令牌。训练过程中使用数据合规检查算法，以确保训练模型的合规性，但由于数据复杂和语言模型使用场景的多样性，不能保证模型在所有场景下都能生成正确、合理的输出。

量化方法

支持 GPT-Q 和 AWQ 两种量化方法：

GPT-Q：使用 AutoGPTQ 和 exllama 进行量化，可节省内存并提供潜在的加速，同时保留模型的准确性。

python quantization/gptq/quant_autogptq.py \
  --model /base_model \
  --output_dir /quantized_model \
  --trust_remote_code

AWQ：使用 AutoAWQ 进行量化，是一种高效准确的低比特权重量化方法（INT3/4）。

python quantization/awq/quant_autoawq.py \
  --model /base_model \
  --output_dir /quantized_model \
  --trust_remote_code

📄 许可证

Yi 系列模型的代码和权重根据 Apache 2.0 许可证分发，这意味着 Yi 系列模型可免费用于个人使用、学术目的和商业用途。如果您基于此模型创建衍生作品，请在衍生作品中包含以下归属声明：

This work is a derivative of [The Yi Series Model You Base On] by 01.AI, used under the Apache 2.0 License.

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库