模型简介
模型特点
模型能力
使用案例
🚀 通义大模型(Yi)
通义大模型(Yi)是由 01.AI 从头开始训练的下一代开源大语言模型,可用于多种自然语言处理任务,在语言理解、常识推理和阅读理解等方面表现出色,为个人、学术和商业应用提供了强大支持。
🚀 快速开始
💡 提示:如果你想开始使用通义模型并探索不同的推理方法,可以查看 通义使用指南。
选择使用方式
选择以下其中一种方式开启你的通义之旅!
🎯 本地部署通义模型
如果你想在本地部署通义模型:
- 🙋♀️ 若你有 充足 的资源(例如 NVIDIA A800 80GB),可以选择以下方法之一:
- 🙋♀️ 若你资源 有限(例如 MacBook Pro),可以使用 llama.cpp。
🎯 非本地部署通义模型
如果你不想在本地部署通义模型,可以通过以下任意选项探索通义的能力。
🙋♀️ 使用 API 运行通义模型
如果你想探索通义的更多功能,可以采用以下方法之一:
🙋♀️ 在 playground 中运行通义模型
如果你想通过更多可定制选项(例如系统提示、温度、重复惩罚等)与通义聊天,可以尝试以下选项之一:
- 通义 34B 聊天 playground(通义官方)
- 通义 34B 聊天 playground(Replicate)
pip 安装
具体 pip 安装命令暂未在原文档体现,若有相关命令可按此步骤进行安装。
docker 安装
具体 docker 安装命令暂未在原文档体现,若有相关命令可按此步骤进行安装。
llama.cpp 安装
具体 llama.cpp 安装命令暂未在原文档体现,若有相关命令可按此步骤进行安装。
conda-lock 安装
具体 conda-lock 安装命令暂未在原文档体现,若有相关命令可按此步骤进行安装。
网页演示
若有网页演示的具体操作步骤或相关信息,可在此处详细说明。
✨ 主要特性
- 🤖 通义系列模型是由 01.AI 从头开始训练的下一代开源大语言模型。
- 🙌 作为双语语言模型,在 3T 多语言语料上进行训练,成为全球最强大的大语言模型之一,在语言理解、常识推理、阅读理解等方面表现出色。例如:
- 通义 34B 聊天模型在 AlpacaEval 排行榜上 排名第二(仅次于 GPT - 4 Turbo),超越了其他大语言模型(如 GPT - 4、Mixtral、Claude)(截至 2024 年 1 月的数据)。
- 通义 34B 模型在多个基准测试中,包括 Hugging Face 开源大语言模型排行榜(预训练)和 C - Eval,在 英语和中文方面 均 排名第一,超越了所有现有开源模型(如 Falcon - 180B、Llama - 70B、Claude)(截至 2023 年 11 月的数据)。
- 🙏(感谢 Llama)得益于 Transformer 和 Llama 开源社区,它们减少了从头开始构建的工作量,并使我们能够在人工智能生态系统中使用相同的工具。
如果你对通义采用 Llama 架构和许可证使用政策感兴趣,请查看 通义与 Llama 的关系 ⬇️
> 💡 简而言之 > > 通义系列模型采用了与 Llama 相同的模型架构,但 **并非** Llama 的衍生模型。 - 通义和 Llama 都基于 Transformer 结构,自 2018 年以来,Transformer 一直是大语言模型的标准架构。 - 基于 Transformer 架构,Llama 因其出色的稳定性、可靠的收敛性和强大的兼容性,成为了大多数最先进开源模型的新基石。这使得 Llama 成为包括通义在内的模型公认的基础框架。 - 得益于 Transformer 和 Llama 架构,其他模型可以利用它们的优势,减少从头开始构建的工作量,并在其生态系统中使用相同的工具。 - 然而,通义系列模型并非 Llama 的衍生模型,因为它们没有使用 Llama 的权重。 - 由于大多数开源模型都采用了 Llama 的结构,决定模型性能的关键因素是训练数据集、训练管道和训练基础设施。 - 通义以独特和专有的方式发展,完全从头开始独立创建了自己的高质量训练数据集、高效的训练管道和强大的训练基础设施。这使得通义系列模型在 [2023 年 12 月的 Alpaca 排行榜](https://tatsu - lab.github.io/alpaca_eval/) 上仅次于 GPT4 并超越了 Llama。
📦 安装指南
原文档未明确给出具体安装命令,若有相关安装命令可按以下方式展示:
pip 安装
# 具体 pip 安装命令
pip install ...
docker 安装
# 具体 docker 安装命令
docker run ...
llama.cpp 安装
# 具体 llama.cpp 安装命令
...
conda-lock 安装
# 具体 conda-lock 安装命令
conda-lock install ...
📚 详细文档
模型
通义模型有多种尺寸,适用于不同的用例。你还可以对通义模型进行微调以满足特定需求。
如果你想部署通义模型,请确保满足 软件和硬件要求。
聊天模型
模型 | 下载地址 |
---|---|
通义 34B 聊天模型 | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 34B 聊天 4 位量化模型 | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 34B 聊天 8 位量化模型 | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 6B 聊天模型 | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 6B 聊天 4 位量化模型 | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 6B 聊天 8 位量化模型 | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
- 4 位系列模型采用 AWQ 量化。
- 8 位系列模型采用 GPTQ 量化
- 所有量化模型使用门槛较低,因为它们可以部署在消费级 GPU 上(如 3090、4090)。
基础模型
模型 | 下载地址 |
---|---|
通义 34B | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 34B - 200K | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 9B | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 9B - 200K | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 6B | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
通义 6B - 200K | • 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel |
- 200k 大约相当于 400,000 个中文字符。
- 如果你想使用 2023 年 11 月 5 日发布的通义 34B - 200K 旧版本,请运行 git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf
下载权重。
模型信息
-
聊天和基础模型 | 模型 | 介绍 | 默认上下文窗口 | 预训练令牌 | 训练数据日期 | |------|------|------|------|------| | 6B 系列模型 | 适用于个人和学术用途。 | 4K | 3T | 截至 2023 年 6 月 | | 9B 系列模型 | 在通义系列模型中,最擅长编码和数学。 | 4K | 通义 9B 在通义 6B 的基础上继续训练,使用 0.8T 令牌。 | 截至 2023 年 6 月 | | 34B 系列模型 | 适用于个人、学术和商业(特别是中小企业)用途。这是一种经济高效的解决方案,价格实惠且具备涌现能力。 | 4K | 3T | 截至 2023 年 6 月 |
-
聊天模型
关于聊天模型的局限性,请查看以下解释 ⬇️
- 幻觉:指模型生成事实错误或无意义的信息。由于模型的响应更加多样化,出现基于不准确数据或逻辑推理的幻觉的可能性更高。
- 重新生成的非确定性:在尝试重新生成或采样响应时,可能会出现结果不一致的情况。增加的多样性可能导致即使在相似的输入条件下也会产生不同的结果。
- 累积误差:当模型响应中的误差随着时间累积时就会发生。随着模型生成的响应更加多样化,小误差累积成大误差的可能性增加,特别是在复杂任务中,如扩展推理、数学问题解决等。
- 为了获得更连贯和一致的响应,建议调整生成配置参数,如温度、top_p 或 top_k。这些调整可以帮助平衡模型输出的创造性和连贯性。
发布的聊天模型仅使用监督微调(SFT)进行了训练。与其他标准聊天模型相比,我们的模型生成的响应更加多样化,适用于各种下游任务,如创意场景。此外,这种多样性有望提高生成高质量响应的可能性,这将有利于后续的强化学习(RL)训练。
然而,这种更高的多样性可能会放大某些现有问题,包括:
新闻
🔥 2024 - 07 - 29:通义使用指南 1.0 发布,提供中英文教程和示例。
🎯 2024 - 05 - 13:通义 1.5 系列模型 开源,进一步提高了编码、数学、推理和指令跟随能力。
🎯 2024 - 03 - 16:通义 9B - 200K
开源并向公众开放。
🎯 2024 - 03 - 08:通义技术报告 发布!
🔔 2024 - 03 - 07:通义 34B - 200K 的长文本处理能力得到增强。
在 “大海捞针” 测试中,通义 34B - 200K 的性能提高了 10.5%,从 89.3% 提升到令人印象深刻的 99.8%。我们继续在 5B 令牌的长上下文数据混合上对模型进行预训练,并展示了近乎全绿的性能。
🎯 2024 - 03 - 06:通义 9B
开源并向公众开放。
通义 9B
在一系列类似规模的开源模型(包括 Mistral - 7B、SOLAR - 10.7B、Gemma - 7B、DeepSeek - Coder - 7B - Base - v1.5 等)中表现出色,尤其在编码、数学、常识推理和阅读理解方面表现优异。
🎯 2024 - 01 - 23:通义视觉语言模型 通义 VL - 34B
和 通义 VL - 6B
开源并向公众开放。
通义 VL - 34B
在最新的基准测试中,包括 MMMU 和 CMMMU(截至 2024 年 1 月的数据),在所有现有开源模型中 **排名第一**。
🎯 2023 - 11 - 23:聊天模型 开源并向公众开放。
此次发布包含两个基于之前发布的基础模型的聊天模型、两个由 GPTQ 量化的 8 位模型和两个由 AWQ 量化的 4 位模型。 - `通义 34B 聊天模型` - `通义 34B 聊天 4 位量化模型` - `通义 34B 聊天 8 位量化模型` - `通义 6B 聊天模型` - `通义 6B 聊天 4 位量化模型` - `通义 6B 聊天 8 位量化模型` 你可以在以下平台交互式尝试其中一些模型: - [Hugging Face](https://huggingface.co/spaces/01-ai/Yi-34B-Chat) - [Replicate](https://replicate.com/01-ai)
🔔 2023 - 11 - 23:通义系列模型社区许可协议更新为 v2.1。
🔥 2023 - 11 - 08:通义 34B 聊天模型邀请测试。
申请表格: - [英文](https://cn.mikecrm.com/l91ODJf) - [中文](https://cn.mikecrm.com/gnEZjiQ)
🎯 2023 - 11 - 05:基础模型 通义 6B - 200K
和 通义 34B - 200K
开源并向公众开放。
此次发布包含两个基础模型,参数大小与之前的版本相同,只是上下文窗口扩展到了 200K。
🎯 2023 - 11 - 02:基础模型 通义 6B
和 通义 34B
开源并向公众开放。
首次公开发布包含两个双语(英语/中文)基础模型,参数大小分别为 6B 和 34B。它们都在 4K 序列长度上进行训练,推理时可以扩展到 32K。
🔧 技术细节
原文档未提供足够详细的技术实现细节(超过 50 字),若有相关内容可在此处详细说明。
📄 许可证
本项目采用 Apache - 2.0 许可证。



