Yi-34B-Chat開源雙語大模型 - 免費部署，語言理解與常識推理超棒

首頁

Yi 34B

由01-ai開發

Yi-34B-Chat是由01.AI訓練的新一代開源雙語大語言模型，在語言理解、常識推理、閱讀理解等方面表現卓越，是全球最強大的LLM之一。

大型語言模型

Transformers

開源協議:Apache-2.0 #雙語對話 #長文本處理 #高精度推理

下載量 3,738

發布時間 : 11/1/2023

模型概述

Yi-34B-Chat是基於3T多語言語料訓練的雙語優化語言模型，支持中英文，在多項基準測試中表現優異。

模型特點

雙語優化

專門針對中英文優化的語言模型，在雙語環境下表現卓越

高性能

在AlpacaEval排行榜上僅次於GPT-4 Turbo，超越其他主流LLM

開源

完全開源，採用Apache-2.0許可證

長文本處理

支持200K上下文長度，在長文本任務中表現優異

模型能力

文本生成

對話交互

常識推理

閱讀理解

指令遵循

使用案例

智能助手

客服對話

用於構建智能客服系統，處理用戶諮詢

能夠理解複雜問題並提供準確回答

內容創作

文章寫作

輔助進行中英文內容創作

生成流暢、連貫的文本內容

教育

學習輔導

作為學習助手解答學生問題

提供準確的知識解釋和推理過程

🚀 零一萬物大模型 Yi

零一萬物大模型 Yi 是由 01.AI 從頭開始訓練的下一代開源大語言模型。它以雙語語言模型為目標，在 3T 多語言語料上進行訓練，在語言理解、常識推理、閱讀理解等方面表現出色，是全球最強大的大語言模型之一。

🚀 快速開始

💡 提示：如果您想開始使用 Yi 模型並探索不同的推理方法，請查看 Yi 手冊。

選擇路徑

選擇以下路徑之一開啟您的 Yi 之旅！

快速開始 - 選擇路徑

🎯 本地部署 Yi

如果您想在本地部署 Yi 模型，

🙋‍♀️ 並且您有充足的資源（例如，NVIDIA A800 80GB），您可以選擇以下方法之一：
🙋‍♀️ 並且您的資源有限（例如，MacBook Pro），您可以使用 llama.cpp 安裝。

🎯 不進行本地部署

如果您不想在本地部署 Yi 模型，您可以通過以下任何選項探索 Yi 的功能。

🙋‍♀️ 使用 API 運行 Yi 如果您想探索 Yi 的更多功能，可以採用以下方法之一：
- Yi API（Yi 官方）：部分申請者已獲得早期訪問權限，請關注下一輪訪問！
- Yi API（Replicate）
🙋‍♀️ 在 playground 中運行 Yi 如果您想通過更多可定製選項（例如系統提示、溫度、重複懲罰等）與 Yi 聊天，可以嘗試以下選項之一：
- Yi-34B-Chat-Playground（Yi 官方）：通過白名單訪問，歡迎申請（填寫英文或中文表格）。

💻 使用示例

基礎用法

# 以下是使用 pip 進行推理的示例代碼
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = '<your-model-path>'

tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False)

# 從 transformers 4.35.0 版本開始，可以使用 AutoModelForCausalLM 加載 GPT-Q/AWQ 模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",
    torch_dtype='auto'
).eval()

# 提示內容："hi"
messages = [
    {"role": "user", "content": "hi"}
]

input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=True, add_generation_prompt=True, return_tensors='pt')
output_ids = model.generate(input_ids.to('cuda'))
response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=True)

# 模型響應："Hello! How can I assist you today?"
print(response)

高級用法

# 以下是使用 Docker 進行推理的示例命令
docker run -it --gpus all \
-v <your-model-path>:/models
ghcr.io/01-ai/yi:latest

✨ 主要特性

強大性能：Yi-34B-Chat 模型在 AlpacaEval 排行榜上排名第二（僅次於 GPT-4 Turbo），超越了其他大語言模型（如 GPT-4、Mixtral、Claude）。Yi-34B 模型在多個基準測試中，包括 Hugging Face Open LLM 排行榜（預訓練）和 C-Eval，在英語和中文方面均排名第一，超越了所有現有開源模型（如 Falcon-180B、Llama-70B、Claude）。
架構優勢：Yi 系列模型採用與 Llama 相同的模型架構，但並非 Llama 的衍生模型。它獨立創建了自己的高質量訓練數據集、高效訓練管道和強大訓練基礎設施，性能優異。
全面生態：擁有全面的生態系統，提供一系列工具、服務和模型，包括上游可利用 Llama 生態系統的現有資源，下游有服務、量化、微調、API 等多種應用。

📦 安裝指南

pip 安裝

git clone https://github.com/01-ai/Yi.git
cd yi
pip install -r requirements.txt

Docker 安裝

docker run -it --gpus all \
-v <your-model-path>:/models
ghcr.io/01-ai/yi:latest

conda-lock 安裝

micromamba install -y -n yi -f conda-lock.yml

llama.cpp 安裝

git clone git@github.com:ggerganov/llama.cpp.git
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/XeIaso/yi-chat-6B-GGUF
git-lfs pull --include yi-chat-6b.Q2_K.gguf

📚 詳細文檔

模型信息

屬性	詳情
模型類型	包括聊天模型和基礎模型，有 6B、9B、34B 等不同尺寸
訓練數據	3T 多語言語料，其中 Yi-9B 基於 Yi-6B 繼續訓練，使用 0.8T 令牌
默認上下文窗口	4K（部分模型可擴展）
預訓練令牌	3T（Yi-9B 基於 Yi-6B 繼續訓練使用 0.8T 令牌）
訓練數據日期	截至 2023 年 6 月

常見問題解答

如果您在使用 Yi 系列模型時遇到任何問題，以下答案可能會對您有所幫助。 ⬇️

💡 微調相關

基礎模型還是聊天模型 - 選擇哪個進行微調？ 選擇用於微調的預訓練語言模型取決於您可用的計算資源和任務的特定需求。
- 如果您有大量的微調數據（例如，超過 10,000 個樣本），基礎模型可能是您的首選。
- 如果您的微調數據不是很多，選擇聊天模型可能更合適。
- 通常建議同時微調基礎模型和聊天模型，比較它們的性能，然後選擇最符合您特定需求的模型。
全量微調 Yi-34B 和 Yi-34B-Chat 有什麼區別？ Yi-34B 和 Yi-34B-Chat 全量微調的關鍵區別在於微調方法和結果。
- Yi-34B-Chat 採用特殊微調（SFT）方法，生成的響應更接近人類對話風格。
- 基礎模型的微調更具通用性，性能潛力相對較高。
- 如果您對數據質量有信心，可以選擇使用 Yi-34B 進行微調。
- 如果您希望模型生成的響應更能模仿人類對話風格，或者對數據質量有疑慮，Yi-34B-Chat 可能是您的最佳選擇。

💡 量化相關

量化模型與原始模型的性能差距是多少？ 性能差異在很大程度上取決於所採用的量化方法和這些模型的具體用例。例如，從基準測試的角度來看，對於 AWQ 官方提供的模型，量化可能會導致幾個百分點的輕微性能下降。從主觀上來說，在邏輯推理等情況下，即使 1% 的性能變化也可能影響輸出結果的準確性。

💡 通用相關

在哪裡可以獲取微調問答數據集？ 您可以在 Hugging Face 等平臺上找到微調問答數據集，例如 m-a-p/COIG-CQIA。此外，Github 提供了微調框架，如 hiyouga/LLaMA-Factory，其中集成了預建的數據集。
微調 Yi-34B FP16 需要多少 GPU 內存？ 微調 34B FP16 所需的 GPU 內存取決於所採用的具體微調方法。對於全參數微調，您需要 8 個每個 80GB 的 GPU；然而，像 Lora 這樣更經濟的解決方案需要的內存較少。更多詳細信息，請查看 hiyouga/LLaMA-Factory。此外，考慮使用 BF16 而不是 FP16 進行微調以優化性能。
是否有支持 Yi-34b-200k 模型聊天功能的第三方平臺？ 如果您正在尋找第三方聊天平臺，選項包括 fireworks.ai。

🔧 技術細節

模型架構

Yi 系列模型採用與 Llama 相同的模型架構，但並非 Llama 的衍生模型。它基於 Transformer 結構，利用了 Llama 架構的穩定性、收斂性和兼容性等優點，但通過獨立創建的高質量訓練數據集、高效訓練管道和強大訓練基礎設施，實現了出色的性能。

訓練過程

在 3T 多語言語料上進行訓練，其中 Yi-9B 基於 Yi-6B 繼續訓練，使用 0.8T 令牌。訓練過程中使用數據合規檢查算法，以確保訓練模型的合規性，但由於數據複雜和語言模型使用場景的多樣性，不能保證模型在所有場景下都能生成正確、合理的輸出。

量化方法

支持 GPT-Q 和 AWQ 兩種量化方法：

GPT-Q：使用 AutoGPTQ 和 exllama 進行量化，可節省內存並提供潛在的加速，同時保留模型的準確性。

python quantization/gptq/quant_autogptq.py \
  --model /base_model \
  --output_dir /quantized_model \
  --trust_remote_code

AWQ：使用 AutoAWQ 進行量化，是一種高效準確的低比特權重量化方法（INT3/4）。

python quantization/awq/quant_autoawq.py \
  --model /base_model \
  --output_dir /quantized_model \
  --trust_remote_code

📄 許可證

Yi 系列模型的代碼和權重根據 Apache 2.0 許可證分發，這意味著 Yi 系列模型可免費用於個人使用、學術目的和商業用途。如果您基於此模型創建衍生作品，請在衍生作品中包含以下歸屬聲明：

This work is a derivative of [The Yi Series Model You Base On] by 01.AI, used under the Apache 2.0 License.

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫