rwkv-raven-3b開源大語言模型 - 免費部署，支持無限上下文長度處理

首頁

Rwkv Raven 3b

由RWKV開發

RWKV是一種結合RNN和Transformer優勢的大語言模型，支持高效訓練和快速推理，具備無限上下文長度處理能力。

大型語言模型

Transformers

#RNN-Transformer混合架構 #無限上下文長度 #高效顯存利用

下載量 273

發布時間 : 5/4/2023

模型概述

RWKV-4 Raven是一個30億參數的大語言模型，採用獨特的RNN-Transformer混合架構，適用於聊天和文本生成任務。

模型特點

高效架構

結合RNN和Transformer優勢，支持並行化訓練同時保持RNN的高效推理特性

長上下文處理

理論上支持無限長度的上下文處理能力

資源高效

相比傳統Transformer模型，訓練和推理時更節省顯存

模型能力

中文文本生成

多輪對話

長文本理解

創意寫作

使用案例

對話系統

智能聊天機器人

構建流暢自然的對話系統

能夠進行多輪連貫對話

內容創作

故事生成

根據簡短提示生成連貫的長篇故事

生成具有邏輯性的創意內容

🚀 RWKV-4 | 30億參數聊天版本（Raven）模型卡片

RWKV是一個由Bo Peng領導的項目。你可以在Johan Wind的博客文章這裡和這裡瞭解更多關於模型架構的信息。還可以通過加入RWKV Discord服務器來深入瞭解該項目。

🚀 快速開始

模型簡介

以下是來自原始倉庫的描述：

RWKV是一種具有Transformer級大語言模型性能的循環神經網絡（RNN）。它可以像GPT一樣直接進行訓練（可並行化）。它融合了RNN和Transformer的優點——性能出色、推理速度快、節省顯存、訓練速度快、具有“無限”上下文長度，並且能免費生成句子嵌入。

✨ 主要特性

RWKV結合了RNN和Transformer的優勢，具備出色的性能、快速的推理速度、節省顯存、快速訓練、“無限”上下文長度以及免費的句子嵌入等特性。

📦 安裝指南

文檔未提及安裝相關內容，暫不提供。

💻 使用示例

基礎用法

將原始權重轉換為Hugging Face格式

你可以使用convert_rwkv_checkpoint_to_hf.py腳本，通過指定原始權重的倉庫ID、文件名和輸出目錄來進行轉換。你還可以選擇通過傳遞--push_to_hub標誌和--model_name參數，將轉換後的模型直接推送到Hugging Face Hub。

python convert_rwkv_checkpoint_to_hf.py --repo_id RAW_HUB_REPO --checkpoint_file RAW_FILE --output_dir OUTPUT_DIR --push_to_hub --model_name dummy_user/converted-rwkv

生成文本

你可以使用AutoModelForCausalLM和AutoTokenizer類從模型中生成文本。以下是在不同場景下運行模型的示例： “Raven”模型需要以特定方式進行提示，更多信息請參考集成博客文章。

高級用法

在CPU上運行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt")
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在單個GPU上運行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b").to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在GPU上以半精度運行模型

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b", torch_dtype=torch.float16).to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在多個GPU上運行模型

# pip install accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))