rwkv - raven - 7b開源模型 - 高性能快速推理，支持無限上下文長度

首頁

Rwkv Raven 7b

由RWKV開發

RWKV是一種結合RNN和Transformer優點的循環神經網絡，具有高性能、快速推理、節省顯存等特點，支持無限上下文長度。

大型語言模型

Transformers

#RNN-Transformer混合架構 #無限上下文長度 #中文對話優化

下載量 699

發布時間 : 5/5/2023

模型概述

RWKV是一種具有Transformer級性能的循環神經網絡，適用於文本生成任務，結合了RNN和Transformer的優點。

模型特點

高性能

具有Transformer級的大型語言模型性能。

快速推理

推理速度快，節省顯存。

無限上下文長度

支持無限上下文長度，適合長文本生成任務。

訓練速度快

訓練速度快，可並行化訓練。

模型能力

文本生成

聊天對話

長文本處理

使用案例

文本生成

故事生成

根據提示生成連貫的故事文本。

生成符合上下文的故事內容。

聊天對話

用於構建聊天機器人，進行自然語言對話。

生成流暢的對話回覆。

🚀 RWKV-4 | 7B參數聊天版本（Raven）模型卡片

RWKV是由 Bo Peng 領導的項目。你可以通過Johan Wind的博客文章此處和此處瞭解更多關於該模型架構的信息。還可以通過加入 RWKV Discord服務器深入瞭解該項目。

🚀 快速開始

數據集

EleutherAI/pile

✨ 主要特性

以下是來自原倉庫的描述：

RWKV是一種具有Transformer級大型語言模型性能的循環神經網絡（RNN）。它可以像GPT一樣直接進行訓練（可並行化）。它結合了RNN和Transformer的優點 —— 性能出色、推理速度快、節省顯存、訓練速度快、具有“無限”上下文長度，並且能免費生成句子嵌入。

📚 詳細文檔

模型詳情

架構的詳細信息可以在上述博客文章以及Hugging Face的集成博客文章中找到。

使用方法

將原始權重轉換為Hugging Face格式

你可以使用 convert_rwkv_checkpoint_to_hf.py 腳本，通過指定原始權重的倉庫ID、文件名和輸出目錄來進行轉換。你還可以選擇通過傳遞 --push_to_hub 標誌和 --model_name 參數，直接將轉換後的模型推送到Hugging Face Hub，並指定推送轉換後權重的位置。

python convert_rwkv_checkpoint_to_hf.py --repo_id RAW_HUB_REPO --checkpoint_file RAW_FILE --output_dir OUTPUT_DIR --push_to_hub --model_name dummy_user/converted-rwkv

生成文本

你可以使用 AutoModelForCausalLM 和 AutoTokenizer 類從模型生成文本。展開以下部分，瞭解如何在不同場景下運行模型： “Raven” 模型需要以特定方式進行提示，更多信息請參考集成博客文章。

基礎用法

在CPU上運行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt")
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

高級用法

在單個GPU上運行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b").to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在GPU上以半精度運行模型

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b", torch_dtype=torch.float16).to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在多個GPU上運行模型

# pip install accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))