RWKV-4-169m-pile开源大语言模型 - 集RNN与Transformer优势，快速推理训练

首页

Rwkv 4 169m Pile

由 RWKV 开发

RWKV-4是一种融合RNN与Transformer优势的大语言模型，具备高性能、快速推理和高效训练特点

大型语言模型

Transformers

#RNN-Transformer混合架构 #高效长文本处理 #中文语言生成

下载量 5,698

发布时间 : 5/4/2023

模型简介

RWKV-4是一种创新的语言模型架构，结合了RNN的高效性和Transformer的强大性能，支持无限上下文长度和免费句子嵌入

模型特点

RNN与Transformer融合

结合RNN的高效序列处理和Transformer的并行训练优势

高效推理

相比传统Transformer模型具有更快的推理速度和更低的显存需求

无限上下文长度

得益于RNN架构特性，理论上支持无限长度的上下文处理

免费句子嵌入

可免费获取高质量的句子级别嵌入表示

模型能力

文本生成

语言建模

句子嵌入提取

使用案例

内容创作

故事续写

根据给定开头自动生成连贯的故事内容

示例中展示了流畅的中文故事续写能力

对话系统

聊天机器人

构建流畅的对话交互系统

🚀 RWKV-4 | 基于Pile数据集训练的1.69亿参数模型卡片

RWKV是一个由Bo Peng领导的项目。你可以通过Johan Wind的博客文章这里和这里了解更多关于该模型架构的信息。你还可以通过加入RWKV Discord服务器来深入了解这个项目。

🚀 快速开始

模型简述

以下是来自原仓库的描述：

RWKV是一种具有Transformer级大语言模型性能的循环神经网络（RNN）。它可以像GPT一样直接进行训练（可并行化）。它结合了RNN和Transformer的优点——性能出色、推理速度快、节省显存、训练速度快、具有“无限”上下文长度，并且能免费获得句子嵌入。

✨ 主要特性

数据集：使用了EleutherAI/pile数据集进行训练。

📚 详细文档

模型细节

模型架构的详细信息可以在上述博客文章以及Hugging Face关于该模型集成的博客文章中找到。

模型使用

将原始权重转换为Hugging Face格式

你可以使用convert_rwkv_checkpoint_to_hf.py脚本，通过指定原始权重的仓库ID、文件名和输出目录来进行转换。你还可以选择通过传递--push_to_hub标志和--model_name参数，将转换后的模型直接推送到Hugging Face Hub上。

python convert_rwkv_checkpoint_to_hf.py --repo_id RAW_HUB_REPO --checkpoint_file RAW_FILE --output_dir OUTPUT_DIR --push_to_hub --model_name dummy_user/converted-rwkv

文本生成

你可以使用AutoModelForCausalLM和AutoTokenizer类从模型中生成文本。展开以下部分，了解如何在不同场景下运行该模型：

💻 使用示例

基础用法

在CPU上运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-4-169m-pile")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-4-169m-pile")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt")
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

高级用法

在单个GPU上运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-4-169m-pile").to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-4-169m-pile")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在GPU上以半精度运行模型

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-4-169m-pile", torch_dtype=torch.float16).to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-4-169m-pile")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在多个GPU上运行模型

# pip install accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-4-169m-pile", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-4-169m-pile")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))