Wenzhong-GPT2-3.5B開源語言模型 - 免費部署助力自然語言生成

首頁

Wenzhong GPT2 3.5B

由IDEA-CCNL開發

專注於處理自然語言生成任務，當前最大的中文GPT2模型。

大型語言模型

Transformers

中文開源協議:Apache-2.0 #中文大語言模型 #35億參數 #文本生成

下載量 78

發布時間 : 3/2/2022

模型概述

該模型採用GPT架構並應用於中文語料，包含30層解碼器結構，參數量達35億，規模超過原版GPT2-XL。

模型特點

大規模中文GPT模型

參數量達35億，是目前最大的中文GPT2模型。

高效預訓練

在100GB中文語料上進行預訓練，消耗32張NVIDIA A100顯卡約28小時。

單向語言模型

專注於構建強大的單向語言模型，適用於自然語言生成任務。

模型能力

文本生成

語言建模

使用案例

文本生成

文本補全

根據給定的開頭生成連貫的後續文本。

內容創作

生成文章、故事或其他創意寫作內容。

🚀 聞仲-GPT2-3.5B

聞仲-GPT2-3.5B是目前最大的中文版GPT2模型，擅長處理自然語言生成（NLG）任務，為中文語境下的語言處理提供了強大的支持。

🚀 快速開始

模型相關鏈接

主頁：封神榜
Github：封神榜-LM

✨ 主要特性

專注於自然語言生成（NLG）任務，在中文語料上表現出色。
採用GPT模型結構，擁有30層解碼器和35億參數，比原本的GPT2-XL更大。
在100G的中文語料上進行預訓練，是目前最大的中文GPT模型。

📦 安裝指南

本部分未提及具體安裝命令，暫不展示安裝指南。

💻 使用示例

基礎用法

from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
model = GPT2Model.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

高級用法

from transformers import pipeline, set_seed
set_seed(55)
generator = pipeline('text-generation', model='IDEA-CCNL/Wenzhong-GPT2-3.5B')
generator("北京位於", max_length=30, num_return_sequences=1)

📚 詳細文檔

模型分類

屬性	詳情
需求	通用
任務	自然語言生成（NLG）
系列	聞仲
模型	GPT2
參數	3.5B
額外	中文

模型信息

為了可以獲得一個強大的單向語言模型，我們採用GPT模型結構，並且應用於中文語料上。具體地，這個模型擁有30層解碼器和35億參數，這比原本的GPT2-XL還要大。我們在100G的中文語料上預訓練，這消耗了32個NVIDIA A100顯卡大約28小時。據我們所知，它是目前最大的中文的GPT模型。

推理參數

屬性	詳情
max_new_tokens	128
do_sample	True

🔧 技術細節

本部分未提供具體的技術說明，暫不展示技術細節。

📄 許可證

本項目採用Apache-2.0許可證。

📖 引用

如果您在您的工作中使用了我們的模型，可以引用我們的論文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我們的網站:

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}