🚀 聞仲-GPT2-3.5B
聞仲-GPT2-3.5B是目前最大的中文版GPT2模型,擅長處理自然語言生成(NLG)任務,為中文語境下的語言處理提供了強大的支持。
🚀 快速開始
模型相關鏈接
✨ 主要特性
- 專注於自然語言生成(NLG)任務,在中文語料上表現出色。
- 採用GPT模型結構,擁有30層解碼器和35億參數,比原本的GPT2-XL更大。
- 在100G的中文語料上進行預訓練,是目前最大的中文GPT模型。
📦 安裝指南
本部分未提及具體安裝命令,暫不展示安裝指南。
💻 使用示例
基礎用法
from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
model = GPT2Model.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
高級用法
from transformers import pipeline, set_seed
set_seed(55)
generator = pipeline('text-generation', model='IDEA-CCNL/Wenzhong-GPT2-3.5B')
generator("北京位於", max_length=30, num_return_sequences=1)
📚 詳細文檔
模型分類
屬性 |
詳情 |
需求 |
通用 |
任務 |
自然語言生成(NLG) |
系列 |
聞仲 |
模型 |
GPT2 |
參數 |
3.5B |
額外 |
中文 |
模型信息
為了可以獲得一個強大的單向語言模型,我們採用GPT模型結構,並且應用於中文語料上。具體地,這個模型擁有30層解碼器和35億參數,這比原本的GPT2-XL還要大。我們在100G的中文語料上預訓練,這消耗了32個NVIDIA A100顯卡大約28小時。據我們所知,它是目前最大的中文的GPT模型。
推理參數
屬性 |
詳情 |
max_new_tokens |
128 |
do_sample |
True |
🔧 技術細節
本部分未提供具體的技術說明,暫不展示技術細節。
📄 許可證
本項目採用Apache-2.0許可證。
📖 引用
如果您在您的工作中使用了我們的模型,可以引用我們的論文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我們的網站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}