🚀 燃燈-MegatronT5-770M
該模型善於處理NLT任務,是中文版的T5-large,為自然語言處理提供強大支持。
🚀 快速開始
由於transformers庫中沒有Randeng-MegatronT5-770M相關的模型結構,你可以在我們的Fengshenbang-LM中找到並運行代碼。
git clone https://github.com/IDEA-CCNL/Fengshenbang-LM.git
加載模型
from fengshen import T5ForConditionalGeneration
from fengshen import T5Config
from fengshen import T5Tokenizer
tokenizer = T5Tokenizer.from_pretrained('IDEA-CCNL/Randeng-MegatronT5-770M')
config = T5Config.from_pretrained('IDEA-CCNL/Randeng-MegatronT5-770M')
model = T5ForConditionalGeneration.from_pretrained('IDEA-CCNL/Randeng-MegatronT5-770M')
✨ 主要特性
該模型善於處理NLT任務,是中文版的T5-large。
📦 模型分類
屬性 |
詳情 |
需求 |
通用 |
任務 |
自然語言轉換 |
系列 |
燃燈 |
模型 |
MegatronT5 |
參數 |
770M |
額外 |
中文 |
📚 詳細文檔
為了得到一個大規模的中文版的T5,我們使用了Megatron-LM的方法和悟道語料庫(180G版本)用於預訓練。具體地,我們在預訓練階段中使用了Megatron-LM 大概花費了16張A100約14天。
📄 許可證
本項目採用Apache-2.0許可證。
📖 引用
如果您在您的工作中使用了我們的模型,可以引用我們的論文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我們的網站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}