bart-base-chinese開源模型 - 專注中文理解與生成，支持文本到文本創作

首頁

Bart Base Chinese

由fnlp開發

面向中文理解與生成的預訓練非平衡Transformer模型，支持文本到文本生成任務

大型語言模型

Transformers

中文#中文文本生成 #序列到序列 #長文本處理

下載量 6,504

發布時間 : 3/2/2022

模型概述

中文BART基礎版是一個基於Transformer架構的序列到序列模型，專門針對中文文本理解和生成任務進行優化。該模型通過預訓練學習中文語言表示，能夠處理多種文本生成任務。

模型特點

優化的中文詞彙表

採用從訓練數據構建的51271詞項新詞表，補全缺失漢字並移除冗餘標記，提升中文處理能力

擴展的位置編碼

最大位置編碼長度從512擴展至1024，支持處理更長文本序列

增量訓練優化

通過詞彙對齊方式繼承舊版參數，新增參數隨機初始化後進行5萬步增量訓練

模型能力

中文文本生成

文本摘要

文本補全

問答生成

使用案例

文本生成

首都識別

識別並生成城市與國家首都關係

輸入'北京是[MASK]的首都'，輸出'北京是中國的首都'

文本摘要

中文文檔摘要

生成中文文檔的簡潔摘要

在CSL摘要任務中達到61.51的ROUGE-L分數

🚀 中文BART-Base

中文BART-Base是一個用於文本生成的模型，它基於BART架構，適用於中文文本處理，能在多種自然語言處理任務中發揮作用。

🚀 快速開始

你可以按照以下步驟使用該模型：

>>> from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("fnlp/bart-base-chinese")
>>> model = BartForConditionalGeneration.from_pretrained("fnlp/bart-base-chinese")
>>> text2text_generator = Text2TextGenerationPipeline(model, tokenizer)  
>>> text2text_generator("北京是[MASK]的首都", max_length=50, do_sample=False)
    [{'generated_text': '北 京 是 中 國 的 首 都'}]

⚠️ 重要提示

請使用BertTokenizer處理模型詞彙，請勿使用原始的BartTokenizer。

✨ 主要特性

模型更新

2022年12月30日

發佈了CPT和中文BART的更新版本。在新版本中，對以下部分進行了更改：

詞彙表：用一個從訓練數據構建的更大的、大小為51271的詞彙表替換了舊的BERT詞彙表。具體操作包括：1) 添加了缺失的6800多箇中文字符（其中大部分是繁體字）；2) 移除了冗餘的標記（例如帶有##前綴的中文字符標記）；3) 添加了一些英文標記以減少未登錄詞（OOV）。
位置嵌入：將最大位置嵌入 max_position_embeddings 從512擴展到1024。

使用舊版本的檢查點對新版本的模型進行初始化，並進行詞彙對齊。複製舊檢查點中找到的標記嵌入，其他新添加的參數則隨機初始化。進一步對新的CPT和中文BART進行了50K步的訓練，批次大小為2048，最大序列長度為1024，峰值學習率為2e - 5，熱身比率為0.1。

性能對比

與之前的檢查點相比，結果如下：

	AFQMC	IFLYTEK	CSL - sum	LCSTS	AVG
之前版本
bart - base	73.0	60	62.1	37.8	58.23
cpt - base	75.1	60.5	63.0	38.2	59.20
bart - large	75.7	62.1	64.2	40.6	60.65
cpt - large	75.9	61.8	63.7	42.0	60.85
更新版本
bart - base	73.03	61.25	61.51	38.78	58.64
cpt - base	74.40	61.23	62.09	38.81	59.13
bart - large	75.81	61.52	64.62	40.90	60.71
cpt - large	75.97	61.63	63.83	42.08	60.88

結果表明，更新後的模型與之前的檢查點相比保持了相當的性能。仍有一些情況是更新後的模型略遜於之前的模型，原因如下：1) 額外的幾步訓練並未帶來顯著的性能提升；2) 一些下游任務不受新添加標記和更長編碼序列的影響，但對微調超參數敏感。

⚠️ 重要提示

要使用更新後的模型，請更新 modeling_cpt.py（新版本下載點擊此處）和詞彙表（刷新緩存）。

📚 詳細文檔

模型描述

這是中文BART - Base的一個實現。

CPT: A Pre - Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

作者：Yunfan Shao, Zhichao Geng, Yitao Liu, Junqi Dai, Fei Yang, Li Zhe, Hujun Bao, Xipeng Qiu

Github鏈接：https://github.com/fastnlp/CPT

📄 許可證

引用信息

@article{shao2021cpt,
  title={CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation}, 
  author={Yunfan Shao and Zhichao Geng and Yitao Liu and Junqi Dai and Fei Yang and Li Zhe and Hujun Bao and Xipeng Qiu},
  journal={arXiv preprint arXiv:2109.05729},
  year={2021}
}