C

Cpt Base

由fnlp開發
面向中文理解與生成任務的非對稱預訓練Transformer模型
下載量 37
發布時間 : 3/2/2022

模型概述

CPT是一個專門針對中文文本處理設計的預訓練模型,支持文本生成、分類、摘要等多種任務,採用非對稱Transformer架構優化中文處理效果。

模型特點

優化中文詞表
包含51271個詞項,補全6800+缺失漢字並移除冗餘標記,顯著降低未登錄詞比例
長序列支持
位置編碼擴展至1024長度,增強長文本處理能力
非對稱架構
編碼器-解碼器結構針對中文理解與生成任務進行專門優化

模型能力

中文文本生成
文本分類
摘要生成
掩碼語言建模
序列到序列任務

使用案例

文本生成
自動摘要
對長文本生成簡潔摘要
在LCSTS數據集上達到38.81 ROUGE-L分數
文本理解
語義匹配
判斷句子對語義相關性
在AFQMC任務上達到74.4準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase