T

T5 Small Chinese Cluecorpussmall

由uer開發
基於UER-py框架預訓練的中文T5小型模型,採用統一的文本到文本格式處理各類中文NLP任務
下載量 1,336
發布時間 : 3/2/2022

模型概述

該模型是中文T5系列的小型版本,採用文本到文本的統一格式,適用於多種中文自然語言處理任務。模型在CLUECorpusSmall數據集上進行預訓練,支持通過哨兵令牌進行文本生成和轉換。

模型特點

統一文本到文本格式
採用T5的統一框架處理各類NLP任務,簡化任務處理流程
哨兵令牌掩碼
使用特殊格式的哨兵令牌(extraxxx)進行文本片段掩碼,支持靈活的文本生成
兩階段預訓練
先以短序列(128)預訓練,再以長序列(512)微調,提升模型表現

模型能力

文本生成
文本轉換
文本補全
文本摘要

使用案例

文本處理
文本補全
使用哨兵令牌進行文本缺失部分預測和補全
示例顯示能正確預測缺失內容如'中國的首都是extra0京'生成'extra0 北'
文本改寫
將輸入文本轉換為不同風格或格式的輸出文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase