t5-base-japanese開源模型 - 基於日語語料庫，助力多類文本生成任務

首頁

T5 Base Japanese

由sonoisa開發

基於日語語料庫預訓練的T5（文本到文本轉換Transformer）模型，適用於多種文本生成任務。

大型語言模型日語#日語文本生成 #高精度分類 #維基百科預訓練

下載量 13.85k

發布時間 : 3/2/2022

模型概述

這是一個基於日語語料庫預訓練的T5模型，主要用於文本到文本生成任務。模型經過大規模日語語料庫訓練，支持多種下游任務的微調。

模型特點

高效性能

與多語言T5模型相比，體積縮小25%，準確率高出約6個百分點。

大規模預訓練

使用了約100GB的日語語料庫進行預訓練，包括維基百科、OSCAR和CC-100。

多任務支持

通過微調可支持多種文本生成任務，如分類、問答等。

模型能力

文本生成

文本分類

問答系統

使用案例

新聞分類

livedoor新聞分類

使用livedoor新聞語料庫進行新聞文章類型預測任務。

準確率達到97%，F1分數為0.97。

問答系統

JSQuAD問答任務

在JGLUE基準測試中的JSQuAD任務上表現優異。

EM=0.900, F1=0.945。

🚀 日本語T5預訓練模型

這是一個基於日本語語料庫進行預訓練的T5（文本到文本轉移變換器）模型。該模型使用了約100GB的日本語語料庫進行預訓練，具備強大的語言理解和生成能力。不過，它僅完成了預訓練階段，若要應用於特定任務，還需要進行微調。同時，由於使用了大規模語料庫，模型可能存在因訓練數據內容偏差而導致的輸出結果偏差問題，使用時請務必注意。

🚀 快速開始

此日本語T5預訓練模型使用了以下日本語語料庫（約100GB）進行預訓練：

Wikipedia的日本語轉儲數據（截至2020年7月6日）
OSCAR的日本語語料庫
CC-100的日本語語料庫

該模型僅進行了預訓練，若要用於特定任務，需要進行微調。同時，由於使用了大規模語料庫，模型可能存在因訓練數據內容偏差而導致的輸出結果偏差（如不道德、有害或存在偏見）問題。請在使用時充分考慮這一潛在問題，僅將其用於不會造成危害的用途。

在SentencePiece分詞器的訓練中，使用了上述Wikipedia的全量數據。

✨ 主要特性

針對性預訓練：基於日本語語料庫進行預訓練，更適合日本語相關任務。
模型優勢：在livedoor新聞分類任務中，相較於Google的多語言T5模型，本模型參數少25%，精度高約6個百分點。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

遷移學習示例代碼

遷移學習的示例代碼可參考：https://github.com/sonoisa/t5-japanese

📚 詳細文檔

基準測試

livedoor新聞分類任務

使用livedoor新聞語料庫進行新聞文章的類別預測任務，本模型的精度如下：

label	precision	recall	f1-score	support
0	0.96	0.94	0.95	130
1	0.98	0.99	0.99	121
2	0.96	0.96	0.96	123
3	0.86	0.91	0.89	82
4	0.96	0.97	0.97	129
5	0.96	0.96	0.96	141
6	0.98	0.98	0.98	127
7	1.00	0.99	1.00	127
8	0.99	0.97	0.98	120
accuracy			0.97	1100
macro avg	0.96	0.96	0.96	1100
weighted avg	0.97	0.97	0.97	1100

對比模型：多語言T5 (google/mt5-small，參數數量為300M)

label	precision	recall	f1-score	support
0	0.91	0.88	0.90	130
1	0.84	0.93	0.89	121
2	0.93	0.80	0.86	123
3	0.82	0.74	0.78	82
4	0.90	0.95	0.92	129
5	0.89	0.89	0.89	141
6	0.97	0.98	0.97	127
7	0.95	0.98	0.97	127
8	0.93	0.95	0.94	120
accuracy			0.91	1100
macro avg	0.91	0.90	0.90	1100
weighted avg	0.91	0.91	0.91	1100