🚀 日本語T5預訓練模型
這是一個基於日本語語料庫進行預訓練的T5(文本到文本轉移變換器)模型。該模型使用了約100GB的日本語語料庫進行預訓練,具備強大的語言理解和生成能力。不過,它僅完成了預訓練階段,若要應用於特定任務,還需要進行微調。同時,由於使用了大規模語料庫,模型可能存在因訓練數據內容偏差而導致的輸出結果偏差問題,使用時請務必注意。
🚀 快速開始
此日本語T5預訓練模型使用了以下日本語語料庫(約100GB)進行預訓練:
該模型僅進行了預訓練,若要用於特定任務,需要進行微調。同時,由於使用了大規模語料庫,模型可能存在因訓練數據內容偏差而導致的輸出結果偏差(如不道德、有害或存在偏見)問題。請在使用時充分考慮這一潛在問題,僅將其用於不會造成危害的用途。
在SentencePiece分詞器的訓練中,使用了上述Wikipedia的全量數據。
✨ 主要特性
- 針對性預訓練:基於日本語語料庫進行預訓練,更適合日本語相關任務。
- 模型優勢:在livedoor新聞分類任務中,相較於Google的多語言T5模型,本模型參數少25%,精度高約6個百分點。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
遷移學習示例代碼
遷移學習的示例代碼可參考:https://github.com/sonoisa/t5-japanese
📚 詳細文檔
基準測試
livedoor新聞分類任務
使用livedoor新聞語料庫進行新聞文章的類別預測任務,本模型的精度如下:
label |
precision |
recall |
f1-score |
support |
0 |
0.96 |
0.94 |
0.95 |
130 |
1 |
0.98 |
0.99 |
0.99 |
121 |
2 |
0.96 |
0.96 |
0.96 |
123 |
3 |
0.86 |
0.91 |
0.89 |
82 |
4 |
0.96 |
0.97 |
0.97 |
129 |
5 |
0.96 |
0.96 |
0.96 |
141 |
6 |
0.98 |
0.98 |
0.98 |
127 |
7 |
1.00 |
0.99 |
1.00 |
127 |
8 |
0.99 |
0.97 |
0.98 |
120 |
accuracy |
|
|
0.97 |
1100 |
macro avg |
0.96 |
0.96 |
0.96 |
1100 |
weighted avg |
0.97 |
0.97 |
0.97 |
1100 |
對比模型:多語言T5 (google/mt5-small,參數數量為300M)
label |
precision |
recall |
f1-score |
support |
0 |
0.91 |
0.88 |
0.90 |
130 |
1 |
0.84 |
0.93 |
0.89 |
121 |
2 |
0.93 |
0.80 |
0.86 |
123 |
3 |
0.82 |
0.74 |
0.78 |
82 |
4 |
0.90 |
0.95 |
0.92 |
129 |
5 |
0.89 |
0.89 |
0.89 |
141 |
6 |
0.97 |
0.98 |
0.97 |
127 |
7 |
0.95 |
0.98 |
0.97 |
127 |
8 |
0.93 |
0.95 |
0.94 |
120 |
accuracy |
|
|
0.91 |
1100 |
macro avg |
0.91 |
0.90 |
0.90 |
1100 |
weighted avg |
0.91 |
0.91 |
0.91 |
1100 |
JGLUE基準測試
JGLUE基準測試的結果如下(陸續更新):
- MARC-ja:準備中
- JSTS:準備中
- JNLI:準備中
- JSQuAD:EM = 0.900,F1 = 0.945,重現代碼
- JCommonsenseQA:準備中
免責聲明
本模型的作者在創建模型時已盡最大努力確保其內容、功能等的準確性,但不保證模型輸出的準確性、安全性等,也不承擔任何責任。即使因使用本模型給用戶帶來任何不便或損失,模型和數據集的作者及其所屬組織也不承擔任何責任。用戶有義務明確模型和數據集的作者及其所屬組織不承擔責任。
📄 許可證
本模型採用CC - BY SA 4.0許可證。同時,請遵守Common Crawl的使用條款。
⚠️ 重要提示
本模型可能存在因訓練數據內容偏差而導致的輸出結果偏差問題,請僅將其用於不會造成危害的用途。
💡 使用建議
在使用模型前,建議先進行微調以適應具體任務。同時,關注模型輸出結果的合理性,避免因潛在偏差導致的不良影響。