🚀 日本语T5预训练模型
这是一个基于日本语语料库进行预训练的T5(文本到文本转移变换器)模型。该模型使用了约100GB的日本语语料库进行预训练,具备强大的语言理解和生成能力。不过,它仅完成了预训练阶段,若要应用于特定任务,还需要进行微调。同时,由于使用了大规模语料库,模型可能存在因训练数据内容偏差而导致的输出结果偏差问题,使用时请务必注意。
🚀 快速开始
此日本语T5预训练模型使用了以下日本语语料库(约100GB)进行预训练:
该模型仅进行了预训练,若要用于特定任务,需要进行微调。同时,由于使用了大规模语料库,模型可能存在因训练数据内容偏差而导致的输出结果偏差(如不道德、有害或存在偏见)问题。请在使用时充分考虑这一潜在问题,仅将其用于不会造成危害的用途。
在SentencePiece分词器的训练中,使用了上述Wikipedia的全量数据。
✨ 主要特性
- 针对性预训练:基于日本语语料库进行预训练,更适合日本语相关任务。
- 模型优势:在livedoor新闻分类任务中,相较于Google的多语言T5模型,本模型参数少25%,精度高约6个百分点。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
迁移学习示例代码
迁移学习的示例代码可参考:https://github.com/sonoisa/t5-japanese
📚 详细文档
基准测试
livedoor新闻分类任务
使用livedoor新闻语料库进行新闻文章的类别预测任务,本模型的精度如下:
label |
precision |
recall |
f1-score |
support |
0 |
0.96 |
0.94 |
0.95 |
130 |
1 |
0.98 |
0.99 |
0.99 |
121 |
2 |
0.96 |
0.96 |
0.96 |
123 |
3 |
0.86 |
0.91 |
0.89 |
82 |
4 |
0.96 |
0.97 |
0.97 |
129 |
5 |
0.96 |
0.96 |
0.96 |
141 |
6 |
0.98 |
0.98 |
0.98 |
127 |
7 |
1.00 |
0.99 |
1.00 |
127 |
8 |
0.99 |
0.97 |
0.98 |
120 |
accuracy |
|
|
0.97 |
1100 |
macro avg |
0.96 |
0.96 |
0.96 |
1100 |
weighted avg |
0.97 |
0.97 |
0.97 |
1100 |
对比模型:多语言T5 (google/mt5-small,参数数量为300M)
label |
precision |
recall |
f1-score |
support |
0 |
0.91 |
0.88 |
0.90 |
130 |
1 |
0.84 |
0.93 |
0.89 |
121 |
2 |
0.93 |
0.80 |
0.86 |
123 |
3 |
0.82 |
0.74 |
0.78 |
82 |
4 |
0.90 |
0.95 |
0.92 |
129 |
5 |
0.89 |
0.89 |
0.89 |
141 |
6 |
0.97 |
0.98 |
0.97 |
127 |
7 |
0.95 |
0.98 |
0.97 |
127 |
8 |
0.93 |
0.95 |
0.94 |
120 |
accuracy |
|
|
0.91 |
1100 |
macro avg |
0.91 |
0.90 |
0.90 |
1100 |
weighted avg |
0.91 |
0.91 |
0.91 |
1100 |
JGLUE基准测试
JGLUE基准测试的结果如下(陆续更新):
- MARC-ja:准备中
- JSTS:准备中
- JNLI:准备中
- JSQuAD:EM = 0.900,F1 = 0.945,重现代码
- JCommonsenseQA:准备中
免责声明
本模型的作者在创建模型时已尽最大努力确保其内容、功能等的准确性,但不保证模型输出的准确性、安全性等,也不承担任何责任。即使因使用本模型给用户带来任何不便或损失,模型和数据集的作者及其所属组织也不承担任何责任。用户有义务明确模型和数据集的作者及其所属组织不承担责任。
📄 许可证
本模型采用CC - BY SA 4.0许可证。同时,请遵守Common Crawl的使用条款。
⚠️ 重要提示
本模型可能存在因训练数据内容偏差而导致的输出结果偏差问题,请仅将其用于不会造成危害的用途。
💡 使用建议
在使用模型前,建议先进行微调以适应具体任务。同时,关注模型输出结果的合理性,避免因潜在偏差导致的不良影响。