🚀 日语JLPT水平文本分类器
这是一个用于分配日语能力测试(JLPT)等级的文本分类器。该分类器在句子层面进行训练,使用预训练的[cl - tohoku - bert - japanese - v3](https://huggingface.co/cl - tohoku/bert - base - japanese - v3)模型,在从语言学习网站获取的约5000个带标签句子上进行微调。
🚀 快速开始
此文本分类器可对句子的JLPT水平进行大致评估,虽然不够精确,但能为判断句子难度提供参考。
✨ 主要特性
- 基于预训练的
cl - tohoku - bert - japanese - v3
模型进行微调,在句子层面进行训练。
- 对与训练数据分布相同的数据表现良好,但在官方JLPT材料测试数据上表现欠佳。
📚 详细文档
训练数据
使用从语言学习网站获取的约5000个带标签句子对预训练模型进行微调。
性能表现
precision recall f1 - score support
N5 0.88 0.88 0.88 25
N4 0.90 0.89 0.90 53
N3 0.78 0.90 0.84 62
N2 0.71 0.79 0.75 47
N1 0.95 0.77 0.85 73
accuracy 0.84 260
macro avg 0.84 0.84 0.84 260
weighted avg 0.85 0.84 0.84 260
precision recall f1 - score support
N5 0.62 0.66 0.64 145
N4 0.34 0.36 0.35 143
N3 0.33 0.67 0.45 197
N2 0.26 0.20 0.23 192
N1 0.59 0.08 0.15 202
accuracy 0.38 879
macro avg 0.43 0.39 0.36 879
weighted avg 0.42 0.38 0.34 879
📄 许可证
本项目采用CC(Creative Commons)许可证。
📚 引用信息
如果您使用了本项目的相关内容,请引用以下论文:
@inproceedings{benedetti - etal - 2024 - automatically,
title = "Automatically Suggesting Diverse Example Sentences for {L}2 {J}apanese Learners Using Pre - Trained Language Models",
author = "Benedetti, Enrico and
Aizawa, Akiko and
Boudin, Florian",
editor = "Fu, Xiyan and
Fleisig, Eve",
booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)",
month = aug,
year = "2024",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.acl - srw.11",
pages = "114--131"
}