cl-tohoku-bert-base-japanese-v3-jlpt开源分类器 - 精准划分日语N1-N5句子难度

首页

Cl Tohoku Bert Base Japanese V3 Jlpt Classifier

由 bennexx 开发

基于cl-tohoku-bert-japanese-v3微调的日语JLPT等级分类器，在句子级别上划分N1-N5难度

文本分类

Transformers

日语开源协议:CC #日语能力测试分级 #BERT微调模型 #句子级别分类

下载量 36

发布时间 : 1/19/2024

模型简介

该模型用于自动判断日语文本的JLPT考试等级（N1-N5），适用于语言学习辅助工具开发

模型特点

精准分级

在N1-N5五个等级上实现84%的整体准确率

专业适配

专门针对JLPT考试标准优化的分类模型

轻量部署

基于中等规模的BERT模型，平衡性能与资源需求

模型能力

日语文本分析

语言难度评估

教育内容分级

使用案例

语言教育

学习材料分级

自动标注学习资料的JLPT难度等级

帮助学习者选择适合当前水平的材料

自适应测试

根据用户水平动态调整测试题目难度

N1-N5各等级F1值0.75-0.90

内容平台

阅读推荐系统

根据用户语言水平推荐合适难度的文章

N3等级召回率达90%

🚀 日语JLPT水平文本分类器

这是一个用于分配日语能力测试（JLPT）等级的文本分类器。该分类器在句子层面进行训练，使用预训练的[cl - tohoku - bert - japanese - v3](https://huggingface.co/cl - tohoku/bert - base - japanese - v3)模型，在从语言学习网站获取的约5000个带标签句子上进行微调。

🚀 快速开始

此文本分类器可对句子的JLPT水平进行大致评估，虽然不够精确，但能为判断句子难度提供参考。

✨ 主要特性

基于预训练的cl - tohoku - bert - japanese - v3模型进行微调，在句子层面进行训练。
对与训练数据分布相同的数据表现良好，但在官方JLPT材料测试数据上表现欠佳。

📚 详细文档

训练数据

使用从语言学习网站获取的约5000个带标签句子对预训练模型进行微调。

性能表现

同分布数据：

              precision    recall  f1 - score   support
          N5       0.88      0.88      0.88        25
          N4       0.90      0.89      0.90        53
          N3       0.78      0.90      0.84        62
          N2       0.71      0.79      0.75        47
          N1       0.95      0.77      0.85        73
    accuracy                           0.84       260
   macro avg       0.84      0.84      0.84       260
weighted avg       0.85      0.84      0.84       260

官方JLPT材料测试数据：

              precision    recall  f1 - score   support
          N5       0.62      0.66      0.64       145
          N4       0.34      0.36      0.35       143
          N3       0.33      0.67      0.45       197
          N2       0.26      0.20      0.23       192
          N1       0.59      0.08      0.15       202
    accuracy                           0.38       879
   macro avg       0.43      0.39      0.36       879
weighted avg       0.42      0.38      0.34       879

📄 许可证

本项目采用CC（Creative Commons）许可证。

📚 引用信息

如果您使用了本项目的相关内容，请引用以下论文：

@inproceedings{benedetti - etal - 2024 - automatically,
    title = "Automatically Suggesting Diverse Example Sentences for {L}2 {J}apanese Learners Using Pre - Trained Language Models",
    author = "Benedetti, Enrico  and
      Aizawa, Akiko  and
      Boudin, Florian",
    editor = "Fu, Xiyan  and
      Fleisig, Eve",
    booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)",
    month = aug,
    year = "2024",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.acl - srw.11",
    pages = "114--131"
}