cl-tohoku-bert-base-japanese-v3-jlpt開源分類器 - 精準劃分日語N1-N5句子難度

首頁

Cl Tohoku Bert Base Japanese V3 Jlpt Classifier

由bennexx開發

基於cl-tohoku-bert-japanese-v3微調的日語JLPT等級分類器，在句子級別上劃分N1-N5難度

文本分類

Transformers

日語開源協議:CC #日語能力測試分級 #BERT微調模型 #句子級別分類

下載量 36

發布時間 : 1/19/2024

模型概述

該模型用於自動判斷日語文本的JLPT考試等級（N1-N5），適用於語言學習輔助工具開發

模型特點

精準分級

在N1-N5五個等級上實現84%的整體準確率

專業適配

專門針對JLPT考試標準優化的分類模型

輕量部署

基於中等規模的BERT模型，平衡性能與資源需求

模型能力

日語文本分析

語言難度評估

教育內容分級

使用案例

語言教育

學習材料分級

自動標註學習資料的JLPT難度等級

幫助學習者選擇適合當前水平的材料

自適應測試

根據用戶水平動態調整測試題目難度

N1-N5各等級F1值0.75-0.90

內容平臺

閱讀推薦系統

根據用戶語言水平推薦合適難度的文章

N3等級召回率達90%

🚀 日語JLPT水平文本分類器

這是一個用於分配日語能力測試（JLPT）等級的文本分類器。該分類器在句子層面進行訓練，使用預訓練的[cl - tohoku - bert - japanese - v3](https://huggingface.co/cl - tohoku/bert - base - japanese - v3)模型，在從語言學習網站獲取的約5000個帶標籤句子上進行微調。

🚀 快速開始

此文本分類器可對句子的JLPT水平進行大致評估，雖然不夠精確，但能為判斷句子難度提供參考。

✨ 主要特性

基於預訓練的cl - tohoku - bert - japanese - v3模型進行微調，在句子層面進行訓練。
對與訓練數據分佈相同的數據表現良好，但在官方JLPT材料測試數據上表現欠佳。

📚 詳細文檔

訓練數據

使用從語言學習網站獲取的約5000個帶標籤句子對預訓練模型進行微調。

性能表現

同分布數據：

              precision    recall  f1 - score   support
          N5       0.88      0.88      0.88        25
          N4       0.90      0.89      0.90        53
          N3       0.78      0.90      0.84        62
          N2       0.71      0.79      0.75        47
          N1       0.95      0.77      0.85        73
    accuracy                           0.84       260
   macro avg       0.84      0.84      0.84       260
weighted avg       0.85      0.84      0.84       260

官方JLPT材料測試數據：

              precision    recall  f1 - score   support
          N5       0.62      0.66      0.64       145
          N4       0.34      0.36      0.35       143
          N3       0.33      0.67      0.45       197
          N2       0.26      0.20      0.23       192
          N1       0.59      0.08      0.15       202
    accuracy                           0.38       879
   macro avg       0.43      0.39      0.36       879
weighted avg       0.42      0.38      0.34       879

📄 許可證

本項目採用CC（Creative Commons）許可證。

📚 引用信息

如果您使用了本項目的相關內容，請引用以下論文：

@inproceedings{benedetti - etal - 2024 - automatically,
    title = "Automatically Suggesting Diverse Example Sentences for {L}2 {J}apanese Learners Using Pre - Trained Language Models",
    author = "Benedetti, Enrico  and
      Aizawa, Akiko  and
      Boudin, Florian",
    editor = "Fu, Xiyan  and
      Fleisig, Eve",
    booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)",
    month = aug,
    year = "2024",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.acl - srw.11",
    pages = "114--131"
}