🚀 日語JLPT水平文本分類器
這是一個用於分配日語能力測試(JLPT)等級的文本分類器。該分類器在句子層面進行訓練,使用預訓練的[cl - tohoku - bert - japanese - v3](https://huggingface.co/cl - tohoku/bert - base - japanese - v3)模型,在從語言學習網站獲取的約5000個帶標籤句子上進行微調。
🚀 快速開始
此文本分類器可對句子的JLPT水平進行大致評估,雖然不夠精確,但能為判斷句子難度提供參考。
✨ 主要特性
- 基於預訓練的
cl - tohoku - bert - japanese - v3
模型進行微調,在句子層面進行訓練。
- 對與訓練數據分佈相同的數據表現良好,但在官方JLPT材料測試數據上表現欠佳。
📚 詳細文檔
訓練數據
使用從語言學習網站獲取的約5000個帶標籤句子對預訓練模型進行微調。
性能表現
precision recall f1 - score support
N5 0.88 0.88 0.88 25
N4 0.90 0.89 0.90 53
N3 0.78 0.90 0.84 62
N2 0.71 0.79 0.75 47
N1 0.95 0.77 0.85 73
accuracy 0.84 260
macro avg 0.84 0.84 0.84 260
weighted avg 0.85 0.84 0.84 260
precision recall f1 - score support
N5 0.62 0.66 0.64 145
N4 0.34 0.36 0.35 143
N3 0.33 0.67 0.45 197
N2 0.26 0.20 0.23 192
N1 0.59 0.08 0.15 202
accuracy 0.38 879
macro avg 0.43 0.39 0.36 879
weighted avg 0.42 0.38 0.34 879
📄 許可證
本項目採用CC(Creative Commons)許可證。
📚 引用信息
如果您使用了本項目的相關內容,請引用以下論文:
@inproceedings{benedetti - etal - 2024 - automatically,
title = "Automatically Suggesting Diverse Example Sentences for {L}2 {J}apanese Learners Using Pre - Trained Language Models",
author = "Benedetti, Enrico and
Aizawa, Akiko and
Boudin, Florian",
editor = "Fu, Xiyan and
Fleisig, Eve",
booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)",
month = aug,
year = "2024",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.acl - srw.11",
pages = "114--131"
}