🚀 LINE DistilBERT 日语模型
LINE DistilBERT 日语模型是在 131GB 日语网络文本上预训练的 DistilBERT 模型。其教师模型是 LINE 内部构建的 BERT-base 模型,由 LINE 株式会社 训练。该模型可用于日语相关的自然语言处理任务,为日语文本处理提供了高效且强大的解决方案。
🚀 快速开始
你可以参考以下代码示例来使用该模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("line-corporation/line-distilbert-base-japanese", trust_remote_code=True)
model = AutoModel.from_pretrained("line-corporation/line-distilbert-base-japanese")
sentence = "LINE株式会社で[MASK]の研究・開発をしている。"
print(model(**tokenizer(sentence, return_tensors="pt")))
🔧 依赖要求
运行上述代码需要安装以下依赖:
fugashi
sentencepiece
unidic-lite
✨ 主要特性
- 预训练数据丰富:基于 131GB 日语网络文本进行预训练,能更好地适应日语的语言特点和表达方式。
- 模型架构合理:采用 DistilBERT 基础模型架构,具有 6 层、768 维的隐藏状态、12 个注意力头和 6600 万个参数,在性能和效率之间取得了良好的平衡。
📦 安装指南
安装依赖库,使用以下命令:
pip install fugashi sentencepiece unidic-lite
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("line-corporation/line-distilbert-base-japanese", trust_remote_code=True)
model = AutoModel.from_pretrained("line-corporation/line-distilbert-base-japanese")
sentence = "LINE株式会社で[MASK]の研究・開発をしている。"
print(model(**tokenizer(sentence, return_tensors="pt")))
📚 详细文档
日语详细文档请参考:https://github.com/line/LINE-DistilBERT-Japanese/blob/main/README_ja.md
🔧 技术细节
模型架构
模型架构为 DistilBERT 基础模型,包含 6 层、768 维的隐藏状态、12 个注意力头,共有 6600 万个参数。
分词方法
文本首先使用带有 Unidic 词典的 MeCab 进行分词,然后通过 SentencePiece 算法将其拆分为子词,词汇量大小为 32768。
评估结果
通过 JGLUE 进行的评估结果如下:
模型名称 |
参数数量 |
Marc_ja(准确率) |
JNLI(准确率) |
JSTS(皮尔逊/斯皮尔曼系数) |
JSQuAD(EM/F1) |
JCommonSenseQA(准确率) |
LINE-DistilBERT |
68M |
95.6 |
88.9 |
89.2/85.1 |
87.3/93.3 |
76.1 |
Laboro-DistilBERT |
68M |
94.7 |
82.0 |
87.4/82.7 |
70.2/87.3 |
73.2 |
BandaiNamco-DistilBERT |
68M |
94.6 |
81.6 |
86.8/82.1 |
80.0/88.0 |
66.5 |
📄 许可证
预训练模型根据 Apache 许可证 2.0 版 进行分发。
引用方式
如果你使用了该模型,请引用以下 GitHub 仓库:
@article{LINE DistilBERT Japanese,
title = {LINE DistilBERT Japanese},
author = {"Koga, Kobayashi and Li, Shengzhe and Nakamachi, Akifumi and Sato, Toshinori"},
year = {2023},
howpublished = {\url{http://github.com/line/LINE-DistilBERT-Japanese}}
}