🚀 ELECTRA小型日语生成器
这是一个在日语文本上进行预训练的 ELECTRA 模型。该模型能为日语相关的自然语言处理任务提供强大的支持,助力文本挖掘等工作。
🚀 快速开始
本模型基于 ELECTRA 架构在日语语料上预训练得到,若你想使用该模型,预训练代码可在 retarfi/language-pretraining 找到。
✨ 主要特性
- 架构标准:模型架构与 原始ELECTRA实现 中的 ELECTRA small 相同,具有 12 层,隐藏状态维度为 256,注意力头数量为 4。
- 训练数据优质:模型在日语版维基百科上进行训练。训练语料来自 2021 年 6 月 1 日的维基百科转储文件,语料文件大小为 2.9GB,约包含 2000 万个句子。
- 分词方式有效:文本首先使用带有 IPA 词典的 MeCab 进行分词,然后通过 WordPiece 算法拆分为子词。词汇量大小为 32768。
- 训练配置合理:模型的训练配置与 原始ELECTRA论文 中的 ELECTRA small 相同,每个实例 128 个标记,每批 128 个实例,训练步数为 100 万步。生成器的大小与判别器相同。
🔧 技术细节
模型架构
模型架构与 原始ELECTRA实现 中的 ELECTRA small 一致,具备 12 层结构,隐藏状态维度达到 256,同时拥有 4 个注意力头,这种架构设计为模型在日语处理任务中提供了强大的能力。
训练数据
训练数据来源于日语版维基百科。具体而言,使用的是 2021 年 6 月 1 日的维基百科转储文件生成训练语料。语料文件大小为 2.9GB,其中大约包含 2000 万个句子,丰富的语料为模型的训练提供了充足的数据支持。
分词
文本的分词处理分为两步。首先,使用带有 IPA 词典的 MeCab 对文本进行分词,初步将文本拆分为有意义的单元。然后,通过 WordPiece 算法将这些单元进一步拆分为子词,最终形成的词汇量大小为 32768,这种分词方式有助于模型更好地处理日语中的复杂词汇和语法。
训练
模型的训练配置与 原始ELECTRA论文 中的 ELECTRA small 基本相同。每个实例包含 128 个标记,每批有 128 个实例,总共进行 100 万步的训练。并且,生成器的大小与判别器相同,这样的配置保证了模型训练的稳定性和有效性。
📄 许可证
预训练模型根据 知识共享署名 - 相同方式共享 4.0 许可条款进行分发。
📚 详细文档
引用
@article{Suzuki-etal-2023-ipm,
title = {Constructing and analyzing domain-specific language model for financial text mining},
author = {Masahiro Suzuki and Hiroki Sakaji and Masanori Hirano and Kiyoshi Izumi},
journal = {Information Processing & Management},
volume = {60},
number = {2},
pages = {103194},
year = {2023},
doi = {10.1016/j.ipm.2022.103194}
}
致谢
本工作得到了日本学术振兴会(JSPS)科研费资助(项目编号 JP21K12010)。
信息表格
属性 |
详情 |
模型类型 |
ELECTRA小型日语生成器 |
训练数据 |
日语版维基百科,使用 2021 年 6 月 1 日的维基百科转储文件生成,语料文件 2.9GB,约 2000 万个句子 |
分词方式 |
先使用带有 IPA 词典的 MeCab 分词,再通过 WordPiece 算法拆分为子词,词汇量 32768 |
训练配置 |
每个实例 128 个标记,每批 128 个实例,训练步数 100 万步,生成器大小与判别器相同 |
许可证 |
知识共享署名 - 相同方式共享 4.0 |