🚀 ELECTRA小型日語生成器
這是一個在日語文本上進行預訓練的 ELECTRA 模型。該模型能為日語相關的自然語言處理任務提供強大的支持,助力文本挖掘等工作。
🚀 快速開始
本模型基於 ELECTRA 架構在日語語料上預訓練得到,若你想使用該模型,預訓練代碼可在 retarfi/language-pretraining 找到。
✨ 主要特性
- 架構標準:模型架構與 原始ELECTRA實現 中的 ELECTRA small 相同,具有 12 層,隱藏狀態維度為 256,注意力頭數量為 4。
- 訓練數據優質:模型在日語版維基百科上進行訓練。訓練語料來自 2021 年 6 月 1 日的維基百科轉儲文件,語料文件大小為 2.9GB,約包含 2000 萬個句子。
- 分詞方式有效:文本首先使用帶有 IPA 詞典的 MeCab 進行分詞,然後通過 WordPiece 算法拆分為子詞。詞彙量大小為 32768。
- 訓練配置合理:模型的訓練配置與 原始ELECTRA論文 中的 ELECTRA small 相同,每個實例 128 個標記,每批 128 個實例,訓練步數為 100 萬步。生成器的大小與判別器相同。
🔧 技術細節
模型架構
模型架構與 原始ELECTRA實現 中的 ELECTRA small 一致,具備 12 層結構,隱藏狀態維度達到 256,同時擁有 4 個注意力頭,這種架構設計為模型在日語處理任務中提供了強大的能力。
訓練數據
訓練數據來源於日語版維基百科。具體而言,使用的是 2021 年 6 月 1 日的維基百科轉儲文件生成訓練語料。語料文件大小為 2.9GB,其中大約包含 2000 萬個句子,豐富的語料為模型的訓練提供了充足的數據支持。
分詞
文本的分詞處理分為兩步。首先,使用帶有 IPA 詞典的 MeCab 對文本進行分詞,初步將文本拆分為有意義的單元。然後,通過 WordPiece 算法將這些單元進一步拆分為子詞,最終形成的詞彙量大小為 32768,這種分詞方式有助於模型更好地處理日語中的複雜詞彙和語法。
訓練
模型的訓練配置與 原始ELECTRA論文 中的 ELECTRA small 基本相同。每個實例包含 128 個標記,每批有 128 個實例,總共進行 100 萬步的訓練。並且,生成器的大小與判別器相同,這樣的配置保證了模型訓練的穩定性和有效性。
📄 許可證
預訓練模型根據 知識共享署名 - 相同方式共享 4.0 許可條款進行分發。
📚 詳細文檔
引用
@article{Suzuki-etal-2023-ipm,
title = {Constructing and analyzing domain-specific language model for financial text mining},
author = {Masahiro Suzuki and Hiroki Sakaji and Masanori Hirano and Kiyoshi Izumi},
journal = {Information Processing & Management},
volume = {60},
number = {2},
pages = {103194},
year = {2023},
doi = {10.1016/j.ipm.2022.103194}
}
致謝
本工作得到了日本學術振興會(JSPS)科研費資助(項目編號 JP21K12010)。
信息表格
屬性 |
詳情 |
模型類型 |
ELECTRA小型日語生成器 |
訓練數據 |
日語版維基百科,使用 2021 年 6 月 1 日的維基百科轉儲文件生成,語料文件 2.9GB,約 2000 萬個句子 |
分詞方式 |
先使用帶有 IPA 詞典的 MeCab 分詞,再通過 WordPiece 算法拆分為子詞,詞彙量 32768 |
訓練配置 |
每個實例 128 個標記,每批 128 個實例,訓練步數 100 萬步,生成器大小與判別器相同 |
許可證 |
知識共享署名 - 相同方式共享 4.0 |