t5-base-japanese-webオープンソースモデル - バイトバックアウトをサポートし、日本語のウェブテキスト処理に使用

ホーム

T5 Base Japanese Web

megagonlabsによって開発

日本語ウェブテキストで事前学習されたT5モデル、バイトフォールバック対応、32K語彙規模

大規模言語モデル

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語テキスト変換 #32K大語彙表 #ウェブテキスト事前学習

ダウンロード数 4,917

リリース時間 : 3/2/2022

モデル概要

これは日本語テキストに最適化されたT5（テキストからテキストへの変換Transformer）モデルで、日本語ウェブテキストの様々なNLPタスク処理に特化しています。

モデル特徴

大語彙表対応

32K語彙規模を採用し、日本語テキストをより適切に処理可能

バイトフォールバック機能

バイトフォールバックをサポートし、未知語彙への対応力を強化

大規模事前学習

mC4日本語部分と日本語ウィキペディアを使用した事前学習で、広範なウェブテキストをカバー

TPU最適化トレーニング

TPU v3-8で効率的にトレーニングされ、約126時間で100万ステップのトレーニングを完了

モデル能力

日本語テキスト理解

日本語テキスト生成

テキスト変換タスク

言語モデルのファインチューニング

使用事例

自然言語処理

日本語テキスト要約

日本語記事の自動要約

日本語質問応答システム

日本語知識質問応答システムの構築

日本語テキスト分類

日本語テキストの多クラス分類

🚀 t5-base-japanese-web (with Byte-fallback, 32K)

megagonlabs/t5-base-japanese-web は、日本語のウェブテキストで事前学習されたT5（Text-to-Text Transfer Transformer）モデルです。トレーニングコードは GitHubで入手可能です。

🚀 クイックスタート

megagonlabs/t5-base-japanese-web は、日本語のウェブテキストを使って事前学習されたT5モデルです。トレーニングコードは GitHub で公開されています。このモデルの語彙サイズは32Kで、8Kバージョンも利用可能です。

✨ 主な機能

このモデルは、日本語のウェブテキストで事前学習されています。
語彙サイズは32Kで、8Kバージョンも利用可能です。

📚 ドキュメント

コーパス

事前学習には以下のコーパスを使用しました。

mC4/3.0.1 の日本語部分（Tensorflow native format を使用）
- 87,425,304ページ
- TFRecord形式で782GB
wiki40b/1.3.0 の日本語部分
- 828,236記事（2,073,584例）
- TFRecord形式で2GB

トークナイザー

SentencePiece を日本語のウィキペディアで学習させて使用しました。

語彙サイズ: 32,000
Byte-fallback: 有効

パラメータ

T5モデル: models/t5.1.1.base.gin
トレーニングステップ: 1,000,000 TPU v3 - 8を使用して約126時間かかりました。

📄 ライセンス

Apache License 2.0

引用

mC4

mC4 の情報を含み、これは ODC Attribution License の下で利用可能です。

@article{2019t5,
    author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
    title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
    journal = {arXiv e-prints},
    year = {2019},
    archivePrefix = {arXiv},
    eprint = {1910.10683},
}

wiki40b

@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}