bert-base-japaneseオープンソースモデル - 無料で日本語自然言語処理のさまざまなタスクをサポート

ホーム

Bert Base Japanese

tohoku-nlpによって開発

日本語ウィキペディアテキストで事前学習されたBERTモデルで、IPA辞書を使用した単語レベルの分かち書き処理を行い、日本語自然言語処理タスクに適しています。

大規模言語モデル日本語#日本語テキスト理解 #IPA辞書による分かち書き #ウィキペディア事前学習

ダウンロード数 153.44k

リリース時間 : 3/2/2022

モデル概要

これは日本語テキストで事前学習されたBERTモデルで、IPA辞書を使用した単語レベルの分かち書き処理を行い、その後WordPieceサブワード分割を行います。様々な日本語自然言語理解タスクに適しています。

モデル特徴

日本語専用分かち書き処理

MeCab形態素解析器とIPA辞書を使用した日本語専用の分かち書きを行い、日本語テキストの効率的な処理を保証します

大規模事前学習

2.6GBの日本語ウィキペディアコーパスで学習されており、約1700万文を含みます

標準BERTアーキテクチャ

オリジナルBERTと同じアーキテクチャと学習パラメータを採用し、互換性と信頼性を保証します

モデル能力

日本語テキスト理解

日本語テキスト分類

日本語質問応答システム

日本語固有表現認識

日本語意味的類似度計算

使用事例

テキスト分析

日本語感情分析

日本語テキストの感情傾向を分析

日本語テキスト分類

日本語文書を分類

情報抽出

日本語固有表現認識

日本語テキストから人名、地名などのエンティティを抽出

🚀 BERT base Japanese (IPA dictionary)

このモデルは、日本語のテキストで事前学習されたBERTモデルです。このバージョンのモデルは、IPA辞書に基づく単語レベルのトークン化を行った後、WordPieceサブワードトークン化を使用して入力テキストを処理します。事前学習のコードはcl-tohoku/bert-japaneseで公開されています。

🚀 クイックスタート

このモデルは日本語のテキストに対して事前学習されており、特定のタスクに微調整することができます。事前学習のコードは上記のリンクから入手できます。

✨ 主な機能

日本語テキストに対する事前学習済みのBERTモデルです。
IPA辞書に基づく単語レベルのトークン化とWordPieceサブワードトークン化を組み合わせた入力処理。

📚 ドキュメント

モデルアーキテクチャ

モデルアーキテクチャは、元のBERT baseモデルと同じです。12層、隠れ状態の次元数は768、アテンションヘッドは12個です。

トレーニングデータ

このモデルは、2019年9月1日時点の日本語版Wikipediaを使用してトレーニングされています。トレーニングコーパスの生成には、WikiExtractorを用いてWikipedia記事のダンプファイルから平文を抽出しました。トレーニングに使用されたテキストファイルのサイズは2.6GBで、約1700万文から構成されています。