FinBERTオープンソースフィンランド語自然言語処理モデル - フィンランド語用に最適化され、マルチ言語BERTを上回る性能

Bert Base Finnish Cased V1

Developed by TurkuNLP

FinBERTはグーグルのBERTモデルのフィンランド語版で、フィンランド語の自然言語処理タスクに特化して最適化されています。大規模なフィンランド語コーパスで訓練され、複数のタスクで多言語BERTを上回る性能を発揮します。

Downloads 10.30k

Release Time : 3/2/2022

Model Overview

BERTアーキテクチャに基づくフィンランド語の事前学習言語モデルで、微調整により様々なフィンランド語NLPタスクに適用できます。カスタマイズされた語彙表を使用して、より広範なフィンランド語の語彙をカバーし、ニュースやフォーラムなどの多様なコーパスで訓練されています。

Model Features

カスタマイズされた語彙表

50,000個のフィンランド語最適化された語彙断片を含み、多言語BERTに比べて語彙カバレッジが大幅に向上しています。

大規模事前学習

30億のフィンランド語トークン（240億文字）を使用して訓練され、データ量はフィンランド語ウィキペディアの30倍です。

ドメイン適応性

訓練データにはニュース、オンラインディスカッション、ウェブクローリングデータが含まれ、多様なアプリケーションシーンに対応しています。

Model Capabilities

テキスト分類

固有表現認識

品詞タグ付け

意味理解

Use Cases

ニュース分析

ニューストピック分類

Yleニュースを自動分類します。

様々な規模の訓練データで多言語BERTを上回っています。

ソーシャルメディア分析

フォーラム内容分類

Ylilautaのオンラインディスカッション内容を分類します。

FastTextベースラインモデルよりも精度が大幅に高いです。

情報抽出

固有表現認識

テキストからフィンランド語の人名、地名などの固有表現を識別します。

FiNERコーパスで92.4%の精度を達成しました。

🚀 フィンランド語BERTモデル

これはGoogle BERTに基づく深度転移学習モデルのフィンランド語版で、様々なフィンランド語の自然言語処理タスクに対して微調整することで、最先端の結果を達成することができます。

🚀 クイックスタート

バージョン1.0リリース (2019年11月25日)

通常は、大文字小文字を区別するモデルの使用をおすすめします。

フィンランド語BERTを紹介する論文：arXiv:1912.07076

✨ 主な機能

これはGoogleのBERT深度転移学習モデルのフィンランド語版です。このモデルは、様々なフィンランド語の自然言語処理タスクで最先端の結果を得るために微調整することができます。

FinBERTは、カスタムの50,000語片語彙を持ち、Googleが以前に公開した多言語BERTモデルと比較して、フィンランド語の単語のカバレッジがはるかに良いです：

語彙表	例
FinBERT	Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri .
多言語BERT	Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i .

FinBERTは、ニュース、オンラインディスカッション、ウェブクロールから収集された30億を超えるフィンランド語のテキストトークン（240億文字）で100万ステップの事前学習を行っています。これに対し、多言語BERTはウィキペディアのテキストで学習されており、フィンランド語のウィキペディアテキストはFinBERTの学習に使用されたテキスト量の約3%です。

これらの特性により、FinBERTはフィンランド語の自然言語処理タスクに対して微調整する際に、多言語BERTだけでなく、これまでに提案されたすべてのモデルを上回ることができます。

📚 ドキュメント

文書分類

YLEとYlilautaの文書分類の学習曲線

YLEニュース（左）とYlilautaオンラインディスカッション（右）のコーパスで、一連のトレーニングセットサイズにおいて、FinBERTは文書分類タスクで多言語BERT（M - BERT）を上回っています。（FastTextを使用したベースライン分類性能も参考として含まれています。）

[コード][YLEデータ] [Ylilautaデータ]

固有表現認識

FiNERコーパスでの評価（Ruokolainen et al. 2019）

モデル	正解率
FinBERT	92.40%
多言語BERT	90.29%
FiNER - タガー（ルールベース）	86.82%

（FiNERタガーの結果はRuokolainen et al. 2019から取得）

[コード][データ]

品詞タグ付け

Universal Dependenciesの品詞タグでラベル付けされた3つのフィンランド語コーパスで評価：Turku Dependency Treebank（TDT）、Finnish Treebank（FTB）、Parallel Universal Dependency Treebank（PUD）