B

Bert Base Finnish Cased V1

Developed by TurkuNLP
FinBERTはグーグルのBERTモデルのフィンランド語版で、フィンランド語の自然言語処理タスクに特化して最適化されています。大規模なフィンランド語コーパスで訓練され、複数のタスクで多言語BERTを上回る性能を発揮します。
Downloads 10.30k
Release Time : 3/2/2022

Model Overview

BERTアーキテクチャに基づくフィンランド語の事前学習言語モデルで、微調整により様々なフィンランド語NLPタスクに適用できます。カスタマイズされた語彙表を使用して、より広範なフィンランド語の語彙をカバーし、ニュースやフォーラムなどの多様なコーパスで訓練されています。

Model Features

カスタマイズされた語彙表
50,000個のフィンランド語最適化された語彙断片を含み、多言語BERTに比べて語彙カバレッジが大幅に向上しています。
大規模事前学習
30億のフィンランド語トークン(240億文字)を使用して訓練され、データ量はフィンランド語ウィキペディアの30倍です。
ドメイン適応性
訓練データにはニュース、オンラインディスカッション、ウェブクローリングデータが含まれ、多様なアプリケーションシーンに対応しています。

Model Capabilities

テキスト分類
固有表現認識
品詞タグ付け
意味理解

Use Cases

ニュース分析
ニューストピック分類
Yleニュースを自動分類します。
様々な規模の訓練データで多言語BERTを上回っています。
ソーシャルメディア分析
フォーラム内容分類
Ylilautaのオンラインディスカッション内容を分類します。
FastTextベースラインモデルよりも精度が大幅に高いです。
情報抽出
固有表現認識
テキストからフィンランド語の人名、地名などの固有表現を識別します。
FiNERコーパスで92.4%の精度を達成しました。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase