Bert Base Finnish Cased V1
FinBERTはグーグルのBERTモデルのフィンランド語版で、フィンランド語の自然言語処理タスクに特化して最適化されています。大規模なフィンランド語コーパスで訓練され、複数のタスクで多言語BERTを上回る性能を発揮します。
Downloads 10.30k
Release Time : 3/2/2022
Model Overview
BERTアーキテクチャに基づくフィンランド語の事前学習言語モデルで、微調整により様々なフィンランド語NLPタスクに適用できます。カスタマイズされた語彙表を使用して、より広範なフィンランド語の語彙をカバーし、ニュースやフォーラムなどの多様なコーパスで訓練されています。
Model Features
カスタマイズされた語彙表
50,000個のフィンランド語最適化された語彙断片を含み、多言語BERTに比べて語彙カバレッジが大幅に向上しています。
大規模事前学習
30億のフィンランド語トークン(240億文字)を使用して訓練され、データ量はフィンランド語ウィキペディアの30倍です。
ドメイン適応性
訓練データにはニュース、オンラインディスカッション、ウェブクローリングデータが含まれ、多様なアプリケーションシーンに対応しています。
Model Capabilities
テキスト分類
固有表現認識
品詞タグ付け
意味理解
Use Cases
ニュース分析
ニューストピック分類
Yleニュースを自動分類します。
様々な規模の訓練データで多言語BERTを上回っています。
ソーシャルメディア分析
フォーラム内容分類
Ylilautaのオンラインディスカッション内容を分類します。
FastTextベースラインモデルよりも精度が大幅に高いです。
情報抽出
固有表現認識
テキストからフィンランド語の人名、地名などの固有表現を識別します。
FiNERコーパスで92.4%の精度を達成しました。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98