FinBERT開源芬蘭語預訓練模型 - 免費助力各類芬蘭語NLP任務

首頁

Bert Base Finnish Uncased V1

由TurkuNLP開發

FinBERT是基於谷歌BERT架構的芬蘭語預訓練語言模型，在超過30億詞符的芬蘭語文本上訓練，適用於各種芬蘭語NLP任務。

大型語言模型其他#芬蘭語NLP #遷移學習優化 #新聞文本分析

下載量 1,964

發布時間 : 3/2/2022

模型概述

FinBERT是專門針對芬蘭語優化的BERT模型，通過微調可在文檔分類、命名實體識別和詞性標註等任務中達到最先進性能。

模型特點

專業芬蘭語詞彙表

自定義50,000詞片詞彙表，芬蘭語詞彙覆蓋遠超多語言BERT

大規模芬蘭語訓練

在30億詞符（240億字符）的芬蘭語文本上訓練，遠超維基百科數據量

多領域適用性

訓練數據包含新聞、在線討論和網絡爬取內容，適應多種文本類型

模型能力

芬蘭語文本理解

文檔分類

命名實體識別

詞性標註

遷移學習

使用案例

新聞分類

Yle新聞分類

對芬蘭廣播公司新聞文章進行分類

在不同訓練集規模下均優於多語言BERT

社交媒體分析

Ylilauta論壇分類

對芬蘭在線論壇內容進行分類

性能顯著優於基線模型

信息提取

命名實體識別

識別芬蘭語文本中的人名、地名等實體

在FiNER語料庫上達到92.40%準確率

🚀 芬蘭語BERT模型

這是一個針對芬蘭語的深度遷移學習模型，能在多種芬蘭語自然語言處理任務中取得優異成果

🚀 快速開始

1.0版本發佈（2019年11月25日）

可在此處下載模型：

區分大小寫的芬蘭語BERT基礎模型：bert-base-finnish-cased-v1.zip
不區分大小寫的芬蘭語BERT基礎模型：bert-base-finnish-uncased-v1.zip

我們通常建議使用區分大小寫的模型。

介紹芬蘭語BERT的論文：arXiv:1912.07076

✨ 主要特性

這是谷歌 BERT 模型的芬蘭語版本。該模型可以進行微調，從而在各種芬蘭語自然語言處理任務中達到最先進的效果。

FinBERT 採用了自定義的50,000詞片詞彙表，與谷歌之前發佈的多語言BERT 模型相比，對芬蘭語單詞的覆蓋度要好得多：

詞彙表	示例
FinBERT	Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri .
多語言BERT	Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i .

FinBERT 在來自新聞、在線討論和網絡爬蟲的超過30億個標記（240億個字符）的芬蘭語文本上進行了100萬步的預訓練。相比之下，多語言BERT是在維基百科文本上進行訓練的，其中芬蘭語維基百科文本約佔 FinBERT 訓練數據量的3%。

這些特性使得 FinBERT 在針對芬蘭語自然語言處理任務進行微調時，不僅能夠超越多語言BERT，還能超越之前提出的所有模型。

📚 詳細文檔

文檔分類

YLE和Ylilauta文檔分類的學習曲線

在 Yle 新聞（左）和 Ylilauta 在線討論（右）語料庫的一系列訓練集規模上，FinBERT 在文檔分類任務上的表現優於多語言BERT（M - BERT）。（包含使用 FastText 的基線分類性能以供參考。）

[代碼][Yle數據] [Ylilauta數據]

命名實體識別

在 FiNER 語料庫上的評估（Ruokolainen 等人，2019）

模型	準確率
FinBERT	92.40%
多語言BERT	90.29%
FiNER - 標記器（基於規則）	86.82%

（FiNER 標記器的結果來自 Ruokolainen 等人，2019）

[代碼][數據]

詞性標註

在三個標註了通用依存關係詞性標籤的芬蘭語語料庫上進行評估：圖爾庫依存樹庫（TDT）、芬蘭樹庫（FTB）和平行通用依存樹庫（PUD）

模型	TDT	FTB	PUD
FinBERT	98.23%	98.39%	98.08%
多語言BERT	96.97%	95.87%	97.58%

[代碼][數據]

💻 使用示例

與PyTorch一起使用

如果您想將該模型與 huggingface/transformers 庫一起使用，請遵循 huggingface_transformers.md 中的步驟。

📄 歷史版本

0.2版本

2019年10月24日 基於芬蘭語新聞、在線討論和爬蟲數據語料庫從頭開始訓練的不區分大小寫的BERT基礎模型的測試版。

可在此處下載模型：bert-base-finnish-uncased.zip

0.1版本

2019年9月30日 我們發佈了基於芬蘭語新聞、在線討論和爬蟲數據語料庫從頭開始訓練的區分大小寫的BERT基礎模型的測試版。

可在此處下載模型：bert-base-finnish-cased.zip

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫