bert-base-swedish-cased-ner開源瑞典語模型 - 基於多源文本訓練的實用工具

首頁

Bert Base Swedish Cased Ner

由KB開發

瑞典國家圖書館/KBLab發佈的瑞典語BERT基礎模型，基於多源文本訓練

大型語言模型其他#瑞典語預訓練 #命名實體識別 #多源數據訓練

下載量 20.77k

發布時間 : 6/7/2022

模型概述

基於BERT架構的瑞典語預訓練語言模型，訓練數據涵蓋書籍、新聞、政府出版物等多種文本類型

模型特點

多源訓練數據

訓練數據來自書籍、新聞、政府出版物、維基百科和網絡論壇，具有廣泛代表性

全詞掩碼訓練

採用全詞掩碼(Whole Word Masking)技術進行預訓練

區分大小寫

模型保留原始文本的大小寫信息

模型能力

文本表示學習

命名實體識別

語言理解

使用案例

信息提取

命名實體識別

識別文本中的人名、地名、組織名等實體

在SUC 3.0數據集上微調的模型可識別5類實體

文本分析

語義理解

用於構建更高級的瑞典語NLP應用

🚀 瑞典語BERT模型

瑞典國家圖書館 / KBLab發佈了三個基於BERT和ALBERT的預訓練語言模型。這些模型在約15 - 20GB的文本（2億個句子，300億個標記）上進行訓練，文本來自各種來源（書籍、新聞、政府出版物、瑞典語維基百科和互聯網論壇），旨在為瑞典語文本提供具有代表性的BERT模型。更完整的描述將在後續發佈。

目前有以下三個模型可供使用：

bert-base-swedish-cased (v1) - 一個使用與谷歌首次發佈時相同超參數訓練的BERT模型。
bert-base-swedish-cased-ner (實驗性) - 一個使用SUC 3.0數據集針對命名實體識別（NER）進行微調的BERT模型。
albert-base-swedish-cased-alpha (alpha) - 首次為瑞典語嘗試的ALBERT模型。

所有模型都區分大小寫，並使用全詞掩碼進行訓練。

📦 文件信息

名稱	文件
bert-base-swedish-cased	配置文件，詞彙表，PyTorch模型二進制文件
bert-base-swedish-cased-ner	配置文件，詞彙表，PyTorch模型二進制文件
albert-base-swedish-cased-alpha	配置文件，SentencePiece模型，PyTorch模型二進制文件

TensorFlow模型權重將很快發佈。

🚀 快速開始

📋 使用要求/安裝說明

以下示例需要Huggingface Transformers 2.4.1和Pytorch 1.3.1或更高版本。對於Transformers < 2.4.0，必須手動實例化分詞器，並將do_lower_case標誌參數設置為False，將keep_accents設置為True（對於ALBERT）。

要創建一個可以運行示例的環境，請在你選擇的操作系統的終端中運行以下命令：

# git clone https://github.com/Kungbib/swedish-bert-models
# cd swedish-bert-models
# python3 -m venv venv
# source venv/bin/activate
# pip install --upgrade pip
# pip install -r requirements.txt

💻 使用示例

基礎用法

瑞典語基礎BERT模型

這是一個在多種來源數據上訓練的標準瑞典語BERT基礎模型，詞彙量約為5萬。使用Huggingface Transformers，可以在Python中按如下方式加載該模型：

from transformers import AutoModel,AutoTokenizer

tok = AutoTokenizer.from_pretrained('KB/bert-base-swedish-cased')
model = AutoModel.from_pretrained('KB/bert-base-swedish-cased')

針對瑞典語命名實體識別微調的BERT基礎模型

該模型在SUC 3.0數據集上進行了微調。使用Huggingface管道可以輕鬆實例化該模型。對於Transformer < 2.4.1，似乎必須單獨加載分詞器以禁用輸入字符串的小寫轉換：

from transformers import pipeline

nlp = pipeline('ner', model='KB/bert-base-swedish-cased-ner', tokenizer='KB/bert-base-swedish-cased-ner')

nlp('Idag släpper KB tre språkmodeller.')

運行上述Python代碼應該會產生類似以下的結果。使用的實體類型有：TME表示時間，PRS表示個人姓名，LOC表示地點，EVN表示事件，ORG表示組織。這些標籤可能會發生變化。

[ { 'word': 'Idag', 'score': 0.9998126029968262, 'entity': 'TME' },
  { 'word': 'KB',   'score': 0.9814832210540771, 'entity': 'ORG' } ]

BERT分詞器通常會將單詞拆分為多個標記，子部分以##開頭。例如，字符串Engelbert kör Volvo till Herrängens fotbollsklubb會被分詞為Engel ##bert kör Volvo till Herr ##ängens fotbolls ##klubb。要將這些部分重新組合起來，可以使用如下代碼：

text = 'Engelbert tar Volvon till Tele2 Arena för att titta på Djurgården IF ' +\
       'som spelar fotboll i VM klockan två på kvällen.'

l = []
for token in nlp(text):
    if token['word'].startswith('##'):
        l[-1]['word'] += token['word'][2:]
    else:
        l += [ token ]

print(l)

運行上述代碼應該會產生以下結果（格式可能不太整齊）：

[ { 'word': 'Engelbert',     'score': 0.99..., 'entity': 'PRS'},
  { 'word': 'Volvon',        'score': 0.99..., 'entity': 'OBJ'},
  { 'word': 'Tele2',         'score': 0.99..., 'entity': 'LOC'},
  { 'word': 'Arena',         'score': 0.99..., 'entity': 'LOC'},
  { 'word': 'Djurgården',    'score': 0.99..., 'entity': 'ORG'},
  { 'word': 'IF',            'score': 0.99..., 'entity': 'ORG'},
  { 'word': 'VM',            'score': 0.99..., 'entity': 'EVN'},
  { 'word': 'klockan',       'score': 0.99..., 'entity': 'TME'},
  { 'word': 'två',           'score': 0.99..., 'entity': 'TME'},
  { 'word': 'på',            'score': 0.99..., 'entity': 'TME'},
  { 'word': 'kvällen',       'score': 0.54..., 'entity': 'TME'} ]

ALBERT基礎模型

同樣，使用Huggingface Transformers加載ALBERT基礎模型是最簡單的方式：

from transformers import AutoModel,AutoTokenizer

tok = AutoTokenizer.from_pretrained('KB/albert-base-swedish-cased-alpha'),
model = AutoModel.from_pretrained('KB/albert-base-swedish-cased-alpha')