NorBERT 3開源挪威語預訓練模型 - 免費支持多種自然語言處理任務

首頁

Norbert2

由ltg開發

NorBERT 3是挪威語預訓練語言模型系列，基於大規模挪威語語料庫訓練，支持多種自然語言處理任務。

大型語言模型

Transformers

其他#挪威語文本填充 #全詞掩碼技術 #超大規模語料訓練

下載量 741

發布時間 : 3/2/2022

模型概述

NorBERT 3是基於BERT架構的挪威語預訓練語言模型，專為挪威語自然語言處理任務設計，適用於文本分類、命名實體識別、問答系統等場景。

模型特點

大規模語料訓練

基於超大規模挪威語語料庫訓練（C4 + NCC，約150億詞元）

全詞掩碼技術

採用全詞掩碼技術，提升模型對挪威語的理解能力

多版本選擇

提供從超輕量版到增強版的不同參數規模模型，滿足不同計算需求

模型能力

文本理解

文本生成

填充掩碼

命名實體識別

文本分類

使用案例

文本處理

文本補全

自動補全挪威語句子中的缺失部分

示例輸入：'Nå ønsker de seg en [MASK] bolig.' 可預測出合適的詞語如'ny'（新）

文本分類

對挪威語文本進行分類

信息提取

命名實體識別

從挪威語文本中識別出人名、地名等實體

🚀 NorBERT - 挪威語BERT模型

NorBERT是一個基於BERT架構的挪威語語言模型，在大規模挪威語語料庫上進行訓練，具有50000詞的詞彙表，採用全詞掩碼（Whole Word Masking）方法進行訓練。該模型可用於多種自然語言處理任務，如掩碼填充等。

🚀 快速開始

版本信息

2.0版本（2022年2月7日）

同時，建議查看我們更新的模型：NorBERT 3系列，其採用了更優的架構進行訓練。

訓練信息

該模型在非常龐大的挪威語語料庫（C4 + NCC，約150億個詞元）上進行訓練，擁有50000詞的詞彙表，並使用全詞掩碼（Whole Word Masking）方法進行訓練。

模型下載

可在此處下載模型：

大小寫敏感的挪威語BERT基礎版2.0（NorBERT 2）：221.zip

關聯代碼

關聯代碼倉庫：https://github.com/ltgoslo/NorBERT

項目背景

NorBERT是NorLM項目的一部分，NorLM是EOSC-Nordic（歐洲開放科學雲）項目的聯合倡議，由奧斯陸大學的語言技術小組（LTG）協調。

計算資源

計算工作在UNINETT Sigma2提供的資源上進行，UNINETT Sigma2是挪威的高性能計算和數據存儲國家基礎設施。

✨ NorBERT - 3

2023年，我們發佈了適用於挪威語的全新NorBERT - 3系列語言模型。總體而言，我們現在推薦使用這些模型：

NorBERT 3 xs（1500萬個參數）
NorBERT 3 small（4000萬個參數）
NorBERT 3 base（1.23億個參數）
NorBERT 3 large（3.23億個參數）

NorBERT - 3的詳細信息可參考此論文： NorBench – A Benchmark for Norwegian Language Models（Samuel等人，NoDaLiDa 2023）

📄 許可證

本項目採用CC - BY - 4.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫