bert-base開源韓語預訓練模型 - 免費部署支持多種韓語理解任務

首頁

Bert Base

由klue開發

基於韓語預訓練的BERT模型，由KLUE基準開發團隊構建，支持多種韓語理解任務

大型語言模型

Transformers

韓語#韓語理解 #多任務評估 #語素分詞

下載量 129.68k

發布時間 : 3/2/2022

模型概述

該模型是基於Transformer架構的韓語預訓練語言模型，專為韓語自然語言處理任務設計，可用於主題分類、語義相似度計算、命名實體識別等

模型特點

韓語優化

專門針對韓語特性進行優化，採用基於語素的子詞分詞方法

多源數據訓練

整合五個公開韓語語料庫，覆蓋多樣化主題和文體

全面評估

在KLUE基準的多個任務上進行系統評估

模型能力

主題分類

語義文本相似度計算

自然語言推理

命名實體識別

關係抽取

依存解析

機器閱讀理解

對話狀態跟蹤

使用案例

文本分析

新聞分類

對韓語新聞文章進行自動分類

語義搜索

提高韓語搜索引擎的相關性

信息提取

實體識別

從韓語文本中提取人名、地名等實體

實體F1得分83.97

🚀 KLUE BERT基礎模型

KLUE BERT基礎模型是一個針對韓語進行預訓練的BERT模型。它在韓語語言理解評估（KLUE）基準的開發背景下誕生，可用於多種自然語言處理任務，如主題分類、語義文本相似度計算等。

🚀 快速開始

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

✨ 主要特性

多任務適用性：可用於主題分類、語義文本相似度、自然語言推理、命名實體識別等多種任務。
韓語優化：專門針對韓語進行預訓練，更適合韓語相關的自然語言處理任務。

📦 安裝指南

使用以下代碼加載模型和分詞器：

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

💻 使用示例

基礎用法

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

# 示例文本
text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)

高級用法

# 高級場景說明：在實際應用中，可以結合具體任務對模型輸出進行進一步處理，例如進行主題分類等。
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)

# 後續處理代碼可以根據具體任務添加

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	基於Transformer的語言模型
語言	韓語
許可證	cc-by-sa-4.0
父模型	有關BERT基礎模型的更多信息，請參閱 BERT基礎無大小寫模型
更多信息資源	- 研究論文 - GitHub倉庫

用途

直接使用

該模型可用於包括主題分類、語義文本相似度、自然語言推理、命名實體識別等任務，以及 KLUE基準中列出的其他任務。

誤用和超出範圍使用

該模型不應被用於故意為人們創造敵對或疏遠的環境。此外，該模型並非用於事實性或真實地呈現人物或事件，因此使用該模型生成此類內容超出了該模型的能力範圍。

風險、限制和偏差

大量研究已經探討了語言模型的偏差和公平性問題（例如，參見 Sheng等人 (2021) 和 Bender等人 (2021)）。模型開發者在論文中討論了與該模型相關的幾個倫理考慮因素，包括：

預訓練語料庫中使用的公開可用數據的偏差問題（以及與過濾相關的考慮）
預訓練語料庫中使用的數據中的個人身份信息（以及對數據進行匿名化的努力）

有關與KLUE基準相關的倫理考慮因素，另請參閱論文。

訓練

訓練數據

作者在相關論文中描述了用於該模型的以下預訓練語料庫：

我們從不同來源收集了以下五個公開可用的韓語語料庫，以涵蓋廣泛的主題和多種不同的風格。我們將這些語料庫組合起來，構建了最終大小約為62GB的預訓練語料庫。

MODU：Modu語料庫是由韓國國立國語院分發的韓語語料庫集合。它包括正式文章（新聞和書籍）和口語化文本（對話）。

CC-100-Kor：CC-100 是使用CC-Net (Wenzek等人, 2020) 進行大規模多語言網絡爬取的語料庫。這用於訓練XLM-R (Conneau等人, 2020)。我們使用該語料庫中的韓語部分。

NAMUWIKI：NAMUWIKI是一個基於網絡的韓語百科全書，類似於維基百科，但不太正式。具體來說，我們下載了2020年3月2日創建的轉儲文件。

NEWSCRAWL：NEWSCRAWL由2011年至2020年發佈的1280萬篇新聞文章組成，這些文章是從一個新聞聚合平臺收集的。

PETITION：Petition是向青瓦臺提交的關於社會問題行政行動的公共請願書集合。我們使用青瓦臺國民請願中 2017年8月至2019年3月發佈的文章。

作者還在相關論文中描述了與預訓練語料庫相關的倫理考慮因素。

訓練過程

預處理

作者在相關論文中描述了他們的預處理過程：

我們使用論文第2.3節中的相同方法過濾噪聲文本和非韓語文本。語料庫中的每個文檔都使用基於規則的韓語句子分割器 (KSS) 的C++實現（v1.3.1）分割成句子。對於CC-100-Kor和NEWSCRAWL，作為一種啟發式方法，我們保留長度大於等於200個字符的句子，以保留格式良好的句子。然後，我們使用BM25作為句子相似度度量（參考）移除包含在我們基準任務數據集中的句子。

分詞

作者在相關論文中描述了他們的分詞過程：

我們設計並使用了一種新的分詞方法，即基於詞素的子詞分詞。在構建詞彙表時，我們使用形態分析器將原始文本預分詞為詞素，然後應用字節對編碼（BPE）(Senrich等人, 2016) 以獲得最終的詞彙表。對於詞素分割，我們使用 Mecab-ko，即適用於韓語的MeCab (Kudo, 2006)，對於BPE分割，我們使用 Huggingface分詞器庫中的詞片分詞器。我們將詞彙表大小指定為32k。構建詞彙表後，我們在推理過程中僅使用BPE模型，這使我們能夠在不使用形態分析器的情況下通過反映詞素來對單詞序列進行分詞。這提高了可用性和速度。

訓練配置在論文中進一步描述。

評估

測試數據、因素和指標

該模型在 KLUE基準上進行了評估。下面簡要描述了用於評估該模型的KLUE基準中的任務和指標。有關KLUE基準的更多信息，請參閱數據卡片、Github倉庫和相關論文。

任務：主題分類（TC） - 韓聯社新聞機構主題分類（YNAT），指標：宏F1分數，定義為按主題的F1分數的平均值，對每個主題給予相同的重要性。
任務：語義文本相似度（STS），指標：皮爾遜相關係數（Pearson’ r）和F1分數
任務：自然語言推理（NLI），指標：準確率
任務：命名實體識別（NER），指標：實體級宏F1（實體F1）和字符級宏F1（字符F1）分數
任務：關係提取（RE），指標：關係存在情況下的微F1分數和所有類別的精確召回曲線下面積（AUPRC）
任務：依存句法分析（DP），指標：無標籤附著分數（UAS）和有標籤附著分數（LAS）
任務：機器閱讀理解（MRC），指標：精確匹配（EM）和字符級ROUGE-W（ROUGE），可以看作是基於最長公共連續子序列（LCCS）的F1分數。
任務：對話狀態跟蹤（DST），指標：聯合目標準確率（JGA）和槽微F1分數（槽F1）

結果

任務	TC	STS		NLI	NER		RE		DP		MRC		DST
指標	F1	皮爾遜相關係數	F1	準確率	實體F1	字符F1	F1	AUPRC	UAS	LAS	EM	ROUGE	JGA	槽F1
	85.73	90.85	82.84	81.63	83.97	91.39	66.44	66.17	89.96	88.05	62.32	68.51	46.64	91.61

環境影響

可以使用 Lacoste等人 (2019) 中提出的機器學習影響計算器來估算碳排放。我們根據相關論文介紹了硬件類型。

硬件類型：TPU v3-8
使用時長：未知
雲服務提供商：未知
計算區域：未知
碳排放：未知

技術規格

有關建模架構（BERT）、目標、計算基礎設施和訓練細節的詳細信息，請參閱相關論文。

引用信息

@misc{park2021klue,
      title={KLUE: Korean Language Understanding Evaluation},
      author={Sungjoon Park and Jihyung Moon and Sungdong Kim and Won Ik Cho and Jiyoon Han and Jangwon Park and Chisung Song and Junseong Kim and Yongsook Song and Taehwan Oh and Joohong Lee and Juhyun Oh and Sungwon Lyu and Younghoon Jeong and Inkwon Lee and Sangwoo Seo and Dongjun Lee and Hyunwoo Kim and Myeonghwa Lee and Seongbo Jang and Seungwon Do and Sunkyoung Kim and Kyungtae Lim and Jongwon Lee and Kyumin Park and Jamin Shin and Seonghyun Kim and Lucy Park and Alice Oh and Jungwoo Ha and Kyunghyun Cho},
      year={2021},
      eprint={2105.09680},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}