模型概述
模型特點
模型能力
使用案例
🚀 KLUE BERT基礎模型
KLUE BERT基礎模型是一個針對韓語進行預訓練的BERT模型。它在韓語語言理解評估(KLUE)基準的開發背景下誕生,可用於多種自然語言處理任務,如主題分類、語義文本相似度計算等。
🚀 快速開始
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
✨ 主要特性
- 多任務適用性:可用於主題分類、語義文本相似度、自然語言推理、命名實體識別等多種任務。
- 韓語優化:專門針對韓語進行預訓練,更適合韓語相關的自然語言處理任務。
📦 安裝指南
使用以下代碼加載模型和分詞器:
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
💻 使用示例
基礎用法
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
# 示例文本
text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
高級用法
# 高級場景說明:在實際應用中,可以結合具體任務對模型輸出進行進一步處理,例如進行主題分類等。
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
# 後續處理代碼可以根據具體任務添加
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 基於Transformer的語言模型 |
語言 | 韓語 |
許可證 | cc-by-sa-4.0 |
父模型 | 有關BERT基礎模型的更多信息,請參閱 BERT基礎無大小寫模型 |
更多信息資源 | - 研究論文 - GitHub倉庫 |
用途
直接使用
該模型可用於包括主題分類、語義文本相似度、自然語言推理、命名實體識別等任務,以及 KLUE基準 中列出的其他任務。
誤用和超出範圍使用
該模型不應被用於故意為人們創造敵對或疏遠的環境。此外,該模型並非用於事實性或真實地呈現人物或事件,因此使用該模型生成此類內容超出了該模型的能力範圍。
風險、限制和偏差
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 Sheng等人 (2021) 和 Bender等人 (2021))。模型開發者在 論文 中討論了與該模型相關的幾個倫理考慮因素,包括:
- 預訓練語料庫中使用的公開可用數據的偏差問題(以及與過濾相關的考慮)
- 預訓練語料庫中使用的數據中的個人身份信息(以及對數據進行匿名化的努力)
有關與KLUE基準相關的倫理考慮因素,另請參閱 論文。
訓練
訓練數據
作者在 相關論文 中描述了用於該模型的以下預訓練語料庫:
我們從不同來源收集了以下五個公開可用的韓語語料庫,以涵蓋廣泛的主題和多種不同的風格。我們將這些語料庫組合起來,構建了最終大小約為62GB的預訓練語料庫。
- MODU:Modu語料庫 是由 韓國國立國語院 分發的韓語語料庫集合。它包括正式文章(新聞和書籍)和口語化文本(對話)。
- CC-100-Kor:CC-100 是使用CC-Net (Wenzek等人, 2020) 進行大規模多語言網絡爬取的語料庫。這用於訓練XLM-R (Conneau等人, 2020)。我們使用該語料庫中的韓語部分。
- NAMUWIKI:NAMUWIKI是一個基於網絡的韓語百科全書,類似於維基百科,但不太正式。具體來說,我們下載了2020年3月2日創建的 轉儲文件。
- NEWSCRAWL:NEWSCRAWL由2011年至2020年發佈的1280萬篇新聞文章組成,這些文章是從一個新聞聚合平臺收集的。
- PETITION:Petition是向青瓦臺提交的關於社會問題行政行動的公共請願書集合。我們使用 青瓦臺國民請願 中 2017年8月至2019年3月 發佈的文章。
作者還在 相關論文 中描述了與預訓練語料庫相關的倫理考慮因素。
訓練過程
預處理
作者在 相關論文 中描述了他們的預處理過程:
我們使用論文第2.3節中的相同方法過濾噪聲文本和非韓語文本。語料庫中的每個文檔都使用基於規則的 韓語句子分割器 (KSS) 的C++實現(v1.3.1)分割成句子。對於CC-100-Kor和NEWSCRAWL,作為一種啟發式方法,我們保留長度大於等於200個字符的句子,以保留格式良好的句子。然後,我們使用BM25作為句子相似度度量(參考)移除包含在我們基準任務數據集中的句子。
分詞
作者在 相關論文 中描述了他們的分詞過程:
我們設計並使用了一種新的分詞方法,即基於詞素的子詞分詞。在構建詞彙表時,我們使用形態分析器將原始文本預分詞為詞素,然後應用字節對編碼(BPE)(Senrich等人, 2016) 以獲得最終的詞彙表。對於詞素分割,我們使用 Mecab-ko,即適用於韓語的MeCab (Kudo, 2006),對於BPE分割,我們使用 Huggingface分詞器庫 中的詞片分詞器。我們將詞彙表大小指定為32k。構建詞彙表後,我們在推理過程中僅使用BPE模型,這使我們能夠在不使用形態分析器的情況下通過反映詞素來對單詞序列進行分詞。這提高了可用性和速度。
訓練配置在 論文 中進一步描述。
評估
測試數據、因素和指標
該模型在 KLUE基準 上進行了評估。下面簡要描述了用於評估該模型的KLUE基準中的任務和指標。有關KLUE基準的更多信息,請參閱 數據卡片、Github倉庫 和 相關論文。
- 任務:主題分類(TC) - 韓聯社新聞機構主題分類(YNAT),指標:宏F1分數,定義為按主題的F1分數的平均值,對每個主題給予相同的重要性。
- 任務:語義文本相似度(STS),指標:皮爾遜相關係數(Pearson’ r)和F1分數
- 任務:自然語言推理(NLI),指標:準確率
- 任務:命名實體識別(NER),指標:實體級宏F1(實體F1)和字符級宏F1(字符F1)分數
- 任務:關係提取(RE),指標:關係存在情況下的微F1分數和所有類別的精確召回曲線下面積(AUPRC)
- 任務:依存句法分析(DP),指標:無標籤附著分數(UAS)和有標籤附著分數(LAS)
- 任務:機器閱讀理解(MRC),指標:精確匹配(EM)和字符級ROUGE-W(ROUGE),可以看作是基於最長公共連續子序列(LCCS)的F1分數。
- 任務:對話狀態跟蹤(DST),指標:聯合目標準確率(JGA)和槽微F1分數(槽F1)
結果
任務 | TC | STS | NLI | NER | RE | DP | MRC | DST | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
指標 | F1 | 皮爾遜相關係數 | F1 | 準確率 | 實體F1 | 字符F1 | F1 | AUPRC | UAS | LAS | EM | ROUGE | JGA | 槽F1 |
85.73 | 90.85 | 82.84 | 81.63 | 83.97 | 91.39 | 66.44 | 66.17 | 89.96 | 88.05 | 62.32 | 68.51 | 46.64 | 91.61 |
環境影響
可以使用 Lacoste等人 (2019) 中提出的 機器學習影響計算器 來估算碳排放。我們根據 相關論文 介紹了硬件類型。
- 硬件類型:TPU v3-8
- 使用時長:未知
- 雲服務提供商:未知
- 計算區域:未知
- 碳排放:未知
技術規格
有關建模架構(BERT)、目標、計算基礎設施和訓練細節的詳細信息,請參閱 相關論文。
引用信息
@misc{park2021klue,
title={KLUE: Korean Language Understanding Evaluation},
author={Sungjoon Park and Jihyung Moon and Sungdong Kim and Won Ik Cho and Jiyoon Han and Jangwon Park and Chisung Song and Junseong Kim and Yongsook Song and Taehwan Oh and Joohong Lee and Juhyun Oh and Sungwon Lyu and Younghoon Jeong and Inkwon Lee and Sangwoo Seo and Dongjun Lee and Hyunwoo Kim and Myeonghwa Lee and Seongbo Jang and Seungwon Do and Sunkyoung Kim and Kyungtae Lim and Jongwon Lee and Kyumin Park and Jamin Shin and Seonghyun Kim and Lucy Park and Alice Oh and Jungwoo Ha and Kyunghyun Cho},
year={2021},
eprint={2105.09680},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本模型使用cc-by-sa-4.0許可證。



