bert-small-kor-v1開源韓語基礎模型 - 用海量語料數據精準賦能韓語應用

首頁

Bert Small Kor V1

由bongsoo開發

基於Bert架構的韓語基礎模型，使用AI Hub網絡語料庫的韓語文本數據（約5200萬文本）進行訓練

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #韓語掩碼預測 #小規模BERT #韓語NSP-MLM

下載量 41

發布時間 : 12/28/2022

模型概述

這是一個基於Bert架構的韓語基礎模型，主要用於填充掩碼任務，支持韓語和英語。

模型特點

韓語優化

使用AI Hub網絡語料庫的韓語文本數據（約5200萬文本）進行訓練，專門針對韓語優化

Bert架構

基於Bert-base架構，具有強大的語言理解能力

多任務訓練

同時進行NSP（下一句預測）和MLM（掩碼語言建模）訓練

模型能力

填充掩碼

韓語文本理解

英語文本理解

使用案例

文本補全

首都名稱預測

預測句子中缺失的國家首都名稱

示例輸入：'韓國首都是[MASK]'，預測結果：'日本'

歷史人物識別

識別句子中缺失的歷史人物信息

示例輸入：'忠武公李舜臣是[MASK]時代最傑出的將領'，預測結果：''（未提供有效預測）

🚀 bert-base-kor-v1

bert-base-kor-v1 是一個基於Bert-base架構的韓語模型，它基於ai_hub的網絡數據韓語語料庫進行訓練，可用於掩碼填充等自然語言處理任務。

🚀 快速開始

安裝

本模型基於HuggingFace Transformers庫，你可以使用以下命令安裝依賴庫：

pip install transformers torch

✨ 主要特性

基於Bert-base架構，在韓語語料上從頭開始訓練。
使用 ai_hub 웹데이터 기반 한국어 말뭉치 데이터（約52M文本）進行NSP和MLM訓練。
詞彙表包含10,022個詞元，使用BertTokenizer。

📦 安裝指南

使用HuggingFace Transformers庫加載模型和分詞器：

from transformers import AutoTokenizer, BertForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('bongsoo/bert-small-kor-v1', do_lower_case=False)
model = BertForMaskedLM.from_pretrained('bongsoo/bert-small-kor-v1')

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModel, BertForMaskedLM
import torch
import torch.nn.functional as F
tokenizer = AutoTokenizer.from_pretrained('bongsoo/bert-small-kor-v1', do_lower_case=False)
model = BertForMaskedLM.from_pretrained('bongsoo/bert-small-kor-v1')
text = ['한국 수도는 [MASK] 이다', '프랑스 수도는 [MASK]이다', '충무공 이순신은 [MASK]에 최고의 장수였다']
tokenized_input = tokenizer(text, max_length=128, truncation=True, padding='max_length', return_tensors='pt')
outputs = model(**tokenized_input)
logits = outputs.logits
mask_idx_list = []
for tokens in tokenized_input['input_ids'].tolist():
    token_str = [tokenizer.convert_ids_to_tokens(s) for s in tokens]
    
    # **위 token_str리스트에서 [MASK] 인덱스를 구함
    # => **해당 [MASK] 안덱스 값 mask_idx 에서는 아래 출력하는데 사용됨
    mask_idx = token_str.index('[MASK]')
    mask_idx_list.append(mask_idx)
    
for idx, mask_idx in enumerate(mask_idx_list):
    
    logits_pred=torch.argmax(F.softmax(logits[idx]), dim=1)
    mask_logits_idx = int(logits_pred[mask_idx])
    # [MASK]에 해당하는 token 구함
    mask_logits_token = tokenizer.convert_ids_to_tokens(mask_logits_idx)
    # 결과 출력 
    print('\n')
    print('*Input: {}'.format(text[idx]))
    print('*[MASK] : {} ({})'.format(mask_logits_token, mask_logits_idx))

輸出示例

*Input: 한국 수도는 [MASK] 이다
*[MASK] : 일본 (2128)

*Input: 프랑스 수도는 [MASK]이다
*[MASK] : ' (10)

*Input: 충무공 이순신은 [MASK]에 최고의 장수였다
*[MASK] : ' (10)

🔧 技術細節

訓練信息

屬性	詳情
模型類型	Bert-base
訓練數據	ai_hub 웹데이터 기반 한국어 말뭉치 데이터（約52M文本）
超參數	lr = 1e-4, weigth_decay=0.0, batch_size = 256, token_max_len = 160, epoch = 8, do_lower_case=True
詞彙表大小	10,022個（BertTokenizer）
訓練時間	171h/1GPU（24GB/18.5GB use）
訓練代碼	點擊查看

模型配置

{
  "architectures": [
    "BertForPreTraining"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 512,
  "initializer_range": 0.02,
  "intermediate_size": 2048,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 8,
  "num_hidden_layers": 4,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "torch_dtype": "float32",
  "transformers_version": "4.21.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 10022
}