byt5-Korean-base開源模型 - 專為韓語優化，處理韓語音節性能出色

首頁

Byt5 Korean Base

由everdoubling開發

ByT5-韓語是谷歌ByT5的韓語定製擴展版本，特別優化了韓語音節的編碼處理。

大型語言模型

Transformers

開源協議:Apache-2.0 #韓語專用編碼 #音節級處理 #多語言混合訓練

下載量 55

發布時間 : 3/27/2022

模型概述

該模型是基於ByT5架構的韓語自然語言處理模型，通過改進的utf-8編碼方案更好地處理韓語音節，支持韓語和英語文本處理。

模型特點

優化的韓語編碼方案

專門為韓語音節設計編碼方案，將每個字母（起始輔音、中間元音和結尾輔音）表示為單獨標記，提高處理效率。

多語言支持

在韓語（70%）和英語（30%）混合數據集上預訓練，支持雙語處理。

基於ByT5架構

繼承ByT5模型的優勢，使用字節級編碼，適用於多種語言任務。

模型能力

韓語文本生成

英語文本生成

多語言文本處理

使用案例

內容生成

韓語維基百科內容補全

自動補全韓語維基百科中的缺失內容

示例中成功補全了'설립되었다'等韓語內容

文本補全

韓語句子補全

根據上下文自動補全韓語句子

🚀 ByT5-Korean - base

ByT5-Korean是谷歌ByT5的韓語特定擴展版本。韓語的音節由三個部分（稱為“字母”）組成：開頭的輔音、中間的元音和可選的結尾輔音，它們就像字母表中的單個字符。雖然ByT5的UTF - 8編碼允許對多種語言進行通用編碼，但對於韓語來說並不自然，因為它會將每個字母的比特表示從中截斷。

ByT5-Korean對ByT5的UTF - 8編碼進行了擴展，特別考慮了韓語的音節，每個字母都用一個額外的標記來表示。ByT5-Korean在mC4數據集上進行了預訓練，該數據集包含70%的韓語和30%的英語。

🚀 快速開始

ByT5-Korean是谷歌ByT5模型針對韓語的特定擴展，它優化了韓語編碼方式，在特定數據集上預訓練，能更好地處理韓語相關任務。

✨ 主要特性

ByT5-Korean對ByT5的UTF - 8編碼進行擴展，特別處理韓語音節，每個字母用額外標記表示。
在包含70%韓語和30%英語的mC4數據集上進行預訓練。

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

💻 使用示例

基礎用法

import torch
from tokenizer import ByT5KoreanTokenizer # https://huggingface.co/everdoubling/byt5-Korean-base/blob/main/tokenizer.py
from transformers import T5ForConditionalGeneration

tokenizer_jamo = ByT5KoreanTokenizer()
model = T5ForConditionalGeneration.from_pretrained('everdoubling/byt5-Korean-base')

input_sentence = '한국어 위키백과(영어: Korean Wikipedia)는 한국어로 운영되는 위키백과의 다언어판 가운데 하나로서, 2002년 10월 11일에 <extra_id_0>. 또한 현재 한국어 위키백과에는 넘겨주기, 토론, 그림 등 페이지로 불리는 모든 문서를 포함하면 총 2,629,860개가 <extra_id_1>되어 있으며, 넘겨주기를 포함한 일반 문서 수는 1,278,560개,[1] 그중 넘겨주기, 막다른 문서를 제외한 일반 문서 수는 573,149개이다.'

input_ids_jamo = tokenizer_jamo(input_sentence).input_ids
outputs_jamo = model_jamo.generate(torch.tensor([input_ids_jamo]))
print(tokenizer_jamo.decode(outputs_jamo[0]))
# <pad><extra_id_0>설립되었다<extra_id_1>đě

高級用法

文檔未提供高級用法示例，暫不展示。

📚 詳細文檔

編碼方案

id: token
0: <pad>
1: <eos>
2: <unk>
3~258: utf-8 encoding
259~277: beginning consonants(초성), 19개(ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ)
278~298: middle vowel(중성), 21개(ㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ)
299~326: final consonant(종성), 무종성+27개(ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ)
327~384: from <extra_id_0> to <extra_id_57>