byt5-Korean-baseオープンソースモデル - 韓国語用に最適化され、韓国語の音節を処理する性能に優れています。

ホーム

Byt5 Korean Base

everdoublingによって開発

ByT5-韓国語はGoogleのByT5の韓国語カスタマイズ拡張版で、特に韓国語の音節エンコーディング処理を最適化しています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #韓国語専用エンコーディング #音節レベル処理 #多言語混合トレーニング

ダウンロード数 55

リリース時間 : 3/27/2022

モデル概要

このモデルはByT5アーキテクチャに基づく韓国語自然言語処理モデルで、改良されたutf-8エンコーディングスキームにより韓国語の音節をより適切に処理し、韓国語と英語のテキスト処理をサポートします。

モデル特徴

最適化された韓国語エンコーディングスキーム

韓国語の音節専用に設計されたエンコーディングスキームで、各文字（初声、中声、終声）を個別のトークンとして表現し、処理効率を向上させます。

多言語サポート

韓国語（70%）と英語（30%）の混合データセットでプレトレーニングされており、バイリンガル処理をサポートします。

ByT5アーキテクチャベース

ByT5モデルの利点を継承し、バイトレベルエンコーディングを使用しており、様々な言語タスクに適しています。

モデル能力

韓国語テキスト生成

英語テキスト生成

多言語テキスト処理

使用事例

コンテンツ生成

韓国語Wikipediaコンテンツ補完

韓国語Wikipediaの欠落コンテンツを自動補完

例では'설립되었다'などの韓国語コンテンツが正常に補完されました

テキスト補完

韓国語文章補完

文脈に基づいて韓国語の文章を自動補完

🚀 ByT5-Korean - base

ByT5-Koreanは、GoogleのByT5を韓国語用に拡張したモデルです。韓国語の音節は、子音（초성）、母音（중성）、末尾の子音（종성）の3つの要素（자모）で構成されており、アルファベットのような個別の文字として扱われます。ByT5のUTF-8エンコーディングは複数言語に対応していますが、韓国語の場合、各자모のビット表現を途中で分割するため不自然です。ByT5-Koreanは、韓国語の音節に特別な配慮を払ってByT5のUTF-8エンコーディングを拡張しており、各자모は追加のトークンで表されます。ByT5-Koreanは、70%が韓国語、30%が英語のmC4で事前学習されています。

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で提供されています。

📦 データセット

🔧 技術詳細

エンコーディング方式

id: token
0: <pad>
1: <eos>
2: <unk>
3~258: utf-8 encoding
259~277: beginning consonants(초성), 19개(ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ)
278~298: middle vowel(중성), 21개(ㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ)
299~326: final consonant(종성), 무종성+27개(ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ)
327~384: from <extra_id_0> to <extra_id_57>

💻 使用例

基本的な使用法

import torch
from tokenizer import ByT5KoreanTokenizer # https://huggingface.co/everdoubling/byt5-Korean-base/blob/main/tokenizer.py
from transformers import T5ForConditionalGeneration

tokenizer_jamo = ByT5KoreanTokenizer()
model = T5ForConditionalGeneration.from_pretrained('everdoubling/byt5-Korean-base')

input_sentence = '한국어 위키백과(영어: Korean Wikipedia)는 한국어로 운영되는 위키백과의 다언어판 가운데 하나로서, 2002년 10월 11일에 <extra_id_0>. 또한 현재 한국어 위키백과에는 넘겨주기, 토론, 그림 등 페이지로 불리는 모든 문서를 포함하면 총 2,629,860개가 <extra_id_1>되어 있으며, 넘겨주기를 포함한 일반 문서 수는 1,278,560개,[1] 그중 넘겨주기, 막다른 문서를 제외한 일반 문서 수는 573,149개이다.'

input_ids_jamo = tokenizer_jamo(input_sentence).input_ids
outputs_jamo = model_jamo.generate(torch.tensor([input_ids_jamo]))
print(tokenizer_jamo.decode(outputs_jamo[0]))
# <pad><extra_id_0>설립되었다<extra_id_1>đě