bart-ko-baseオープンソースモデル - さまざまな韓国語自然言語処理タスクに適し、無料で使いやすい！

Bart Ko Base

cosmoquesterによって開発

多源韓国語データセットに基づいて事前学習されたBARTモデルで、様々な韓国語自然言語処理タスクに適用可能です。

ダウンロード数 50

リリース時間 : 3/2/2022

モデル概要

このモデルは複数の韓国語データセットを統合して事前学習され、口語と書き言葉のテキストに対する汎化能力が向上し、テキスト生成やテキスト補完などのタスクをサポートします。

多源データ訓練

韓国国立国語院コーパス、AIhubプラットフォーム、世宗コーパスなどの複数の韓国語データセットを統合して訓練します。

口語と書き言葉の両立

口語会話と書き言葉のテキストを含む多様な訓練データを使用することで、モデルの異なる文体に対する性能が向上します。

TPU訓練の最適化

Google TPU研究クラウドプロジェクトによるコンピューティングパワーのサポートを受け、訓練効率が高いです。

テキスト生成

テキスト補完

自然言語推論

テキスト分類

意味的類似度計算

憎悪発言検出

テキスト生成

会話生成

自然で流暢な韓国語会話を生成します。

チャットボットなどのアプリケーションに使用できます。

テキスト理解

感情分析

韓国語テキストの感情傾向を分析します。

NSMCテストセットで88.77%の正解率を達成しました。

意味的類似度計算

2つの韓国語テキストの意味的類似度を計算します。

KLUE意味的類似度開発セットでF1値が76.54%です。

コンテンツ審査

憎悪発言検出

韓国語テキスト内の憎悪発言や偏見的な内容を識別します。

偏見識別の正解率は82.80%、憎悪発言の正解率は56.69%です。

データセット	KLUE NLI dev	NSMC test	QuestionPair test	KLUE TC dev	KLUE TC dev	KLUE STS dev	KLUE STS dev	KLUE STS dev	KorSTS dev	KorSTS dev	KorSTS dev	HateSpeech dev	HateSpeech dev
評価指標	Acc	Acc	Acc	Acc	F1	F1	Pearson	Spearman	F1	Pearson	Spearman	Bias Acc	Hate Acc
スコア	0.7390	0.8877	0.9208	0.8667	0.8637	0.7654	0.8090	0.8040	0.8067	0.7909	0.7784	0.8280	0.5669