Kobart Base V2

K

Kobart Base V2

由gogamza開發

KoBART是基於BART架構的韓語編碼器-解碼器語言模型，通過文本填充噪聲函數訓練，支持韓語文本特徵提取和生成任務。

大型語言模型

韓語開源協議:MIT #韓語文本生成 #自編碼語言模型 #文本填充去噪

下載量 5,937

發布時間 : 3/2/2022

模型概述

韓語BART模型，採用自編碼器形式訓練，適用於韓語文本的特徵提取和生成任務。

模型特點

韓語優化

專門針對韓語訓練，包含韓語維基和其他多種韓語語料

表情符號支持

詞彙表中特別添加了高頻使用的表情符號，提升表情符號識別能力

高效分詞

採用字符級BPE分詞器進行訓練，分詞效率高

模型能力

韓語文本特徵提取

韓語文本生成

文本填充

文本摘要

使用案例

文本處理

情感分析

用於韓語文本的情感分類

在NSMC數據集上達到90.24%的準確率

文本相似度計算

計算韓語句子間的語義相似度

在KorSTS數據集上斯皮爾曼係數達到81.66

問句配對

判斷兩個韓語問句是否語義相同

準確率達到94.34%

🚀 kobart-base-v2 模型卡片

kobart-base-v2 是基於 BART 架構的韓語 encoder-decoder 語言模型，通過對大量韓語文本進行訓練，可用於特徵提取等任務。

🚀 快速開始

使用以下代碼開始使用該模型：

點擊展開

from transformers import PreTrainedTokenizerFast, BartModel

tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')

✨ 主要特性

基於 BART 架構：BART（Bidirectional and Auto-Regressive Transformers）以 autoencoder 的形式進行訓練，通過向輸入文本的一部分添加噪聲並將其恢復為原文。
韓語訓練：使用 Text Infilling 噪聲函數，在超過 40GB 的韓語文本上進行訓練。
擴展詞彙：vocab 大小為 30,000，添加了常用的表情符號和 emoticon，提高了對這些標記的識別能力。

📦 安裝指南

文檔未提及具體安裝步驟，可參考模型的 GitHub 倉庫獲取相關信息。

💻 使用示例

基礎用法

from transformers import PreTrainedTokenizerFast, BartModel

tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')

📚 詳細文檔

模型詳情

開發者：待補充更多信息
共享者：Heewon(Haven) Jeon
模型類型：特徵提取
語言：韓語
許可證：MIT
父模型：BART
更多信息資源：
- GitHub 倉庫
- 模型演示空間

使用場景

直接使用

該模型可用於特徵提取任務。

下游使用

待補充更多信息。

超出範圍使用

該模型不應被用於故意為人們創造敵對或排斥的環境。

偏差、風險和侷限性

大量研究探討了語言模型的偏差和公平性問題（例如，Sheng et al. (2021) 和 Bender et al. (2021)）。模型生成的預測可能包含對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。

建議

用戶（直接用戶和下游用戶）應瞭解模型的風險、偏差和侷限性。待補充更多建議信息。

訓練詳情

訓練數據

數據	句子數量
韓語維基百科	500 萬
其他語料庫	2.7 億

除韓語維基百科外，新聞、書籍、 모두의 말뭉치 v1.0（對話、新聞等）、青瓦臺國民請願等各種數據也用於模型訓練。

訓練過程

分詞器

使用 tokenizers 包中的 Character BPE tokenizer 進行訓練。

速度、大小、時間

模型	參數數量	類型	層數	頭數	ffn_dim	隱藏維度
`KoBART-base`	1.24 億	編碼器	6	16	3072	768
		解碼器	6	16	3072	768

評估

測試數據、因素和指標

待補充更多信息。

結果

NSMC

準確率：0.901

模型作者還在 GitHub 倉庫中指出：

	NSMC（準確率）	KorSTS（斯皮爾曼相關係數）	Question Pair（準確率）
KoBART-base	90.24	81.66	94.34

模型檢查

待補充更多信息。

環境影響

可以使用 Lacoste et al. (2019) 中提出的機器學習影響計算器來估算碳排放。

硬件類型：待補充更多信息
使用時長：待補充更多信息
雲服務提供商：待補充更多信息
計算區域：待補充更多信息
碳排放：待補充更多信息

技術規格（可選）

模型架構和目標

待補充更多信息。

計算基礎設施

硬件

待補充更多信息。

軟件

待補充更多信息。

引用

BibTeX

待補充更多信息。

術語表（可選）

待補充更多信息。

更多信息（可選）

待補充更多信息。

模型卡片作者（可選）

Heewon(Haven) Jeon 與 Ezi Ozoani 和 Hugging Face 團隊合作。

模型卡片聯繫方式

模型作者在 GitHub 倉庫中指出：KoBART 相關問題請提交到這裡。

📄 許可證

該模型採用 MIT 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase