🚀 kobart-base-v2 模型卡片
kobart-base-v2
是基於 BART 架構的韓語 encoder-decoder
語言模型,通過對大量韓語文本進行訓練,可用於特徵提取等任務。
🚀 快速開始
使用以下代碼開始使用該模型:
點擊展開
from transformers import PreTrainedTokenizerFast, BartModel
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')
✨ 主要特性
- 基於 BART 架構:BART(Bidirectional and Auto-Regressive Transformers)以
autoencoder
的形式進行訓練,通過向輸入文本的一部分添加噪聲並將其恢復為原文。
- 韓語訓練:使用
Text Infilling
噪聲函數,在超過 40GB 的韓語文本上進行訓練。
- 擴展詞彙:
vocab
大小為 30,000,添加了常用的表情符號和 emoticon,提高了對這些標記的識別能力。
📦 安裝指南
文檔未提及具體安裝步驟,可參考模型的 GitHub 倉庫 獲取相關信息。
💻 使用示例
基礎用法
from transformers import PreTrainedTokenizerFast, BartModel
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')
📚 詳細文檔
模型詳情
- 開發者:待補充更多信息
- 共享者:Heewon(Haven) Jeon
- 模型類型:特徵提取
- 語言:韓語
- 許可證:MIT
- 父模型:BART
- 更多信息資源:
使用場景
直接使用
該模型可用於特徵提取任務。
下游使用
待補充更多信息。
超出範圍使用
該模型不應被用於故意為人們創造敵對或排斥的環境。
偏差、風險和侷限性
大量研究探討了語言模型的偏差和公平性問題(例如,Sheng et al. (2021) 和 Bender et al. (2021))。模型生成的預測可能包含對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(直接用戶和下游用戶)應瞭解模型的風險、偏差和侷限性。待補充更多建議信息。
訓練詳情
訓練數據
數據 |
句子數量 |
韓語維基百科 |
500 萬 |
其他語料庫 |
2.7 億 |
除韓語維基百科外,新聞、書籍、 모두의 말뭉치 v1.0(對話、新聞等)、 青瓦臺國民請願 等各種數據也用於模型訓練。
訓練過程
分詞器
使用 tokenizers
包中的 Character BPE tokenizer
進行訓練。
速度、大小、時間
模型 |
參數數量 |
類型 |
層數 |
頭數 |
ffn_dim |
隱藏維度 |
KoBART-base |
1.24 億 |
編碼器 |
6 |
16 |
3072 |
768 |
|
|
解碼器 |
6 |
16 |
3072 |
768 |
評估
測試數據、因素和指標
待補充更多信息。
結果
NSMC
模型作者還在 GitHub 倉庫 中指出:
模型檢查
待補充更多信息。
環境影響
可以使用 Lacoste et al. (2019) 中提出的 機器學習影響計算器 來估算碳排放。
- 硬件類型:待補充更多信息
- 使用時長:待補充更多信息
- 雲服務提供商:待補充更多信息
- 計算區域:待補充更多信息
- 碳排放:待補充更多信息
技術規格(可選)
模型架構和目標
待補充更多信息。
計算基礎設施
硬件
待補充更多信息。
軟件
待補充更多信息。
引用
BibTeX
待補充更多信息。
術語表(可選)
待補充更多信息。
更多信息(可選)
待補充更多信息。
模型卡片作者(可選)
Heewon(Haven) Jeon 與 Ezi Ozoani 和 Hugging Face 團隊合作。
模型卡片聯繫方式
模型作者在 GitHub 倉庫 中指出:KoBART
相關問題請提交到 這裡。
📄 許可證
該模型採用 MIT 許可證。