🚀 kobart-base-v2 模型卡片
kobart-base-v2
是基于 BART 架构的韩语 encoder-decoder
语言模型,通过对大量韩语文本进行训练,可用于特征提取等任务。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import PreTrainedTokenizerFast, BartModel
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')
✨ 主要特性
- 基于 BART 架构:BART(Bidirectional and Auto-Regressive Transformers)以
autoencoder
的形式进行训练,通过向输入文本的一部分添加噪声并将其恢复为原文。
- 韩语训练:使用
Text Infilling
噪声函数,在超过 40GB 的韩语文本上进行训练。
- 扩展词汇:
vocab
大小为 30,000,添加了常用的表情符号和 emoticon,提高了对这些标记的识别能力。
📦 安装指南
文档未提及具体安装步骤,可参考模型的 GitHub 仓库 获取相关信息。
💻 使用示例
基础用法
from transformers import PreTrainedTokenizerFast, BartModel
tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')
📚 详细文档
模型详情
- 开发者:待补充更多信息
- 共享者:Heewon(Haven) Jeon
- 模型类型:特征提取
- 语言:韩语
- 许可证:MIT
- 父模型:BART
- 更多信息资源:
使用场景
直接使用
该模型可用于特征提取任务。
下游使用
待补充更多信息。
超出范围使用
该模型不应被用于故意为人们创造敌对或排斥的环境。
偏差、风险和局限性
大量研究探讨了语言模型的偏差和公平性问题(例如,Sheng et al. (2021) 和 Bender et al. (2021))。模型生成的预测可能包含对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(直接用户和下游用户)应了解模型的风险、偏差和局限性。待补充更多建议信息。
训练详情
训练数据
数据 |
句子数量 |
韩语维基百科 |
500 万 |
其他语料库 |
2.7 亿 |
除韩语维基百科外,新闻、书籍、 모두의 말뭉치 v1.0(对话、新闻等)、 青瓦台国民请愿 等各种数据也用于模型训练。
训练过程
分词器
使用 tokenizers
包中的 Character BPE tokenizer
进行训练。
速度、大小、时间
模型 |
参数数量 |
类型 |
层数 |
头数 |
ffn_dim |
隐藏维度 |
KoBART-base |
1.24 亿 |
编码器 |
6 |
16 |
3072 |
768 |
|
|
解码器 |
6 |
16 |
3072 |
768 |
评估
测试数据、因素和指标
待补充更多信息。
结果
NSMC
模型作者还在 GitHub 仓库 中指出:
模型检查
待补充更多信息。
环境影响
可以使用 Lacoste et al. (2019) 中提出的 机器学习影响计算器 来估算碳排放。
- 硬件类型:待补充更多信息
- 使用时长:待补充更多信息
- 云服务提供商:待补充更多信息
- 计算区域:待补充更多信息
- 碳排放:待补充更多信息
技术规格(可选)
模型架构和目标
待补充更多信息。
计算基础设施
硬件
待补充更多信息。
软件
待补充更多信息。
引用
BibTeX
待补充更多信息。
术语表(可选)
待补充更多信息。
更多信息(可选)
待补充更多信息。
模型卡片作者(可选)
Heewon(Haven) Jeon 与 Ezi Ozoani 和 Hugging Face 团队合作。
模型卡片联系方式
模型作者在 GitHub 仓库 中指出:KoBART
相关问题请提交到 这里。
📄 许可证
该模型采用 MIT 许可证。