🚀 Carballo-bloom-1.3B
Carballo-bloom-1.3B 是一个面向加利西亚语的、基于Transformer的自回归语言模型,拥有13亿参数。它是在 FLOR-1.3B(由 AINA项目 开发,基于 BLOOM-1.7B)的基础上,使用加利西亚语语料库 CorpusNos 进行持续预训练的成果。
🚀 快速开始
模型使用示例
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
input_text = "Hoxe fai un bo día. O sol "
model_id = "proxectonos/Carballo-bloom-1.3B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
generator = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
generation = generator(
input_text,
do_sample=True,
top_k=10,
eos_token_id=tokenizer.eos_token_id
)
print(f"Result: {generation[0]['generated_text']}")
✨ 主要特性
- 面向加利西亚语:专门针对加利西亚语进行训练,能更好地处理该语言的文本生成任务。
- 可微调:可以针对特定场景进行微调,以满足不同的应用需求。
📦 安装指南
文档未提及安装相关内容,如需使用可参考上述代码示例中使用 transformers
库加载模型的方式。
📚 详细文档
预期用途和限制
Carballo-bloom-1.3B 模型仅适用于自回归语言建模。它可以执行文本生成任务,并可针对特定场景进行微调。
训练
工具
该模型使用HuggingFace Transformers和Pytorch进行训练,使用了 因果语言建模脚本。
语言适配和训练
训练Carballo-bloom-1.3B所使用的语言适配技术基于训练FLOR-1.3B的技术,其作者在这篇 Medium文章 中进行了解释。总结来说,步骤如下:
- 为加利西亚语训练了自己的BPE分词器,并将其替换了原始FLOR-1.3B的分词器和词汇表。
- 使用原始词汇表和目标词汇表中都存在的标记(匹配标记)对应的嵌入进行初始化。
- 将Carballo-bloom-1.3B原始词汇表中不存在的标记的嵌入初始化为所有嵌入的平均值。
- 使用FLOR-1.3B的权重以及适配后的分词器(步骤1)和嵌入(步骤2 - 3)对模型进行初始化。
- 然后在加利西亚语语料库上对模型进行训练。
训练数据
CorpusNÓS 是一个庞大的加利西亚语语料库,由21亿个单词组成,主要用于训练大语言模型。语料库的来源多样,涵盖了相对广泛的体裁。
语料库结构如下:
子语料库 |
体裁 |
标记数量 |
文档数量 |
通过转让协议获得的数据 |
书籍 |
7,255,784 |
104 |
|
研究文章 |
2,665,351 |
664 |
|
新闻 |
124,253,084 |
224,419 |
|
政府文件 |
245,897,880 |
654,505 |
|
网页内容 |
15,946,686 |
44,165 |
|
百科全书 |
4,799,214 |
47,396 |
|
小计 |
400,817,999 |
971,253 |
子语料库 |
体裁 |
标记数量 |
文档数量 |
公开数据 |
新闻和博客 |
153,497,883 |
665,265 |
|
百科全书 |
57,164,848 |
184,628 |
|
网页爬虫数据 |
1,384,015,664 |
3,366,449 |
|
翻译语料库 |
133,726,004 |
4,745,799 |
|
小计 |
1,728,404,399 |
8,777,514 |
|
总计 |
2,129,222,398 |
9,748,767 |
下载地址 (Zenodo) |
https://zenodo.org/records/10687642 |
|
|
训练超参数
- 随机种子:42
- 设备数量:1
- 训练批次大小:2
- 评估批次大小:2
- 梯度累积:4
- 优化器:AdamW
- 贝塔系数:(0.9, 0.999)
- 学习率:5e-05
- 训练轮数:1.2
训练框架
训练在加利西亚超级计算中心(CESGA)进行,使用了1个包含5个NVIDIA A100 GPU的节点。
评估
模型 |
Belebele |
CoLA |
OpenBookQA |
Parafrases-gl |
PAWS-X |
Carballo-Bloom |
0.231±0.014 |
0.499±0.012 |
0.364±0.022 |
0.523±0.031 |
0.541±0.011 |
Carballo-Cerebras |
0.271±0.015 |
0.502±0.012 |
0.368±0.022 |
0.496±0.031 |
0.531±0.011 |
Bloom-1b1 |
0.234±0.014 |
0.507±0.012 |
0.338±0.021 |
0.485±0.031 |
0.508±0.011 |
Bloom-1b7 |
0.218±0.014 |
0.500±0.012 |
0.338±0.021 |
0.539±0.031 |
0.539±0.011 |
mGPT |
0.229±0.014 |
0.494±0.012 |
0.332±0.021 |
0.423±0.031 |
0.517±0.011 |
Flor-1.3B |
0.220±0.014 |
0.504±0.012 |
0.342±0.021 |
0.516±0.031 |
0.536±0.011 |
Cerebras-1.3B |
0.221±0.014 |
0.497±0.012 |
0.300±0.021 |
0.492±0.031 |
0.531±0.011 |
额外信息
联系信息
如需进一步信息,请发送电子邮件至 proxecto.nos@usc.gal
许可证
本模型采用MIT许可证。
版权所有 (c) 2024 Proxecto Nós
特此免费授予任何获得本软件及相关文档文件(“软件”)副本的人不受限制地处理本软件的权利,包括但不限于使用、复制、修改、合并、发布、分发、再许可和/或出售软件副本的权利,并允许向其提供软件的人这样做,但须遵守以下条件:
上述版权声明和本许可声明应包含在所有副本或软件的重要部分中。
软件按“原样”提供,不提供任何形式的明示或暗示保证,包括但不限于适销性、特定用途适用性和不侵权的保证。在任何情况下,作者或版权持有人均不对因合同、侵权或其他方式引起的任何索赔、损害或其他责任负责,无论是在与软件或软件的使用或其他交易有关的任何行动中。
资金支持
该模型是在Nós项目中开发的,由西班牙数字化转型和公共职能部资助,在欧盟下一代基金的框架下,依托 ILENIA项目(编号2022/TL22/00215336)进行。
引用信息
如果您使用此模型,请引用以下文章:
Gamallo, Pablo, Pablo Rodríguez Fernández, Iria de Dios Flores, Susana Sotelo, Silvia Paniagua, José Ramom Pichel, Daniel Bardanca, Marcos Garcia (2024) "Open Generative Large Language Models for Galician", Procesamiento del Lenguaje Natural, 73, pp. 259 - 270. ISSN: 1135 - 5948.