🚀 Carballo-bloom-1.3B
Carballo-bloom-1.3B 是一個面向加利西亞語的、基於Transformer的自迴歸語言模型,擁有13億參數。它是在 FLOR-1.3B(由 AINA項目 開發,基於 BLOOM-1.7B)的基礎上,使用加利西亞語語料庫 CorpusNos 進行持續預訓練的成果。
🚀 快速開始
模型使用示例
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
input_text = "Hoxe fai un bo día. O sol "
model_id = "proxectonos/Carballo-bloom-1.3B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
generator = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
generation = generator(
input_text,
do_sample=True,
top_k=10,
eos_token_id=tokenizer.eos_token_id
)
print(f"Result: {generation[0]['generated_text']}")
✨ 主要特性
- 面向加利西亞語:專門針對加利西亞語進行訓練,能更好地處理該語言的文本生成任務。
- 可微調:可以針對特定場景進行微調,以滿足不同的應用需求。
📦 安裝指南
文檔未提及安裝相關內容,如需使用可參考上述代碼示例中使用 transformers
庫加載模型的方式。
📚 詳細文檔
預期用途和限制
Carballo-bloom-1.3B 模型僅適用於自迴歸語言建模。它可以執行文本生成任務,並可針對特定場景進行微調。
訓練
工具
該模型使用HuggingFace Transformers和Pytorch進行訓練,使用了 因果語言建模腳本。
語言適配和訓練
訓練Carballo-bloom-1.3B所使用的語言適配技術基於訓練FLOR-1.3B的技術,其作者在這篇 Medium文章 中進行了解釋。總結來說,步驟如下:
- 為加利西亞語訓練了自己的BPE分詞器,並將其替換了原始FLOR-1.3B的分詞器和詞彙表。
- 使用原始詞彙表和目標詞彙表中都存在的標記(匹配標記)對應的嵌入進行初始化。
- 將Carballo-bloom-1.3B原始詞彙表中不存在的標記的嵌入初始化為所有嵌入的平均值。
- 使用FLOR-1.3B的權重以及適配後的分詞器(步驟1)和嵌入(步驟2 - 3)對模型進行初始化。
- 然後在加利西亞語語料庫上對模型進行訓練。
訓練數據
CorpusNÓS 是一個龐大的加利西亞語語料庫,由21億個單詞組成,主要用於訓練大語言模型。語料庫的來源多樣,涵蓋了相對廣泛的體裁。
語料庫結構如下:
子語料庫 |
體裁 |
標記數量 |
文檔數量 |
通過轉讓協議獲得的數據 |
書籍 |
7,255,784 |
104 |
|
研究文章 |
2,665,351 |
664 |
|
新聞 |
124,253,084 |
224,419 |
|
政府文件 |
245,897,880 |
654,505 |
|
網頁內容 |
15,946,686 |
44,165 |
|
百科全書 |
4,799,214 |
47,396 |
|
小計 |
400,817,999 |
971,253 |
子語料庫 |
體裁 |
標記數量 |
文檔數量 |
公開數據 |
新聞和博客 |
153,497,883 |
665,265 |
|
百科全書 |
57,164,848 |
184,628 |
|
網頁爬蟲數據 |
1,384,015,664 |
3,366,449 |
|
翻譯語料庫 |
133,726,004 |
4,745,799 |
|
小計 |
1,728,404,399 |
8,777,514 |
|
總計 |
2,129,222,398 |
9,748,767 |
下載地址 (Zenodo) |
https://zenodo.org/records/10687642 |
|
|
訓練超參數
- 隨機種子:42
- 設備數量:1
- 訓練批次大小:2
- 評估批次大小:2
- 梯度累積:4
- 優化器:AdamW
- 貝塔係數:(0.9, 0.999)
- 學習率:5e-05
- 訓練輪數:1.2
訓練框架
訓練在加利西亞超級計算中心(CESGA)進行,使用了1個包含5個NVIDIA A100 GPU的節點。
評估
模型 |
Belebele |
CoLA |
OpenBookQA |
Parafrases-gl |
PAWS-X |
Carballo-Bloom |
0.231±0.014 |
0.499±0.012 |
0.364±0.022 |
0.523±0.031 |
0.541±0.011 |
Carballo-Cerebras |
0.271±0.015 |
0.502±0.012 |
0.368±0.022 |
0.496±0.031 |
0.531±0.011 |
Bloom-1b1 |
0.234±0.014 |
0.507±0.012 |
0.338±0.021 |
0.485±0.031 |
0.508±0.011 |
Bloom-1b7 |
0.218±0.014 |
0.500±0.012 |
0.338±0.021 |
0.539±0.031 |
0.539±0.011 |
mGPT |
0.229±0.014 |
0.494±0.012 |
0.332±0.021 |
0.423±0.031 |
0.517±0.011 |
Flor-1.3B |
0.220±0.014 |
0.504±0.012 |
0.342±0.021 |
0.516±0.031 |
0.536±0.011 |
Cerebras-1.3B |
0.221±0.014 |
0.497±0.012 |
0.300±0.021 |
0.492±0.031 |
0.531±0.011 |
額外信息
聯繫信息
如需進一步信息,請發送電子郵件至 proxecto.nos@usc.gal
許可證
本模型採用MIT許可證。
版權所有 (c) 2024 Proxecto Nós
特此免費授予任何獲得本軟件及相關文檔文件(“軟件”)副本的人不受限制地處理本軟件的權利,包括但不限於使用、複製、修改、合併、發佈、分發、再許可和/或出售軟件副本的權利,並允許向其提供軟件的人這樣做,但須遵守以下條件:
上述版權聲明和本許可聲明應包含在所有副本或軟件的重要部分中。
軟件按“原樣”提供,不提供任何形式的明示或暗示保證,包括但不限於適銷性、特定用途適用性和不侵權的保證。在任何情況下,作者或版權持有人均不對因合同、侵權或其他方式引起的任何索賠、損害或其他責任負責,無論是在與軟件或軟件的使用或其他交易有關的任何行動中。
資金支持
該模型是在Nós項目中開發的,由西班牙數字化轉型和公共職能部資助,在歐盟下一代基金的框架下,依託 ILENIA項目(編號2022/TL22/00215336)進行。
引用信息
如果您使用此模型,請引用以下文章:
Gamallo, Pablo, Pablo Rodríguez Fernández, Iria de Dios Flores, Susana Sotelo, Silvia Paniagua, José Ramom Pichel, Daniel Bardanca, Marcos Garcia (2024) "Open Generative Large Language Models for Galician", Procesamiento del Lenguaje Natural, 73, pp. 259 - 270. ISSN: 1135 - 5948.