模型概述
模型特點
模型能力
使用案例
🚀 Tucano-2b4
Tucano 是一系列以葡萄牙語進行原生預訓練的解碼器 - 變換器模型。所有Tucano模型均在 GigaVerbo 上進行訓練,這是一個由去重後的葡萄牙語文本語料庫拼接而成的數據集,總計包含2000億個標記。
閱讀我們的預印本 點擊此處。
🚀 快速開始
Tucano-2b4是一個基於變換器架構的模型,通過因果語言建模進行預訓練。你可以使用以下代碼示例快速開始使用該模型進行文本生成。
✨ 主要特性
- 原生葡萄牙語預訓練:Tucano系列模型專門針對葡萄牙語進行預訓練,能更好地處理葡萄牙語相關任務。
- 大規模數據集訓練:在包含2000億標記的GigaVerbo數據集上訓練,學習到豐富的語言知識。
- 長上下文處理能力:支持4096個標記的上下文長度,能處理更復雜的文本任務。
📦 安裝指南
文檔未提供安裝步驟,跳過該章節。
💻 使用示例
基礎用法
使用 pipeline
進行文本生成:
from transformers import pipeline
generator = pipeline("text-generation", model="TucanoBR/Tucano-2b4")
completions = generator("A floresta da Amazônia é conhecida por sua", num_return_sequences=2, max_new_tokens=100)
for comp in completions:
print(f"🤖 {comp['generated_text']}")
高級用法
使用 AutoTokenizer
和 AutoModelForCausalLM
進行文本生成:
from transformers import GenerationConfig, TextGenerationPipeline, AutoTokenizer, AutoModelForCausalLM
import torch
# Specify the model and tokenizer
model_id = "TucanoBR/Tucano-2b4"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Specify the generation parameters as you like
generation_config = GenerationConfig(
**{
"do_sample": True,
"max_new_tokens": 2048,
"renormalize_logits": True,
"repetition_penalty": 1.2,
"temperature": 0.1,
"top_k": 50,
"top_p": 1.0,
"use_cache": True,
}
)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
generator = TextGenerationPipeline(model=model, task="text-generation", tokenizer=tokenizer, device=device)
# Generate text
prompt = "A floresta da Amazônia é conhecida por sua"
completion = generator(prompt, generation_config=generation_config)
print(completion[0]['generated_text'])
📚 詳細文檔
模型詳情
- 架構:基於變換器的模型,通過因果語言建模進行預訓練
- 規模:2,444,618,240個參數
- 上下文長度:4096個標記
- 數據集:TucanoBR/GigaVerbo
- 語言:葡萄牙語
- 訓練步數:1,960,000
- GPU:16塊NVIDIA A100 - SXM4 - 80GB
- 訓練時間:約845小時
- 碳排放:4,475 KgCO2(德國)
- 總能耗:11,749 kWh
本倉庫包含用於訓練該模型的 源代碼。主要使用的庫包括:
- PyTorch
- Transformers
- Datasets
- Tokenizers
- Sentencepiece
- Accelerate
- FlashAttention
- Liger Kernel
- Codecarbon
- TRL
預期用途
Tucano模型的主要預期用途是作為涉及原生葡萄牙語語言建模的研究和開發的基礎。訓練期間保存的檢查點旨在為進行對比實驗提供一個可控的環境,特別是關於主動預訓練對當前可用基準測試性能的影響。如果你的使用遵循Apache 2.0許可協議,你也可以對Tucano模型進行微調並部署。如果你決定將Tucano模型作為微調模型的基礎,請自行進行風險和偏差評估。
非預期用途
- 不適合直接部署:Tucano模型並非開箱即用的產品,不適合用於面向人類的交互。
- 僅支持葡萄牙語:Tucano模型僅適用於葡萄牙語,不適合其他語言的文本生成任務。
- 未針對下游任務微調:Tucano模型未針對下游任務進行微調。
侷限性
與幾乎所有在從網絡抓取的大型文本數據集上訓練的其他語言模型一樣,Tucano模型的表現使其並非適用於許多現實世界應用的現成解決方案,特別是那些需要事實性、可靠性和無毒文本生成的應用。Tucano模型存在以下問題:
- 幻覺現象:Tucano模型可能會生成看似真實但具有誤導性或完全錯誤的內容,即幻覺現象。
- 偏差和毒性:Tucano模型繼承了訓練數據中的社會和歷史刻板印象。由於這些偏差,模型可能會生成有毒內容,即對個人、群體或社區有害、冒犯或不利的內容。
- 不可靠的代碼:Tucano模型可能會生成不正確的代碼片段和語句。這些代碼生成不應被視為建議或準確的解決方案。
- 語言侷限性:Tucano模型主要設計用於與葡萄牙語進行交互。其他語言可能會挑戰其理解能力,導致潛在的誤解或響應錯誤。
- 重複和冗長:Tucano模型可能會陷入重複循環(特別是在生成過程中重複懲罰設置為較低值時),或者生成與給定提示無關的冗長響應。
因此,儘管我們的模型以寬鬆的許可協議發佈,但我們敦促用戶如果打算將其用於現實世界應用,請對其進行風險分析。
評估
下表將我們的模型與幾種葡萄牙語和多語言模型在我們研究中使用的評估框架上進行了比較。更多相關信息可在 此處 找到。要了解更多關於我們評估框架的選擇,請 閱讀我們的預印本。
平均得分 | Calame - PT | Lambada - PT | ARC - PT | HellaSwag - PT | |
---|---|---|---|---|---|
Llama - 3.2 - 3B | 52 | 58.43 | 49.1 | 43.25 | 57.2 |
Granite - 3.0 - 2b | 51.63 | 56.36 | 47.55 | 42.56 | 60.05 |
Tucano - 2b4 | 43.58 | 59.06 | 37.67 | 30.43 | 47.17 |
Llama - 3.2 - 1B | 42.95 | 51.83 | 41.02 | 33.5 | 45.44 |
Tucano - 1b1 | 41.55 | 58.24 | 34.7 | 30.43 | 42.84 |
Gemma - 2b | 40.38 | 51.16 | 39.88 | 37.95 | 32.53 |
Bloom - 1b7 | 40.37 | 55.64 | 31.98 | 30.34 | 43.52 |
Tucano - 630m | 39.5 | 56.55 | 33.13 | 28.89 | 39.41 |
Gemma - 2 - 2b | 39.21 | 56.7 | 47.1 | 24.19 | 28.85 |
Bloom - 1b1 | 38.18 | 52.94 | 30.22 | 29.83 | 39.74 |
GlórIA - 1b3 | 36.05 | 52.79 | 27.71 | 26.67 | 37.04 |
Tucano - 160m | 35.14 | 52.31 | 28.16 | 27.01 | 33.07 |
Xglm - 564m | 34.55 | 50.58 | 27.42 | 25.56 | 34.64 |
Bloom - 560m | 34.32 | 49.95 | 25.44 | 24.74 | 37.15 |
TTL - 460m | 33.78 | 49.42 | 23.29 | 29.4 | 33 |
mGPT - 1b3 | 31.81 | 47.14 | 29.92 | 23.81 | 26.37 |
TTL - 160m | 30.78 | 46.72 | 20.98 | 26.15 | 29.29 |
Lola - v1 | 30.19 | 26.4 | 18.32 | 30.42 | 45.61 |
GPorTuguese | 28.92 | 40.61 | 22.98 | 22.48 | 29.62 |
🔧 技術細節
文檔未提供技術實現細節,跳過該章節。
📄 許可證
Tucano採用Apache License 2.0許可協議。更多詳細信息,請參閱 LICENSE 文件。
Cite as 🤗
@misc{correa2024tucanoadvancingneuraltext,
title={{Tucano: Advancing Neural Text Generation for Portuguese}},
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
year={2024},
eprint={2411.07854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.07854},
}
致謝



