🚀 Tucano-2b4
Tucano は、ポルトガル語でネイティブに事前学習されたデコーダートランスフォーマーのシリーズです。すべてのTucanoモデルは、重複排除されたポルトガル語のテキストコーパスを連結した合計2000億トークンの GigaVerbo で学習されています。
こちら でプレプリントを読むことができます。
🚀 クイックスタート
モデル概要
Tucano は、ポルトガル語でネイティブに事前学習されたデコーダートランスフォーマーのシリーズです。すべてのTucanoモデルは、重複排除されたポルトガル語のテキストコーパスを連結した合計2000億トークンの GigaVerbo で学習されています。
詳細
属性 |
详情 |
アーキテクチャ |
因果言語モデリングを通じて事前学習されたトランスフォーマーベースのモデル |
サイズ |
2,444,618,240パラメータ |
コンテキスト長 |
4096トークン |
データセット |
TucanoBR/GigaVerbo |
言語 |
ポルトガル語 |
ステップ数 |
1,960,000 |
GPU |
16台のNVIDIA A100 - SXM4 - 80GB |
学習時間 |
約845時間 |
排出量 |
4,475 KgCO2(ドイツ) |
総エネルギー消費量 |
11,749 kWh |
このリポジトリには、このモデルを学習するために使用された [ソースコード](https://github.com/Nkluge - correa/Tucano) が含まれています。主に使用されるライブラリは以下の通りです。
想定される用途
Tucanoモデルの主な用途は、ネイティブなポルトガル語の言語モデリングに関する研究と開発の基盤として機能することです。学習中に保存されたチェックポイントは、現在利用可能なベンチマークのパフォーマンスに対するアクティブ事前学習の影響に関して、比較実験を行うための制御された環境を提供するように設計されています。また、Apache 2.0ライセンスに従う限り、Tucanoモデルをファインチューニングしてデプロイに適用することもできます。Tucanoモデルをファインチューニングしたモデルの基礎として使用する場合は、独自のリスクとバイアス評価を行ってください。
想定外の用途
- Tucanoモデルは デプロイを目的としていません。これらは即座に使用できる製品ではなく、人間との対話に使用すべきではありません。
- Tucanoモデルは ポルトガル語専用 であり、他の言語のテキスト生成タスクには適していません。
- Tucanoモデルは 下流タスクに対してファインチューニングされていません。
✨ 主な機能
基本的な使用法
pipeline
を使用する場合:
from transformers import pipeline
generator = pipeline("text-generation", model="TucanoBR/Tucano-2b4")
completions = generator("A floresta da Amazônia é conhecida por sua", num_return_sequences=2, max_new_tokens=100)
for comp in completions:
print(f"🤖 {comp['generated_text']}")
AutoTokenizer
と AutoModelForCausalLM
を使用する場合:
from transformers import GenerationConfig, TextGenerationPipeline, AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "TucanoBR/Tucano-2b4"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
generation_config = GenerationConfig(
**{
"do_sample": True,
"max_new_tokens": 2048,
"renormalize_logits": True,
"repetition_penalty": 1.2,
"temperature": 0.1,
"top_k": 50,
"top_p": 1.0,
"use_cache": True,
}
)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
generator = TextGenerationPipeline(model=model, task="text-generation", tokenizer=tokenizer, device=device)
prompt = "A floresta da Amazônia é conhecida por sua"
completion = generator(prompt, generation_config=generation_config)
print(completion[0]['generated_text'])
制限事項
ウェブから収集された大規模なテキストデータセットで学習されたほとんどの言語モデルと同様に、Tucanoモデルは、多くの実世界のアプリケーション、特に事実的で信頼できる非毒性のテキスト生成を必要とするアプリケーションに対して、即座に解決策となるわけではありません。Tucanoモデルはすべて以下の問題に直面しています。
- 幻覚:Tucanoモデルは、真実の事実と誤認される可能性のある内容を生成することができますが、それは誤解を招くものであったり、完全に虚偽のものであったりします。
- バイアスと毒性:Tucanoモデルは、学習に使用されたデータから社会的および歴史的なステレオタイプを引き継いでいます。これらのバイアスにより、モデルは有害、攻撃的、または個人、グループ、またはコミュニティに損害を与えるような毒性のあるコンテンツを生成することがあります。
- 信頼できないコード:Tucanoモデルは誤ったコードスニペットやステートメントを生成する可能性があります。これらのコード生成は、提案や正確な解決策として扱われるべきではありません。
- 言語の制限:Tucanoモデルは主にポルトガル語との対話を目的として設計されています。他の言語はその理解を困難にし、誤解や応答のエラーにつながる可能性があります。
- 繰り返しと冗長性:Tucanoモデルは、繰り返しループに陥ることがあり(特に生成時の繰り返しペナルティが低い値に設定されている場合)、与えられたプロンプトと関係のない冗長な応答を生成することがあります。
したがって、当社のモデルは許容的なライセンスでリリースされていますが、実世界のアプリケーションで使用する場合は、ユーザーにリスク分析を行うことを強くお勧めします。
評価
以下の表は、私たちの研究で使用された評価ハーネスにおいて、いくつかのポルトガル語および多言語言語モデルと私たちのモデルを比較しています。詳細については、[こちら](https://github.com/Nkluge - correa/Tucano/tree/main/evaluations/README.md) を参照してください。評価ハーネスの選択について詳しく知りたい場合は、プレプリントを読んでください。
|
平均 |
Calame - PT |
Lambada - PT |
ARC - PT |
HellaSwag - PT |
Llama - 3.2 - 3B |
52 |
58.43 |
49.1 |
43.25 |
57.2 |
Granite - 3.0 - 2b |
51.63 |
56.36 |
47.55 |
42.56 |
60.05 |
Tucano - 2b4 |
43.58 |
59.06 |
37.67 |
30.43 |
47.17 |
Llama - 3.2 - 1B |
42.95 |
51.83 |
41.02 |
33.5 |
45.44 |
Tucano - 1b1 |
41.55 |
58.24 |
34.7 |
30.43 |
42.84 |
Gemma - 2b |
40.38 |
51.16 |
39.88 |
37.95 |
32.53 |
Bloom - 1b7 |
40.37 |
55.64 |
31.98 |
30.34 |
43.52 |
Tucano - 630m |
39.5 |
56.55 |
33.13 |
28.89 |
39.41 |
Gemma - 2 - 2b |
39.21 |
56.7 |
47.1 |
24.19 |
28.85 |
Bloom - 1b1 |
38.18 |
52.94 |
30.22 |
29.83 |
39.74 |
GlórIA - 1b3 |
36.05 |
52.79 |
27.71 |
26.67 |
37.04 |
Tucano - 160m |
35.14 |
52.31 |
28.16 |
27.01 |
33.07 |
Xglm - 564m |
34.55 |
50.58 |
27.42 |
25.56 |
34.64 |
Bloom - 560m |
34.32 |
49.95 |
31.98 |
30.34 |
43.52 |
TTL - 460m |
33.78 |
49.42 |
23.29 |
29.4 |
33 |
mGPT - 1b3 |
31.81 |
47.14 |
29.92 |
23.81 |
26.37 |
TTL - 160m |
30.78 |
46.72 |
20.98 |
26.15 |
29.29 |
Lola - v1 |
30.19 |
26.4 |
18.32 |
30.42 |
45.61 |
GPorTuguese |
28.92 |
40.61 |
22.98 |
22.48 |
29.62 |
📚 ドキュメント
引用方法 🤗
@misc{correa2024tucanoadvancingneuraltext,
title={{Tucano: Advancing Neural Text Generation for Portuguese}},
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
year={2024},
eprint={2411.07854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.07854},
}
謝辞
私たちは、[ボン大学](https://www.uni - bonn.de/en) がホストする [Marvinクラスタ](https://www.hpc.uni - bonn.de/en/systems/marvin) へのアクセス許可と、その高性能コンピューティング&アナリティクスラボによるサポートに感謝しています。
📄 ライセンス
Tucanoは、Apache License, Version 2.0の下でライセンスされています。詳細については、LICENSE ファイルを参照してください。