🚀 ゲルバシオ 7B PTBR
ゲルバシオ 7B PTBRは、ポルトガル語用の完全にオープンなデコーダーです。LLaMAファミリーのデコーダーで、Transformerニューラルアーキテクチャに基づいてLLaMA - 2 7Bモデル上で開発されました。このモデルは、研究や商用目的に利用でき、消費者向けハードウェアでも実行可能です。
🚀 クイックスタート
このモデルは、ポルトガル語用のオープンなデコーダーです。以下のコードを使って、直接因果言語モデリングのパイプラインで使用できます。
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptbr-decoder')
>>> generator("A música brasileira é", max_new_tokens=10)
✨ 主な機能
- オープンなデコーダー:完全にオープンなポルトガル語用デコーダーで、商用や研究目的での利用が可能。
- 多様なバリアント:ヨーロッパ版とアメリカ版(ブラジル語)のポルトガル語用に訓練されたバージョンがあります。
- 消費者向けハードウェアでの実行:モデルサイズが適切なため、消費者向けハードウェアでも実行できます。
📦 インストール
READMEにインストール手順は記載されていません。
💻 使用例
基本的な使用法
# 元のコードとコメントを保持
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptbr-decoder')
>>> generator("A música brasileira é", max_new_tokens=10)
📚 ドキュメント
モデルの説明
このモデルカードはゲルバシオ 7B PTBRに関するものです。このモデルは70億のパラメータを持ち、隠れ層のサイズは4,096ユニット、中間層のサイズは11,008ユニット、32個のアテンションヘッド、32個の隠れ層を持っています。トークナイザーはByte - Pair Encoding (BPE)アルゴリズムをSentencePieceで実装したもので、語彙サイズは32,000です。ゲルバシオ 7B PTBRはMITライセンスの下で配布されています。
訓練データ
ゲルバシオ 7B PTBRは、標準的な教師付きファインチューニングで訓練されました。英語の主流ベンチマークとの整合性を保つため、GLUEとSuperGLUEコレクションのタスクとデータセットを使用しました。具体的には、GLUEからはMRPC(パラフレーズ検出)、RTE(テキスト含意認識)、STS - B(意味的テキスト類似性)、WNLI(照応と自然言語推論)の4つのタスクを、SuperGLUEからはBoolQ(yes/no質問応答)、CB(3ラベルの推論)、COPA(推論)、MultiRC(質問応答)の4つのタスクを選択しました。これらのデータセットはアメリカ版ポルトガル語に機械翻訳され、extraGLUEデータセットから取得されました。また、各タスクに対して手動で命令テンプレートを作成し、extraGLUE - instructデータセットにまとめました。さらに、データ拡張技術を用いてデータセットのサイズと多様性を向上させました。
訓練の詳細
教師付きファインチューニングを適用し、因果言語モデリングの訓練目標を持ち、ファインチューニング中にゼロアウト技術を使用しました。具体的には、ファインチューニング中はプロンプト全体にアテンションが向けられますが、逆伝播は応答トークンのみに適用されます。ハイパーパラメータとして、学習率は2 * 10^ - 5、重み減衰は0.1、ウォームアップなしで2エポックの訓練体制を採用しました。また、各ステップで逆伝播されるトークン数を同じにするため、入力シーケンス長を512トークン、バッチサイズを16、累積ステップを16としました。ハードウェアの制限により、ベースモデル(4096)よりも短いシーケンス長(512)が必要となったため、通常の訓練例を連結して同じ入力シーケンス長のバッチに分割する代わりに、各例を個別に分離しました。つまり、各例は入力シーケンス長全体を占めます。
性能
テストには、GLUEの翻訳済みデータセットMRPC(類似性)とRTE(推論)、SuperGLUEのCOPA(推論/質問応答)を使用しました。これらは3つの主要なタスクタイプの代表として選ばれ、訓練中には見られていません。
モデル |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
ゲルバシオ 7B PTBR |
0.7822 |
0.8321 |
0.2134 |
LLaMA - 2 (英語) |
0.0369 |
0.0516 |
0.4867 |
LLaMA - 2 Chat (英語) |
0.5432 |
0.3807 |
0.5493 |
さらに、デコーダーのテストには、上記のテストデータに加えて、ポルトガル語のテキストで元々開発されたデータセットも使用しました。ASSIN2 RTE(含意)、ASSIN2 STS(類似性)、BLUEX(質問応答)、ENEM 2022(質問応答)、FaQuAD(抽出型質問応答)です。
モデル |
ENEM 2022 (Accuracy) |
BLUEX (Accuracy) |
RTE (F1) |
STS (Pearson) |
ゲルバシオ 7B PTBR |
0.1977 |
0.2640 |
0.7469 |
0.2136 |
LLaMA - 2 (英語) |
0.2458 |
0.2903 |
0.0913 |
0.1034 |
LLaMA - 2 Chat (英語) |
0.2231 |
0.2959 |
0.5546 |
0.1750 |
同じ次元の他のデコーダーと比較すると、ゲルバシオはPTBRのタスクで優れたまたは競争力のある性能を示しています。また、PTPTバリアントのポルトガル語用の唯一の1.5B次元のエンコーダーであり、公開時点でこの点で最先端です。詳細な評価データについては、それぞれの出版物を参照してください。
🔧 技術詳細
ゲルバシオ 7B PTBRは、LLaMAファミリーのデコーダーで、Transformerニューラルアーキテクチャに基づいてLLaMA - 2 7Bモデル上で開発されました。訓練には、標準的な教師付きファインチューニングを使用し、因果言語モデリングの訓練目標を持ちます。ファインチューニング中はゼロアウト技術を使用し、逆伝播は応答トークンのみに適用されます。ハイパーパラメータやシーケンス長の設定など、訓練の詳細は上記の「訓練の詳細」セクションで説明されています。
📄 ライセンス
ゲルバシオ 7B PTBRはMITライセンスの下で配布されています。
引用
ゲルバシオ 7B PTBRを使用または引用する場合は、以下の引用を使用してください。
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
謝辞
ここで報告されている研究は、一部PORTULAN CLARIN(言語科学技術の研究インフラストラクチャ)によって支援されています。これはLisboa 2020、Alentejo 2020、FCT(科学技術振興財団)による助成金PINFRA/22117/2016の下で資金提供されています。また、研究プロジェクトGPT - PT(ポルトガル語用のTransformerベースのデコーダー)は、FCTによる助成金CPCA - IAC/AV/478395/2022の下で資金提供されています。イノベーションプロジェクトACCELERAT.AI(多言語インテリジェントコンタクトセンター)は、IAPMEI(競争力とイノベーション庁)による助成金C625734525 - 00462629(Plano de Recuperação e Resiliência、call RE - C05 - i01.01 – Agendas/Alianças Mobilizadoras para a Reindustrialização)の下で資金提供されています。