🚀 ゲルバシオ 7B PTPT
このモデルは、ポルトガル語用の完全にオープンなデコーダーです。Transformerニューラルアーキテクチャに基づき、LLaMA-2 7Bモデルを元に開発されています。
🚀 クイックスタート
このモデルは、ポルトガル語の様々なバリアントに対応したデコーダーです。以下のリンクから、それぞれのバリアントに対応したモデルを確認できます。
✨ 主な機能
- 完全オープン: オープンライセンスの下で無料で公開されており、研究や商用目的での使用が可能です。
- ポルトガル語対応: ポルトガル語の様々なバリアントに対応したデコーダーです。
- コンシューマーグレードのハードウェアで実行可能: モデルのサイズが適切なため、コンシューマーグレードのハードウェアでも実行できます。
📦 インストール
このモデルはHugging Face Hubで公開されています。以下のコードで、因果言語モデリングのパイプラインを使用して直接利用できます。
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptpt-decoder')
>>> generator("A comida portuguesa é", max_new_tokens=10)
💻 使用例
基本的な使用法
# 因果言語モデリングのパイプラインを使用してモデルを直接利用する例
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptpt-decoder')
>>> generator("A comida portuguesa é", max_new_tokens=10)
📚 ドキュメント
モデルの説明
このモデルカードは、70億のパラメータを持つゲルバシオ 7B PTPTに関するものです。隠れ層のサイズは4,096ユニット、中間層のサイズは11,008ユニット、アテンションヘッドは32個、隠れ層は32層です。トークナイザーはSentencePieceで実装されたByte-Pair Encoding (BPE)アルゴリズムを使用して取得され、語彙サイズは32,000です。
このモデルはMITライセンスの下で配布されています。
学習データ
ゲルバシオ 7B PTPTは、標準的な教師あり微調整で学習されました。英語の主流ベンチマークとの整合性を保つため、GLUEとSuperGLUEコレクションのタスクとそれに対応するデータセットを使用しました。
GLUEからは以下の4つのタスクを選択しました。
- MRPC (パラフレーズ検出)
- RTE (テキストエンテイルメントの認識)
- STS-B (意味的なテキストの類似性)
- WNLI (照応と自然言語推論)
SuperGLUEからは以下の4つのタスクを選択しました。
- BoolQ (yes/no質問応答)
- CB (3ラベルの推論)
- COPA (推論)
- MultiRC (質問応答)
これらのデータセットはヨーロッパポルトガル語に機械翻訳され、extraGLUEデータセットから取得されました。
さらに、各タスクに対して手動で指示テンプレートが作成されました。これらはデータセットの様々なフィールドを取得し、プロンプトに配置し、extraGLUE-instructデータセットに収集されました。
また、データ拡張技術を使用して、データセットのサイズと多様性を向上させました。これには、MultiRCからの回答生成、BoolQからの質問生成など、様々な方法でタスクを再利用することが含まれています。
学習の詳細
微調整プロセス中にゼロアウト技術を使用し、因果言語モデリングの学習目的で教師あり微調整を適用しました。具体的には、微調整中にプロンプト全体にアテンションが向けられましたが、逆伝播は応答トークンのみに適用されました。
ハイパーパラメータに関しては、学習率を2 * 10^-5、重み減衰を0.1、ウォームアップなしで2エポックの学習体制でモデルを学習させました。また、ステップごとに逆伝播されるトークン数を同じにするため、入力シーケンスを512トークン、バッチサイズを16、累積ステップを16としました。
ハードウェアの制限により、ベースモデル (4096) と比較して短いシーケンス長 (512) が課せられたため、通常のようにすべての学習例を連結してから同じ入力シーケンス長のバッチに分割する代わりに、各例を個別に分離しました。つまり、各例は入力シーケンスの全長を占めます。
性能
テストには、GLUEの翻訳データセットMRPC (類似性) とRTE (推論)、SuperGLUEのCOPA (推論/質問応答) を予約しました。これらは3つの主要なタイプのタスクの代表として選択され、学習中には見られていません。
モデル |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
ゲルバシオ 7B PTPT |
0.7273 |
0.8291 |
0.5459 |
LLaMA-2 (英語) |
0.0328 |
0.0482 |
0.3844 |
LLaMA-2 Chat (英語) |
0.5703 |
0.4697 |
0.4737 |
🔧 技術詳細
このモデルは、ポルトガル語用の完全にオープンなデコーダーです。Transformerニューラルアーキテクチャに基づき、LLaMA-2 7Bモデルを元に開発されています。
📄 ライセンス
このモデルはMITライセンスの下で配布されています。
引用
このモデルを使用または引用する場合は、以下の正規の引用を使用してください。
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
謝辞
ここで報告されている研究は、一部PORTULAN CLARIN(言語科学技術の研究インフラストラクチャ)によって支援されています。これは、Lisboa 2020、Alentejo 2020、およびFCT(科学技術振興財団)による助成金PINFRA/22117/2016の下で資金提供されています。また、研究プロジェクトGPT-PT(ポルトガル語用のTransformerベースのデコーダー)は、FCTによる助成金CPCA-IAC/AV/478395/2022の下で資金提供されています。イノベーションプロジェクトACCELERAT.AI(多言語インテリジェントコンタクトセンター)は、IAPMEI(競争力とイノベーション庁)による助成金C625734525-00462629(Plano de Recuperação e Resiliência、call RE-C05-i01.01 – Agendas/Alianças Mobilizadoras para a Reindustrialização)の下で資金提供されています。