🚀 TURNAモデルカード
TURNAは、UL2フレームワークに基づくトルコ語言語モデルです。理解タスクと生成タスクの両方に適しています。トルコ語の3つの生成タスクと5つの理解タスクにおける評価では、TURNAがいくつかの多言語モデルを上回り、理解タスクではトルコ語の単言語モデルと競争できることが示されています。このモデルは、非商用の学術研究目的のみで公開されています。
🚀 クイックスタート
モデルの技術的なガイダンスは、当社ライブラリのGitHub ページ で確認できます。
✨ 主な機能
- トルコ語の理解と生成タスクに適しています。
- いくつかの多言語モデルを上回り、理解タスクではトルコ語の単言語モデルと競争できます。
📦 インストール
ドキュメントに具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
ドキュメントに具体的なコード例が記載されていないため、このセクションをスキップします。
📚 ドキュメント
モデルの詳細
- エンコーダとデコーダの層が36層
- アテンションヘッドが16個
- トークン埋め込みは1024次元
- 多層パーセプトロン層は2816の隠れ次元を持ち、Gated GeLu活性化関数を使用
- 入力層と分類層のパラメータは共有されていない
- パラメータ数は11億
- OSCAR、OPUS、Wikipediaのランダムなサブセットからなる10GBのテキストで学習されたユニグラムサブワードトークナイザーを使用
- 語彙サイズ: 32000トークン + 128特殊トークン
モデルの説明
- 開発者: Bogazici University Computer Engineering Department TABILAB(VNGRS - AIがトークナイザーを共有してくれたことに特別な感謝を表します)
- 資金提供元: Google TPU Research CloudプログラムがTPU v3 - 8マシンでモデルを事前学習するためのクレジットを提供してくれたことに感謝します。また、TETAMとBOUN CMPEが微調整と評価実験で使用するGPUクラスターへのアクセスを提供してくれたことに感謝します。
- モデルタイプ: トランスフォーマーベースのエンコーダ - デコーダ
- 言語 (NLP): トルコ語
- ライセンス: このモデルは、非商用の学術研究目的のみで公開されています。
モデルのソース
用途
直接利用
このモデルは研究目的で使用できます。あるテキストを入力すると、このモデルは次の単語を予測しようとします。
下流利用
このモデルは、当社のライブラリ を使用して微調整することで、トルコ語を含む独自のタスクを解くことができます。また、このモデルはさらに学習して、より役立ち、有害性が低く、対話用途に適したものにすることができます。
範囲外の利用
商業的または悪意のある活動はすべて禁止されています。
バイアス、リスク、および制限
Flan - T5の公式モデルカード を参照してください。
Raeら (2021) によると、Flan - T5を含む言語モデルは、有害な方法で言語生成に使用される可能性があります。Flan - T5は、アプリケーション固有の安全性と公正性の懸念を事前に評価せずに、直接アプリケーションに使用してはなりません。
倫理的な考慮事項とリスク
...(編集:このモデル)は、明示的なコンテンツについてフィルタリングされていない、または既存のバイアスについて評価されていない大量のテキストデータで微調整されています。その結果、モデル自体は、同等に不適切なコンテンツを生成したり、基礎となるデータに内在するバイアスを再現したりする可能性があります。
既知の制限
...(編集:このモデル)は、実世界のアプリケーションでテストされていません。
敏感な利用
...(編集:このモデル)は、容認できない利用ケース、例えば侮辱的なスピーチの生成には適用してはなりません。
学習の詳細
- 事前学習はMixture - of - Denoisers (MoD) を使用して行われました。
- このバージョンのモデルは1740000ステップ学習されました。
- バッチサイズ: 48
- 入力と出力の長さ: 512
- 実効的に427億トークンにさらされました。
詳細情報は論文を参照してください。
評価
モデルのバイアスについてはまだ評価していません。ただし、いくつかの理解と生成タスクについて微調整を行いました。
詳細情報は論文を参照してください。
環境への影響
炭素排出量は、Lacosteら (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
属性 |
详情 |
ハードウェアタイプ |
TPU v3 - 8 |
使用時間 |
約400時間 |
クラウドプロバイダー |
Google Cloud |
コンピュートリージョン |
europe - west4 - a |
排出された炭素量 |
64.52 kg CO₂ |
技術仕様
詳細情報は論文を参照してください。
引用
BibTeX:
近日公開!
APA:
近日公開!
モデルカードの作成者
論文の著者
モデルカードの問い合わせ先
Onur Güngör
📄 ライセンス
このモデルは、非商用の学術研究目的のみで公開されています。