🚀 gpt-neo-125M-code-clippy-dedup-2048
このモデルは、テキスト生成タスクに特化したGPT-Neoベースのモデルです。Flaxコミュニティによって開発され、Hugging Faceを通じて共有されています。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。
クリックして展開
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048")
model = AutoModelForCausalLM.from_pretrained("flax-community/gpt-neo-125M-code-clippy-dedup-2048")
✨ 主な機能
このモデルは、テキスト生成タスクに使用できます。
📚 ドキュメント
モデルの詳細
- 開発者: Flaxコミュニティ
- 共有元 [任意]: Hugging Face
- モデルの種類: テキスト生成
- 関連モデル:
- 詳細情報のリソース:
属性 |
詳情 |
モデルの種類 |
テキスト生成 |
開発者 |
Flaxコミュニティ |
共有元 |
Hugging Face |
親モデル |
GPT-Neo |
詳細情報のリソース |
GitHubリポジトリ |
用途
直接の用途
このモデルは、テキスト生成タスクに使用できます。
スコープ外の用途
このモデルは、人々に敵意や疎外感を与える環境を意図的に作り出すために使用してはいけません。
バイアス、リスク、制限
多くの研究が言語モデルのバイアスと公平性の問題を調査しています(例えば、Sheng et al. (2021) と Bender et al. (2021) を参照)。このモデルが生成する予測には、保護されたクラス、アイデンティティ特性、および敏感な社会的・職業的グループにまたがる有害なステレオタイプが含まれる可能性があります。
推奨事項
モデルの作成者は GitHubリポジトリ で以下のことを述べています。
問題 : データセット内の誤ったファイル名
最近、データセットのスクレイピング中に発生したバグに気づきました。ファイル名が古くなっているか、誤解を招くものであることが判明しました。[この issue を参照] この問題を指摘してくれたNamanに感謝します。
これには2つの影響がある可能性があります。
- トレーニングデータセットのフィルタリングはファイル拡張子を使用して行われるため、トレーニング中にデータセットに誤ったデータポイントが含まれていた可能性があり、選択した言語に属する多くの正しいデータポイントを見逃していた可能性があります。
トレーニングの詳細
トレーニングデータ
モデルの作成者は GitHubリポジトリ で以下のことを述べています。
CodeClippyデータセットでGPTNeo-125Mをファインチューニングするために、AdamWオプティマイザー(beta1=0.9、beta2=0.95)をGPT3のような学習率スケジュール(0から5e-5まで4kのウォームアップステップ、その後50kのコサイン減衰ステップで5e-6まで)で使用し、重み減衰0.1、バッチサイズ1024、シーケンス長2048を設定しました。
トレーニング手順
前処理
詳細情報はありません。
速度、サイズ、時間
モデルの作成者は GitHubリポジトリ で以下のことを述べています。
CodeClippyデータセットでGPTNeo-125Mをファインチューニングするために、AdamWオプティマイザー(beta1=0.9、beta2=0.95)をGPT3のような学習率スケジュール(0から5e-5まで4kのウォームアップステップ、その後50kのコサイン減衰ステップで5e-6まで)で使用し、重み減衰0.1、バッチサイズ1024、シーケンス長2048を設定しました。比較的大きなバッチサイズと低い学習率、長いウォームアップを選択したのは、激しい更新を避け、事前学習されたGPTNeoの重みに含まれる知識を維持するためです。
評価
テストデータ、要因、メトリクス
テストデータ
モデルの作成者は GitHubリポジトリ で以下のことを述べています。
モデルは、APPS と HumanEval データセットでも評価されています。
要因
詳細情報はありません。
メトリクス
詳細情報はありません。
結果
モデル |
pass@1 |
pass@2 |
pass@5 |
pass@10 |
gpt-neo-125M-apps |
0.06% |
0.12% |
0.30% |
0.61% |
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
技術仕様 [任意]
モデルアーキテクチャと目的
GPTNeoForCausalLM
コンピュートインフラストラクチャ
ハードウェア
詳細情報はありません。
ソフトウェア
詳細情報はありません。
引用
BibTeX
詳細情報はありません。
APA
詳細情報はありません。
用語集 [任意]
詳細情報はありません。
追加情報 [任意]
詳細情報はありません。
モデルカードの作成者 [任意]
FlaxコミュニティがEzi OzoaniとHugging Faceチームと協力して作成
モデルカードの連絡先
詳細情報はありません。