🚀 GPT-J-6B-Skein モデルカード
GPT-J-6B-Skeinは、テキスト生成に特化したモデルです。KoboldAIによって開発され、創造的なストーリー生成に最適です。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。
クリックして展開
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("KoboldAI/GPT-J-6B-Skein")
model = AutoModelForCausalLM.from_pretrained("KoboldAI/GPT-J-6B-Skein")
✨ 主な機能
このモデルは、創造的なストーリー生成を目的として設計されています。自由形式のテキストと、"> You" で始まるアクションを含むインタラクティブフィクションスタイルのテキストの両方を理解することができます。
📚 ドキュメント
モデル詳細
用途
直接利用
このモデルは、創造的なストーリー生成に設計されています。以下のような、自由形式のテキストとインタラクティブフィクションスタイルのテキストの両方を理解することができます。
You become aware of her breathing -- the slight expansion of her ribs, the soft exhalation -- natural, and yet somehow studied. "Ah -- by the way," she says, in a way that utterly fails to be casual, "have you seen the artist out there? -- My artist, that is."
"No," you respond, uneasy. You open your mouth and close it again.
> You ask about the experience of waking up
範囲外の利用
このモデルは、人々に敵対的または疎外感を与える環境を意図的に作り出すために使用してはいけません。
バイアス、リスク、制限
GPT-Jの核心機能は、テキスト文字列を受け取り、次のトークンを予測することです。言語モデルはこれ以外のタスクにも広く使用されていますが、この作業には多くの未知の要素があります。GPT-Jにプロンプトを与える際には、統計的に最も可能性の高い次のトークンが、最も「正確」なテキストを生成するトークンであるとは限らないことを覚えておくことが重要です。決して、GPT-Jが事実に基づいた正確な出力を生成することに依存しないでください。
GPT-Jは、不適切な言葉や露骨な表現、その他の荒々しい言葉を含むことが知られているThe Pileというデータセットで訓練されています。使用ケースによっては、GPT-Jが社会的に受け入れられないテキストを生成する可能性があります。The Pileのバイアスに関する詳細な分析については、The Pile論文のセクション5と6を参照してください。
すべての言語モデルと同様に、GPT-Jが特定のプロンプトにどのように反応するかを事前に予測することは困難であり、不快な内容が突然生成される可能性があります。出力を公開する前に、人間によるキュレーションまたはフィルタリングを行い、望ましくない内容を削除し、結果の品質を向上させることをお勧めします。
訓練詳細
訓練データ
データは主に、KoboldAI/GPT-Neo-2.7B-Horni-LN モデルのデータセットからのライトノベルと、雑多なインタラクティブフィクションで構成されています。データセットは [Themes: <カンマ区切りのジャンルリスト>]
をタグ付けに使用しており、これはコンテキストに同様のテキストが配置された場合、モデルが指定されたスタイルでテキストを生成しようとすることを意味します。データセットの詳細については、このドキュメント を参照してください。
訓練手順
前処理
データは、Pythonパッケージftfyを使用して前処理され、可能な限り多くの非ASCII句読点文字と潜在的なエンコーディングエラーを排除しました。データセット内のインタラクティブフィクションも重複排除されました。なぜなら、インタラクティブフィクションのログには、たとえば同じゲーム内エリアを複数回訪れることによる重複テキストが含まれることが多いからです。spaCyは、古いテキストアドベンチャーゲームによく見られるアクションをより完全な文に再フォーマットする目的で、文法解析に使用されました。また、「thank you for playing」メッセージやタイトルメッセージなどの一部の内容は手動で削除されました。
速度、サイズ、時間
訓練には合計で約14時間かかり、平均速度は毎秒5265トークンでした。
環境影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定することができます。
引用
BibTeX:
@misc{mesh-transformer-jax,
author = {Wang, Ben},
title = {{Mesh-Transformer-JAX: Model-Parallel Implementation of Transformer Language Model with JAX}},
howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
year = 2021,
month = May
}