モデル概要
モデル特徴
モデル能力
使用事例
🚀 GPT - SW3モデル
GPT - SW3は、AI SwedenがRISEやWASP WARA for Media and Languageと共同開発した、大規模なデコーダー専用の事前学習トランスフォーマー言語モデルのコレクションです。このモデルは、スウェーデン語、ノルウェー語、デンマーク語、アイスランド語、英語、およびプログラミングコードを含む3200億トークンのデータセットで学習されています。
🚀 クイックスタート
モデルの概要
AI Sweden
ベースモデル
GPT - Sw3 126M | GPT - Sw3 356M | GPT - Sw3 1.3B
GPT - Sw3 6.7B | GPT - Sw3 6.7B v2 | GPT - Sw3 20B
GPT - Sw3 40B
インストラクションモデル
GPT - Sw3 126M Instruct | GPT - Sw3 356M Instruct | GPT - Sw3 1.3B Instruct
GPT - Sw3 6.7B v2 Instruct | GPT - Sw3 20B Instruct
量子化モデル
GPT - Sw3 6.7B v2 Instruct 4 - bit gptq | GPT - Sw3 20B Instruct 4 - bit gptq
GPT - SW3は、AI SwedenがRISEやWASP WARA for Media and Languageと共同開発した、大規模なデコーダー専用の事前学習トランスフォーマー言語モデルのコレクションです。GPT - SW3は、スウェーデン語、ノルウェー語、デンマーク語、アイスランド語、英語、およびプログラミングコードを含む3200億トークンのデータセットで学習されています。モデルは、NeMo Megatron GPTの実装を利用した因果言語モデリング(CLM)の目的で事前学習されました。
instruct
モデルは、チャットと生テキストの両方の形式の命令データで微調整されています。
想定される用途
GPT - SW3は、自己回帰型の大規模言語モデルで、5つの異なる言語と4つのプログラミング言語で首尾一貫したテキストを生成することができます。また、GPT - SW3は、明示的に学習されていないテキストタスクをテキスト生成タスクとして設定することで、それらのタスクを実行するように指示することもできます。
制限事項
トレーニングデータの多様性(またはその欠如)がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、GPT - SW3には、例えばバイアスや安全性の面で制限があります。GPT - SW3は、生成の多様性や幻覚の面でも品質問題を抱えることがあります。修正されたRAILライセンスで公開することで、大規模言語モデルのコミュニケーション、透明性、および研究を増やすことも期待しています。モデルは、一部の視点を過剰に表現し、他の視点を過小に表現する可能性があり、ステレオタイプを含み、憎しみ、虐待、暴力、差別的または偏見のある言語を生成する可能性があります。モデルは、誤りを犯すことがあり、事実のように誤った情報を生成することがあり、関連性のないまたは繰り返しの出力を生成することがあり、すべての設定に適さない内容(性的な内容を含む)を生成することがあります。
使用方法
これはプライベートリポジトリであるため、Pythonからモデルにアクセスするには、アクセストークンでログインする必要があります。これはhuggingface - cli login
で行うことができます。詳細については、[HuggingFace Quick Start Guide](https://huggingface.co/docs/huggingface_hub/quick - start#login)を参照してください。
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
# Initialize Variables
model_name = "AI-Sweden-Models/gpt-sw3-6.7b-v2-instruct"
device = "cuda:0" if torch.cuda.is_available() else "cpu"
prompt = "Träd är fina för att"
# Initialize Tokenizer & Model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model.eval()
model.to(device)
generate
メソッドを使用してテキストを生成するには、次のようにします。
input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(device)
generated_token_ids = model.generate(
inputs=input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.6,
top_p=1,
)[0]
generated_text = tokenizer.decode(generated_token_ids)
データ前処理中に使用されるチャット形式は、次のようになります。
<|endoftext|><s>
User:
Jag tycker träd är fina
<s>
Bot:
Kul att du tycker det!
<s>
...
テキストを生成する手順は、前と同じです。
prompt = """
<|endoftext|><s>
User:
Varför är träd fina?
<s>
Bot:
""".strip()
input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(device)
generated_token_ids = model.generate(
inputs=input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.6,
top_p=1,
)[0]
generated_text = tokenizer.decode(generated_token_ids)
generate
メソッドを使用してテキストを生成するには、次のようにします。
input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(device)
generated_token_ids = model.generate(
inputs=input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.6,
top_p=1,
)[0]
generate
メソッドの便利な代替手段は、HuggingFaceのパイプラインです。これは、ほとんどの作業を自動的に処理します。
generator = pipeline('text-generation', tokenizer=tokenizer, model=model, device=device)
generated = generator(prompt, max_new_tokens=100, do_sample=True, temperature=0.6, top_p=1)[0]["generated_text"]
コンプライアンス
GPT - SW3のリリースには、モデルの重み、設定ファイル、トークナイザーファイル、および語彙ファイルが含まれています。これらのファイルには、個人を特定できる情報(PII)や著作権のある素材は含まれていません。
📚 ドキュメント
GPT - SW3モデルカード
Mitchell et al. (2018)に従い、GPT - SW3のモデルカードを提供します。
モデルの詳細
属性 | 详情 |
---|---|
モデルを開発した個人または組織 | GPT - SW3は、AI SwedenがRISEおよびWASP WARA for Media and Languageと共同で開発しました。 |
モデルの日付 | GPT - SW3のリリース日は2022 - 12 - 20です。 |
モデルのバージョン | これはGPT - SW3の第2世代です。 |
モデルの種類 | GPT - SW3は、大規模なデコーダー専用のトランスフォーマー言語モデルです。 |
トレーニングアルゴリズム、パラメータ、公正性の制約、またはその他の適用されるアプローチおよび機能に関する情報 | GPT - SW3は、NeMo Megatron GPTの実装でトレーニングされました。 |
詳細情報のための論文またはその他のリソース | 該当なし |
ライセンス | LICENSE |
モデルに関する質問やコメントを送信する場所 | nlu@ai.se |
想定される用途
- 主な想定用途: 我々は、GPT - SW3を北欧諸語の大規模言語モデルの能力の研究と評価のために事前公開しています。これは、大規模言語モデルの知識構築、モデルの検証、およびうまくいくこととうまくいかないことの両方に関するフィードバックの収集のプロセスにおける重要なステップです。
- 主な想定ユーザー: モデルの検証とテストに貢献し、コミュニティにフィードバックを提供できる北欧の自然言語処理エコシステムの組織や個人。
- 想定外のユースケース: 修正されたRAILライセンスを参照してください。
データ、制限事項、および推奨事項
- トレーニングのためのデータ選択: GPT - SW3のトレーニングデータは、幅広さと可用性の組み合わせに基づいて選択されました。モデルのトレーニングに使用されたデータの詳細情報については、データシートを参照してください。
- 評価のためのデータ選択: 該当なし
- 制限事項: トレーニングデータの多様性(またはその欠如)がモデルの品質に下流的な影響を与える他の大規模言語モデルと同様に、GPT - SW3には、バイアスや安全性の面で制限があります。GPT - SW3は、生成の多様性や幻覚の面でも品質問題を抱えることがあります。一般的に、GPT - SW3は、現代の大規模言語モデルを悩ませる数多くの問題から免れることはできません。修正されたRAILライセンスで公開することで、大規模言語モデルのコミュニケーション、透明性、および研究を増やすことも期待しています。モデルは、一部の視点を過剰に表現し、他の視点を過小に表現する可能性があり、ステレオタイプを含み、憎しみ、虐待、暴力、差別的または偏見のある言語を生成する可能性があります。モデルは、誤りを犯すことがあり、事実のように誤った情報を生成することがあり、関連性のないまたは繰り返しの出力を生成することがあり、すべての設定に適さない内容(性的な内容を含む)を生成することがあります。
- 将来の作業の推奨事項: 間接的なユーザーは、彼らが扱っているコンテンツが大規模言語モデルによって作成されたものであることを認識する必要があります。ユーザーは、リスクと制限事項を認識し、必要に応じて適切な年齢表示またはブロッキングインターフェースを含める必要があります。大規模言語モデルで事前学習されたモデルには、更新されたモデルカードを含める必要があります。モデルのユーザーは、影響を受けた人がフィードバックを提供できるメカニズム(例えば、コメント用のメールアドレス)を提供する必要があります。
- 我々は、GPT - SW3の公開とモデルのトレーニングプロセスに関する情報が、大規模言語モデル、特に自然言語処理とディープラーニング全体に関するオープンサイエンスを促進することを期待しています。
GPT - SW3データシート
- 我々は、Gebru et al. (2021)の推奨事項に従い、GPT - SW3のトレーニングに使用されたデータセットのデータシートを提供します。
動機
- データセットはどのような目的で作成されましたか?特定のタスクが考えられていましたか?特定のギャップを埋める必要がありましたか?説明を提供してください。GPT - 3 (T. B. Brown et al., 2020)、Gopher (J. W. Rae et al., 2022)、BLOOM (T. L. Scao et al., 2022)などの大規模言語モデル(LLM)の事前学習には、数百GBまたは数千GBのテキストデータが必要です。最近の研究(Chinchilla: J. Hoffmann et al., 2022)では、トレーニングデータの規模が以前に想像されていたよりもさらに重要であることが示唆されています。したがって、スウェーデン語の大規模言語モデルをトレーニングするために、高品質の大規模なスウェーデン語データセットが必要でした。この取り組みの前にはそのようなデータセットは存在しなかったため、我々は北欧諸語と英語のデータを収集しました。
- データセットを作成したのは誰ですか(例えば、どのチーム、研究グループ)?どの主体のために作成されましたか(例えば、会社、機関、組織)?AI Swedenの戦略的イニシアチブ自然言語理解は、協力が重要な新しい研究環境を築きました。データセットの作成に取り組むコアチームは、AI SwedenのNLU研究グループです。このグループは、AI Sweden(Lindholmen Science Park AB)とRISEの研究者と開発者で構成されています。
- データセットの作成に資金を提供したのは誰ですか?関連する助成金がある場合は、助成金提供者の名前、助成金の名前と番号を提供してください。スウェーデンのイノベーション機関(Vinnova)が、2019 - 02996や2022 - 00949などのいくつかの異なる助成金を通じてこの作業に資金を提供しています。
- その他のコメントはありますか?なし。
構成
-
データセットを構成するインスタンスは何を表していますか(例えば、文書、写真、人、国)?複数のタイプのインスタンスがありますか(例えば、映画、ユーザー、評価;人とそれらの間の相互作用;ノードとエッジ)?説明を提供してください。インスタンスは、言語と文書タイプで分類されたテキスト文書です。データセットは、次のソースを含む、フィルタリングされ重複排除されたコレクションです。
-
書籍
- Litteraturbanken (https://litteraturbanken.se/)
- The Pile
-
記事
- Diva (https://www.diva - portal.org/)
- The Pile: PubMed
- The Pile: ArXiv
-
コード
- Code Parrot: Github code (https://huggingface.co/datasets/codeparrot/github - code)
-
会話
- Familjeliv (https://www.familjeliv.se/)
- Flashback (https://flashback.se/)
- Parlaiを通じて収集されたデータセット(データ論文の付録を参照してください) (https://github.com/facebookresearch/ParlAI)
- Pushshift.io Redditデータセット、Baumgartner et al. (2020)で開発され、Roller et al. (2021)で処理されました
-
数学
- DeepMindのコードで生成された英語の数学データセット (D. Saxton et al., 2019)
- 上記と同じように手動で翻訳されたテンプレートで生成されたスウェーデン語の数学データセット
-
その他
- 要約データ (https://www.ida.liu.se/~arnjo82/papers/clarin - 21 - julius.pdf)
- OPUS、オープンパラレルコーパス (https://opus.nlpl.eu/)
- 映画脚本 (https://github.com/Aveek - Saha/Movie - Script - Database)
- Natural Instructions (https://github.com/allenai/natural - instructions)
- P3 (Public Pool of Prompts), (https://huggingface.co/datasets/bigscience/P3)
- The Norwegian Colossal Corpus (https://huggingface.co/datasets/NbAiLab/NCC)
- Danish Gigaword (https://gigaword.dk/)
- Icelandic Gigaword (https://clarin.is/en/resources/gigaword/)
- The Pile: Stack Exchange
-
Web Common Crawl
- プロジェクトLES(Linguistic Explorations of Societies, https://les.gu.se)のWebデータ
- Multilingual C4 (MC4)、AllenAIによってC4 (C. Raffel et al., 2019)から準備されました
- Open Super - large Crawled Aggregated coRpus (OSCAR) (P. O. Suarez, 2019)
- The Pile: Open Web Text
-
Webソース
- 様々な公開スウェーデン語ウェブサイトのスクレイピング(データ論文の付録を参照)
- Familjelivの記事
- JobTech/Arbetsförmedlingenからの公開スウェーデン語の求人広告
- Wikipedia
- 公式Wikipediaダンプ
-
インストラクションデータ:
- dolly
- [Open Assistant](https://github.com/LAION - AI/Open - Assistant/blob/main/docs/docs/data/datasets.md)
- [OIG](https://laion.ai/blog/oig - dataset/)
- Fass: スウェーデン語の医薬品情報で、質問と回答の形式に変換されました。
-
-
合計でいくつのインスタンスがありますか(該当する場合は、各タイプのインスタンス数)?トレーニングデータは、1.1TBのUTF - 8エンコードされたテキストで構成され、合計3200億トークンを含む6億6000万の文書が含まれています。
-
データセットにはすべての可能なインスタンスが含まれているか、それともより大きなセットからのインスタンスのサンプル(必ずしもランダムではない)ですか?データセットがサンプルである場合、より大きなセットは何ですか?サンプルはより大きなセットを代表していますか(例えば、地理的なカバレッジ)?その場合、この代表性はどのように検証されましたか?もし代表していない場合は、その理由を説明してください(例えば、より多様なインスタンスをカバーするため、インスタンスが差し控えられたまたは利用できなかったため)。マルチリンガルなCommon Crawlデータセット(MC4、Oscar)からのデータセットのサブセットは、言語でフィルタリングされ、スウェーデン語、ノルウェー語、デンマーク語、およびアイスランド語のみが含まれます。The Pileからは、通常最も高いテキスト品質を持つ部分、または他に欠けているソースでデータセットの残りの部分を補完する部分のみを含めました。データセットの残りの部分は、上記のソースから収集されました。
-
各インスタンスはどのようなデータで構成されていますか?「生」データ(例えば、未処理のテキストまたは画像)または特徴量?いずれの場合も、説明を提供してください。各インスタンスは、生のテキストデータで構成されています。
-
各インスタンスに関連付けられたラベルまたはターゲットはありますか?その場合、説明を提供してください。なし。
-
個々のインスタンスから情報が欠落していますか?
📄 ライセンス
このモデルは、LICENSEの下で公開されています。



