モデル概要
モデル特徴
モデル能力
使用事例
🚀 GPT - SW3モデル
GPT - SW3は、AI SwedenがRISEやWASP WARA for Media and Languageと共同開発した大規模な言語モデルです。このモデルは、スウェーデン語、ノルウェー語、デンマーク語、アイスランド語、英語の5つの言語と4つのプログラミング言語で文章生成が可能です。
🚀 クイックスタート
このモデルはプライベートリポジトリなので、Pythonからアクセスするにはアクセストークンでログインする必要があります。huggingface-cli login
を使ってログインできます。詳細は HuggingFace Quick Start Guide を参照してください。
以下のコードスニペットは、トークナイザーとモデルをロードし、利用可能な場合はGPUを使用します。
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
# Initialize Variables
model_name = "AI-Sweden-Models/gpt-sw3-20b-instruct"
device = "cuda:0" if torch.cuda.is_available() else "cpu"
prompt = "Träd är fina för att"
# Initialize Tokenizer & Model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model.eval()
model.to(device)
generate
メソッドを使ったテキスト生成は以下のように行います。
input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(device)
generated_token_ids = model.generate(
inputs=input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.6,
top_p=1,
)[0]
generated_text = tokenizer.decode(generated_token_ids)
データ前処理で使用されるチャット形式は以下のようになります。
<|endoftext|><s>
User:
Jag tycker träd är fina
<s>
Bot:
Kul att du tycker det!
<s>
...
テキスト生成の手順は前と同じです。
prompt = """
<|endoftext|><s>
User:
Varför är träd fina?
<s>
Bot:
""".strip()
input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(device)
generated_token_ids = model.generate(
inputs=input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.6,
top_p=1,
)[0]
generated_text = tokenizer.decode(generated_token_ids)
generate
メソッドの便利な代替手段はHuggingFaceのパイプラインで、大部分の作業を自動的に処理します。
generator = pipeline('text-generation', tokenizer=tokenizer, model=model, device=device)
generated = generator(prompt, max_new_tokens=100, do_sample=True, temperature=0.6, top_p=1)[0]["generated_text"]
✨ 主な機能
- 多言語対応:GPT - SW3は、スウェーデン語、ノルウェー語、デンマーク語、アイスランド語、英語の5つの言語でコヒーレントな文章を生成できます。
- プログラミング言語対応:4つのプログラミング言語に対応しています。
- 命令型タスク実行:明示的に学習されていないテキストタスクも、テキスト生成タスクとして実行できます。
📚 ドキュメント
モデル説明
AI Sweden
ベースモデル
GPT - Sw3 126M | GPT - Sw3 356M | GPT - Sw3 1.3B
GPT - Sw3 6.7B | GPT - Sw3 6.7B v2 | GPT - Sw3 20B
GPT - Sw3 40B
命令型モデル
GPT - Sw3 126M Instruct | GPT - Sw3 356M Instruct | GPT - Sw3 1.3B Instruct
GPT - Sw3 6.7B v2 Instruct | GPT - Sw3 20B Instruct
量子化モデル
GPT - Sw3 6.7B v2 Instruct 4 - bit gptq | GPT - Sw3 20B Instruct 4 - bit gptq
GPT - SW3は、AI SwedenがRISEやWASP WARA for Media and Languageと共同開発した、デコーダーのみの大規模事前学習トランスフォーマー言語モデルのコレクションです。GPT - SW3は、スウェーデン語、ノルウェー語、デンマーク語、アイスランド語、英語、およびプログラミングコードを含む3200億トークンのデータセットで学習されています。モデルは、NeMo Megatron GPTの実装を使用して、因果言語モデリング(CLM)の目的で事前学習されました。
instruct
モデルは、チャットと生テキストの両方の形式の命令データで微調整されています。
想定される用途
GPT - SW3は自己回帰型の大規模言語モデルで、5つの異なる言語と4つのプログラミング言語でコヒーレントなテキストを生成できます。また、明示的に学習されていないテキストタスクも、テキスト生成タスクとして実行するように命令することができます。
制限事項
他の大規模言語モデルと同様に、学習データの多様性(またはその欠如)がモデルの品質に影響を与えるため、GPT - SW3にはバイアスや安全性などの制限があります。また、生成の多様性や幻覚に関する品質問題もあります。修正されたRAILライセンスで公開することで、大規模言語モデルのコミュニケーション、透明性、および研究を促進することを目指しています。このモデルは、一部の見解を過剰に表現し、他の見解を過小に表現する可能性があり、ステレオタイプを含み、憎悪的、虐待的、暴力的、差別的または偏見的な言語を生成する可能性があります。モデルは誤りを犯すことがあり、事実のように誤った情報を生成したり、関連性のないまたは繰り返しの出力を生成したり、すべての設定に適さない内容(性的な内容を含む)を生成することがあります。
モデル詳細
属性 | 详情 |
---|---|
開発者 | AI SwedenがRISEやWASP WARA for Media and Languageと共同開発 |
モデルのリリース日 | 2022 - 12 - 20 |
モデルのバージョン | GPT - SW3の第2世代 |
モデルタイプ | 大規模なデコーダーのみのトランスフォーマー言語モデル |
学習アルゴリズム等の情報 | NeMo Megatron GPTの実装を使用して学習 |
詳細情報の論文等 | N/A |
ライセンス | LICENSE |
質問やコメントの送信先 | nlu@ai.se |
想定される使用目的
- 主な想定用途:GPT - SW3は、北欧諸言語の大規模言語モデルの能力を研究および評価するために事前公開されています。これは、大規模言語モデルの知識構築、モデルの検証、およびうまく機能する点と機能しない点に関するフィードバックの収集の重要なステップです。
- 主な想定ユーザー:北欧の自然言語処理エコシステムにおける組織や個人で、モデルの検証とテストに貢献し、コミュニティにフィードバックを提供できる人々。
- 想定外の使用事例:修正されたRAILライセンスを参照してください。
データ、制限事項、および推奨事項
- 学習データの選択:GPT - SW3の学習データは、幅広さと可用性の組み合わせに基づいて選択されました。モデルの学習に使用されたデータの詳細情報については、データシートを参照してください。
- 評価データの選択:N/A
- 制限事項:他の大規模言語モデルと同様に、学習データの多様性(またはその欠如)がモデルの品質に影響を与えるため、GPT - SW3にはバイアスや安全性などの制限があります。また、生成の多様性や幻覚に関する品質問題もあります。一般的に、GPT - SW3は、現代の大規模言語モデルに見られる多くの問題から免れることはできません。修正されたRAILライセンスで公開することで、大規模言語モデルのコミュニケーション、透明性、および研究を促進することを目指しています。このモデルは、一部の見解を過剰に表現し、他の見解を過小に表現する可能性があり、ステレオタイプを含み、憎悪的、虐待的、暴力的、差別的または偏見的な言語を生成する可能性があります。モデルは誤りを犯すことがあり、事実のように誤った情報を生成したり、関連性のないまたは繰り返しの出力を生成したり、すべての設定に適さない内容(性的な内容を含む)を生成することがあります。
- 将来の作業の推奨事項:間接的なユーザーは、彼らが扱っているコンテンツが大規模言語モデルによって作成されたものであることを認識する必要があります。ユーザーはリスクと制限事項を認識し、必要に応じて適切な年齢表示またはブロッキングインターフェースを含める必要があります。大規模言語モデルで事前学習されたモデルには、更新されたモデルカードを含める必要があります。モデルのユーザーは、影響を受けた人がフィードバックを提供できるメカニズム(コメント用のメールアドレスなど)を提供する必要があります。
- 我々は、GPT - SW3の公開とモデル学習プロセスに関する情報が、大規模言語モデル、自然言語処理、および深層学習全般に関するオープンサイエンスを促進することを期待しています。
GPT - SW3データシート
- 我々は、Gebruら(2021)の推奨事項に従い、GPT - SW3の学習に使用されたデータセットのデータシートを提供します。
動機
- データセットは何を目的として作成されましたか?特定のタスクを念頭に置いていましたか?埋める必要があった特定のギャップはありましたか?説明を提供してください。GPT - 3(T. B. Brownら、2020)、Gopher(J. W. Raeら、2022)、BLOOM(T. L. Scaoら、2022)などの大規模言語モデル(LLM)の事前学習には、数百GBまたは数千GBのテキストデータが必要であり、最近の研究(Chinchilla: J. Hoffmannら、2022)では、学習データの規模が以前に想像されていたよりも重要であることが示唆されています。したがって、スウェーデン語のLLMを学習するために、高品質の大規模なスウェーデン語データセットが必要でした。この取り組み以前にそのようなデータセットは存在しなかったため、北欧諸言語と英語のデータを収集しました。
- データセットは誰が作成しましたか(例:どのチーム、研究グループ)?誰を代表して作成されましたか(例:会社、機関、組織)?AI Swedenの戦略的イニシアチブ自然言語理解は、協力が重要な新しい研究環境を築きました。データセットの作成に取り組むコアチームは、AI SwedenのNLU研究グループです。このグループは、AI Sweden(Lindholmen Science Park AB)とRISEの研究者と開発者で構成されています。
- データセットの作成には誰が資金を提供しましたか?関連する助成金がある場合は、助成金提供者の名前と助成金の名前と番号を提供してください。スウェーデンのイノベーション機関(Vinnova)が、2019 - 02996や2022 - 00949などのいくつかの異なる助成金を通じてこの作業に資金を提供しています。
- その他のコメントはありますか?いいえ。
構成
- データセットを構成するインスタンスは何を表していますか(例:ドキュメント、写真、人物、国)?複数のタイプのインスタンスがありますか(例:映画、ユーザー、評価;人物とそれらの間の相互作用;ノードとエッジ)?説明を提供してください。インスタンスは、言語とドキュメントタイプで分類されたテキストドキュメントです。このデータセットは、以下のソースを含むフィルタリングされた重複排除されたコレクションです。
- 書籍
- Litteraturbanken (https://litteraturbanken.se/)
- The Pile
- 記事
- Diva (https://www.diva - portal.org/)
- The Pile: PubMed
- The Pile: ArXiv
- コード
- Code Parrot: Github code (https://huggingface.co/datasets/codeparrot/github - code)
- 会話
- Familjeliv (https://www.familjeliv.se/)
- Flashback (https://flashback.se/)
- Parlaiを通じて収集されたデータセット(データ論文の付録を参照)(https://github.com/facebookresearch/ParlAI)
- Pushshift.io Redditデータセット、Baumgartnerら(2020)で開発され、Rollerら(2021)で処理されたもの
- 数学
- DeepMindのコードで生成された英語の数学データセット(D. Saxtonら、2019)
- 上記と同じように手動で翻訳されたテンプレートで生成されたスウェーデン語の数学データセット
- その他
- 要約データ (https://www.ida.liu.se/~arnjo82/papers/clarin - 21 - julius.pdf)
- OPUS、オープンパラレルコーパス (https://opus.nlpl.eu/)
- 映画脚本 (https://github.com/Aveek - Saha/Movie - Script - Database)
- Natural Instructions (https://github.com/allenai/natural - instructions)
- P3 (Public Pool of Prompts), (https://huggingface.co/datasets/bigscience/P3)
- The Norwegian Colossal Corpus (https://huggingface.co/datasets/NbAiLab/NCC)
- Danish Gigaword (https://gigaword.dk/)
- Icelandic Gigaword (https://clarin.is/en/resources/gigaword/)
- The Pile: Stack Exchange
- Web Common Crawl
- プロジェクトLES(Linguistic Explorations of Societies, https://les.gu.se)のWebデータ
- Multilingual C4(MC4)、AllenAIによってC4(C. Raffelら、2019)から準備されたもの
- Open Super - large Crawled Aggregated coRpus(OSCAR)(P. O. Suarez, 2019)
- The Pile: Open Web Text
- Webソース
- 様々な公開スウェーデン語ウェブサイトのスクレイピング(データ論文の付録を参照)
- Familjelivの記事
- JobTech/Arbetsförmedlingenからの公開スウェーデン語の求人広告
- Wikipedia
- 公式Wikipediaダンプ
- 命令データ
- dolly
- [Open Assistant](https://github.com/LAION - AI/Open - Assistant/blob/main/docs/docs/data/datasets.md)
- [OIG](https://laion.ai/blog/oig - dataset/)
- Fass: スウェーデン語の医薬品情報で、質問と回答の形式に変換されたもの。
- 書籍
- 合計でいくつのインスタンスがありますか(適切な場合は、各タイプのインスタンス数)?学習データは、1.1TBのUTF - 8エンコードされたテキストで構成され、合計3200億トークンを含む6億6000万のドキュメントが含まれています。
- データセットにはすべての可能なインスタンスが含まれていますか、それともより大きなセットからのインスタンスのサンプル(必ずしもランダムではない)ですか?データセットがサンプルである場合、より大きなセットは何ですか?サンプルはより大きなセットを代表していますか(例:地理的なカバレッジ)?その場合は、この代表的な性質がどのように検証されたかを説明してください。もし代表的でない場合は、その理由を説明してください(例:より多様なインスタンスの範囲をカバーするため、インスタンスが差し控えられたり利用できなかったため)。多言語のCommon Crawlデータセット(MC4、Oscar)からのデータセットのサブセットは、言語でフィルタリングされ、スウェーデン語、ノルウェー語、デンマーク語、およびアイスランド語のみが含まれます。The Pileからは、通常最も高いテキスト品質の部分または他のソースで欠けているソースで残りのデータセットを補完する部分のみを含めました。データセットの残りの部分は、上記のソースから収集されました。
- 各インスタンスはどのようなデータで構成されていますか?「生」データ(例:未処理のテキストまたは画像)または特徴量ですか?いずれの場合も、説明を提供してください。各インスタンスは生のテキストデータで構成されています。
- 各インスタンスに関連付けられたラベルまたはターゲットはありますか?その場合は、説明を提供してください。いいえ。
- 個々のインスタンスから欠落している情報はありますか?
📄 ライセンス
このモデルは LICENSE の下で公開されています。



