🚀 Granite-7b-base
IBMのオープンソースイノベーションへの取り組みを表す、IBMは、IBMのGraniteモデルシリーズからの事前学習済み言語モデルであるgranite-7b-baseをApache-2.0ライセンスの下でコミュニティと商用利用のために公開しました。Granite-7b-baseは、MetaのLlama-2-7Bのオープンなリファレンス実装として、IBMが選定したデータでゼロから事前学習されました。
✨ 主な機能
- モデルアーキテクチャは、MHAを備えたMetaのLlama2-7Bベースバリアントを複製したもので、2Tトークンで100万のバッチサイズで学習されています。
- コンテキスト長は4kトークンです。
- トークナイザーにはLlama2を使用しています。
📦 インストール
READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデル情報
属性 |
详情 |
モデル名 |
Granite-7b-base |
ライセンス |
Apache-2.0 |
言語 |
主に英語 |
モデルタイプ |
MetaのLlama2-7Bベースバリアントを複製したアーキテクチャ(MHA搭載) |
コンテキスト長 |
4kトークン |
トークナイザー |
Llama2 |
モデル開発者 |
IBM Research |
事前学習データ
このモデルは2Tトークンで学習され、サンプリング割合はLlama1論文で公開されたサンプリング分布にできるだけ近づけるように設計されています。
データセット |
説明 |
サンプリング割合 |
URL |
Common Crawl |
2021年から2023年までのスナップショットを含むウェブクロールデータのオープンリポジトリ。 |
77% |
https://data.commoncrawl.org/ |
Github_Clean |
CodeParrotからのコードデータで、様々なプログラミング言語をカバー。 |
5.50% |
https://huggingface.co/datasets/codeparrot/github-code-clean |
Wikipedia and Wikimedia |
8つのウィキメディアプロジェクト(enwiki、enwikibooks、enwikinews、enwikiquote、enwikisource、enwikiversity、enwikivoyage、enwiktionary)から抽出された平文を含む。 |
2% |
https://dumps.wikimedia.org |
USPTO |
1975年から2023年5月までに付与された米国特許(意匠特許を除く)。 |
5% |
https://bulkdata.uspto.gov/ |
PubMed Central |
生物医学および生命科学の論文。 |
1.75% |
https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/ |
arXiv |
arXivに投稿された180万を超える科学論文のプレプリント。 |
2.50% |
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T |
StackExchange |
人気のある質問と回答を中心としたウェブサイト群であるStack Exchangeネットワーク上のすべてのユーザー投稿コンテンツの匿名化セット。 |
1% |
https://archive.org/details/stackexchange_20221206 |
PG19 |
米国の著作権が失効した古い作品を中心とした無料の電子書籍のリポジトリ。 |
0.25% |
https://github.com/google-deepmind/pg19 |
Webhose |
IBMが購入した非構造化ウェブコンテンツを機械可読なデータフィードに変換したもの。 |
5% |
N/A |
評価結果
LM-eval Harnessのスコア
評価指標 |
Llama2-7B (ベースライン) |
Granite-7b-base |
MMLU (ゼロショット) |
0.41 |
0.43 |
MMLU (5ショット加重平均) |
0.47 |
0.50 |
Arc challenge |
0.46 |
0.44 |
Arc easy |
0.74 |
0.71 |
Boolq |
0.78 |
0.76 |
Copa |
0.87 |
0.83 |
Hellaswag |
0.76 |
0.74 |
Openbookqa |
0.44 |
0.42 |
Piqa |
0.79 |
0.79 |
Sciq |
0.91 |
0.91 |
Winogrande |
0.69 |
0.67 |
Truthfulqa |
0.39 |
0.39 |
GSM8k (8ショット) |
0.13 |
0.11 |
バイアス、リスク、および制限事項
Granite-7b-baseはベースモデルであり、セーフティアライメントは行われていないため、問題のある出力を生成する可能性があります。適切なセーフガードとRLHFがない場合、これらのモデルが誤情報や有害なコンテンツを生成するために悪用されるリスクがあります。重要な決定や影響力のある情報に関して特定の言語モデルに完全に依存することは避けるべきです。また、小規模なモデルがサイズや記憶容量の制限により、根拠のない生成シナリオで幻覚を起こしやすいかどうかは不明であり、現在活発な研究分野です。
学習に関する詳細情報
このモデルの学習に関する詳細情報については、ブログをご確認ください:https://pytorch.org/blog/maximizing-training/
📄 ライセンス
このモデルはApache-2.0ライセンスの下で公開されています。