granite-7b-baseオープンソース大規模言語モデル - 無料でデプロイ可能、多様なシーンでのスマートダイアログアプリケーションをサポート

ホーム

Granite 7b Base

ibm-graniteによって開発

IBMがApache-2.0ライセンスで公開したオープンソース大規模言語モデルで、MetaのLlama2-7Bアーキテクチャを再現し、2Tトークンのデータでトレーニングされました。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #Llama2再現最適化 #英語事前学習大規模モデル #研究論文分析

ダウンロード数 3,653

リリース時間 : 4/19/2024

モデル概要

Granite-7b-baseはIBM研究所が開発した基本事前学習大規模モデルで、Llama2-7Bのオープンソースリファレンス実装として、主にテキスト生成と理解タスクに使用されます。

モデル特徴

オープンソースで商用利用可能

Apache-2.0ライセンスを採用し、商用利用や改変が許可されています

データ透明性

トレーニングデータソースとサンプリング比率を公開し、研究の透明性を促進します

大規模トレーニング

2Tトークンのデータと100万バッチ規模でトレーニングされました

モデル能力

英語テキスト生成

テキスト理解

コード生成（限定的）

質問応答システム

使用事例

研究開発

言語モデルベンチマークテスト

Llama2アーキテクチャのオープンソース実装リファレンスとして

MMLUなどのベンチマークテストでオリジナルに近い性能を発揮

商用アプリケーション

コンテンツ生成支援

初版テキストコンテンツの生成に使用

🚀 Granite-7b-base

IBMのオープンソースイノベーションへの取り組みを表す、IBMは、IBMのGraniteモデルシリーズからの事前学習済み言語モデルであるgranite-7b-baseをApache-2.0ライセンスの下でコミュニティと商用利用のために公開しました。Granite-7b-baseは、MetaのLlama-2-7Bのオープンなリファレンス実装として、IBMが選定したデータでゼロから事前学習されました。

✨ 主な機能

モデルアーキテクチャは、MHAを備えたMetaのLlama2-7Bベースバリアントを複製したもので、2Tトークンで100万のバッチサイズで学習されています。
コンテキスト長は4kトークンです。
トークナイザーにはLlama2を使用しています。

📦 インストール

READMEにインストール手順に関する具体的な内容が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル情報

属性	详情
モデル名	Granite-7b-base
ライセンス	Apache-2.0
言語	主に英語
モデルタイプ	MetaのLlama2-7Bベースバリアントを複製したアーキテクチャ（MHA搭載）
コンテキスト長	4kトークン
トークナイザー	Llama2
モデル開発者	IBM Research

事前学習データ

このモデルは2Tトークンで学習され、サンプリング割合はLlama1論文で公開されたサンプリング分布にできるだけ近づけるように設計されています。

データセット	説明	サンプリング割合	URL
Common Crawl	2021年から2023年までのスナップショットを含むウェブクロールデータのオープンリポジトリ。	77%	https://data.commoncrawl.org/
Github_Clean	CodeParrotからのコードデータで、様々なプログラミング言語をカバー。	5.50%	https://huggingface.co/datasets/codeparrot/github-code-clean
Wikipedia and Wikimedia	8つのウィキメディアプロジェクト（enwiki、enwikibooks、enwikinews、enwikiquote、enwikisource、enwikiversity、enwikivoyage、enwiktionary）から抽出された平文を含む。	2%	https://dumps.wikimedia.org
USPTO	1975年から2023年5月までに付与された米国特許（意匠特許を除く）。	5%	https://bulkdata.uspto.gov/
PubMed Central	生物医学および生命科学の論文。	1.75%	https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/
arXiv	arXivに投稿された180万を超える科学論文のプレプリント。	2.50%	https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T
StackExchange	人気のある質問と回答を中心としたウェブサイト群であるStack Exchangeネットワーク上のすべてのユーザー投稿コンテンツの匿名化セット。	1%	https://archive.org/details/stackexchange_20221206
PG19	米国の著作権が失効した古い作品を中心とした無料の電子書籍のリポジトリ。	0.25%	https://github.com/google-deepmind/pg19
Webhose	IBMが購入した非構造化ウェブコンテンツを機械可読なデータフィードに変換したもの。	5%	N/A

評価結果

LM-eval Harnessのスコア

評価指標	Llama2-7B (ベースライン)	Granite-7b-base
MMLU (ゼロショット)	0.41	0.43
MMLU (5ショット加重平均)	0.47	0.50
Arc challenge	0.46	0.44
Arc easy	0.74	0.71
Boolq	0.78	0.76
Copa	0.87	0.83
Hellaswag	0.76	0.74
Openbookqa	0.44	0.42
Piqa	0.79	0.79
Sciq	0.91	0.91
Winogrande	0.69	0.67
Truthfulqa	0.39	0.39
GSM8k (8ショット)	0.13	0.11

バイアス、リスク、および制限事項

Granite-7b-baseはベースモデルであり、セーフティアライメントは行われていないため、問題のある出力を生成する可能性があります。適切なセーフガードとRLHFがない場合、これらのモデルが誤情報や有害なコンテンツを生成するために悪用されるリスクがあります。重要な決定や影響力のある情報に関して特定の言語モデルに完全に依存することは避けるべきです。また、小規模なモデルがサイズや記憶容量の制限により、根拠のない生成シナリオで幻覚を起こしやすいかどうかは不明であり、現在活発な研究分野です。