Fox-1-1.6Bオープンソース小型言語モデル - 大量のデータを活用して無料でテキストとコードの処理を実現

ホーム

Fox 1 1.6B

tensoroperaによって開発

Fox-1-1.6BはTensorOpera AIによって開発された16億パラメータの小型言語モデルで、グループ化クエリアテンションメカニズムを採用し、訓練データは3兆のテキストとコードに達します。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #8K長シーケンス処理 #グループ化クエリアテンション #コードテキスト事前学習

ダウンロード数 1,741

リリース時間 : 6/13/2024

モデル概要

Fox-1-1.6Bはデコーダベースの小型言語モデルで、テキスト生成とコード理解タスクに適しています。3ステージのデータコースで訓練され、8Kのシーケンス長をサポートします。

モデル特徴

高効率アテンションメカニズム

グループ化クエリアテンション(GQA)を採用し、4つのキーバリューヘッドと16個のアテンションヘッドで推論速度を向上させます。

大規模訓練データ

3兆のテキストとコードデータを使用して3ステージのコースで訓練します。

長シーケンスサポート

8Kの長さのシーケンス処理をサポートします。

モデル能力

テキスト生成

コード理解

少サンプル学習

使用事例

自然言語処理

テキスト生成

首尾一貫したテキスト内容を生成します。

質問応答システム

知識質問応答アプリケーションを構築します。

プログラミング支援

コード補完

プログラマーがコードを書くのを支援します。

🚀 Fox-1-1.6B モデル

Fox-1-1.6B は、TensorOpera AI によって開発された、総パラメータ数が 16 億のデコーダベースの小型言語モデル（SLM）です。このモデルは、3 段階のデータコースを使用して、3 兆のテキストとコードデータで訓練され、シーケンス長は 8K です。また、グループ化クエリアテンション（GQA）を採用し、4 つのキーバリューヘッドと 16 個のアテンションヘッドを持ち、より高速な推論を実現しています。

🚀 クイックスタート

⚠️ 重要な注意事項

このモデルは基礎的な事前学習モデルであり、ほとんどのユースケースではさらなる微調整が必要です。より対話的な体験を得るためには、tensoropera/Fox-1-1.6B-Instruct-v0.1 をおすすめします。これは Fox-1 の命令微調整版です。

このモデルの詳細を知りたい場合は、Fox-1 技術レポートとリリースブログ記事をご覧ください。

✨ 主な機能

パラメータ規模：総パラメータ数が 16 億で、小型言語モデルに分類されます。
訓練データ：3 段階のデータコースを使用して、3 兆のテキストとコードデータで訓練され、シーケンス長は 8K です。
アテンションメカニズム：グループ化クエリアテンション（GQA）を採用し、4 つのキーバリューヘッドと 16 個のアテンションヘッドを持ち、推論速度を向上させています。

📚 ドキュメント

ベンチマークテスト

Fox-1 は、ARC Challenge（25 回少サンプル）、HellaSwag（10 回少サンプル）、TruthfulQA（0 回少サンプル）、MMLU（5 回少サンプル）、Winogrande（5 回少サンプル）、および GSM8k（5 回少サンプル）で評価されました。Open LLM Leaderboard の評価設定に従い、これら 6 つのベンチマークの平均スコアを報告しています。このモデルは、8 つの H100 GPU を搭載したマシンで評価されました。

	Fox-1-1.6B	Qwen-1.5-1.8B	Gemma-2B	StableLM-2-1.6B	OpenELM-1.1B
GSM8k	36.39%	34.04%	17.06%	17.74%	2.27%
MMLU	43.05%	47.15%	41.71%	39.16%	27.28%
ARC Challenge	41.21%	37.20%	49.23%	44.11%	36.26%
HellaSwag	62.82%	61.55%	71.60%	70.46%	65.23%
TruthfulQA	38.66%	39.37%	33.05%	38.77%	36.98%
Winogrande	60.62%	65.51%	65.51%	65.27%	61.64%
Average	47.13%	46.81%	46.36%	45.92%	38.28%

Open LLM Leaderboard 評価結果

詳細な結果はこちらをご覧ください。

指標	値
平均値	7.69
IFEval (0 回少サンプル)	27.66
BBH (3 回少サンプル)	7.40
MATH Lvl 5 (4 回少サンプル)	1.28
GPQA (0 回少サンプル)	1.79
MuSR (0 回少サンプル)	3.87
MMLU-PRO (5 回少サンプル)	4.13