Llama3.1-1B-Neo-BAAI-1000kオープンソース言語モデル - 高効率なテキスト処理、百万件のデータを基に訓練

Llama3.1 1B Neo BAAI 1000k

yang31210999によって開発

Llama3.1-Neo-1B-100wは、Meta-Llama-3.1-8B-Instructを1.4Bパラメータ規模にプルーニングし、LLM-Neoメソッド（LoRAと知識蒸留を組み合わせた）でファインチューニングした効率的な言語モデルです。トレーニングデータはBAAI/Infinity-Instructの100万行からサンプリングされています。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #知識蒸留最適化 #命令ファインチューニング #軽量LLM

ダウンロード数 39

リリース時間 : 9/10/2024

モデル概要

このモデルは、効率的なパラメータ知識蒸留を経た大規模言語モデルで、テキスト生成タスクに特化しており、様々な自然言語処理シナリオに適しています。

モデル特徴

効率的パラメータ知識蒸留

LLM-NeoメソッドによりLoRAと知識蒸留技術を組み合わせ、モデルパラメータを大幅に削減しながら性能を維持

軽量化設計

8Bパラメータから1.4Bへプルーニングし、計算リソース要件を大幅に低減

高品質ファインチューニングデータ

BAAI/Infinity-Instructデータセットから精選した100万行のデータを使用

モデル能力

テキスト生成

Q&Aシステム

命令追従

知識推論

使用事例

教育

学術Q&Aシステム

学生からの様々な学術質問に回答

CEVAL高等数学サブセットで31.58%の精度を達成

ビジネス

会計知識Q&A

基礎的な会計関連問題を処理

CEVAL会計サブセットで24.49%の精度を達成

汎用AIアシスタント

日常問題解決

日常生活の様々な質問に回答

PIQAベンチマークで58.43%の精度を達成

項目	詳細
ベースモデル	meta-llama/Meta-Llama-3.1-8B-Instruct
データセット	BAAI/Infinity-Instruct
ライセンス	apache-2.0
ライブラリ名	transformers
パイプラインタグ	text-generation

カテゴリ	ベンチマーク	バージョン	指標	値	標準誤差
ARC	ARC-Challenge	1	acc	0.1920	± 0.0115
ARC	ARC-Easy	1	acc	0.3834	± 0.0100
CEVAL	CEVAL (valid)	N/A	acc	0.2370	± 0.0117
CEVAL	CEVAL (Accountant)	1	acc	0.2449	± 0.0621
CEVAL	CEVAL (Advanced Mathematics)	1	acc	0.3158	± 0.1096
MMLU	MMLU	N/A	acc	0.2439	± 0.0036
MMLU	MMLU (Abstract Algebra)	0	acc	0.2500	± 0.0435
PIQA	PIQA	1	acc	0.5843	± 0.0115
PIQA	PIQA (Normalized)	1	acc_norm	0.5822	± 0.0115
Winogrande	Winogrande	1	acc	0.5249	± 0.0140