luxia-21.4b-alignment-v1.2オープンソース大規模言語モデル - 無料デプロイで自然言語処理をサポート

ホーム

Luxia 21.4b Alignment V1.2

saltluxによって開発

LUXIA-21.4B-Alignmentは214億パラメータを持つ大規模言語モデルで、様々な自然言語処理タスクで卓越した性能を発揮します。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #214億パラメータ大規模モデル #DPO最適化アライメント #マルチタスクNLP

ダウンロード数 1,839

リリース時間 : 5/27/2024

モデル概要

このモデルは35Bパラメータ以下のモデルの中でトップクラスの性能を示し、72Bパラメータモデルや34Bx2混合専門家モデルを凌駕しています。luxia-21.4b-instructモデルからDPOトレーニングを経て派生しました。

モデル特徴

高性能

35Bパラメータ以下のモデルでトップクラスの性能を発揮し、より大規模なモデルを上回る

先進的なトレーニング手法

教師ありファインチューニング(SFT)や直接選好最適化(DPO)などの最先端技術を採用

高品質なトレーニングデータ

alpaca-gpt4-data、SlimOrcaなど複数の精選データセットを統合

モデル能力

テキスト生成

質問応答システム

自然言語理解

数学的推論

使用事例

教育

数学問題解答

GSM8Kデータセットの数学問題を解答

GSM8K評価で66.94点を獲得

知識質問応答

常識質問

ARCデータセットの常識問題に回答

ARC評価で77.73点を獲得

🚀 LUXIA-21.4B-Alignment

LUXIA-21.4B-Alignmentは、214億のパラメータを持つ大規模言語モデル（LLM）で、様々な自然言語処理（NLP）タスクにおいて卓越した性能を発揮します。350億以下のパラメータを持つモデルでは類を見ない最先端の性能を示し、720億モデルや340億×2のMoE（Mixture of Experts）モデルを上回っています。詳細は評価結果表を参照してください。

🚀 クイックスタート

LUXIA-21.4B-Alignmentは、自然言語処理タスクで高い性能を発揮する大規模言語モデルです。以下に使用方法を紹介します。

✨ 主な機能

350億以下のパラメータを持つモデルで最先端の性能を発揮。
720億モデルや340億×2のMoEモデルを上回る性能を示す。

📦 インストール

# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
    "saltlux/luxia-21.4b-alignment-v1.2",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

💻 使用例

基本的な使用法

# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
    "saltlux/luxia-21.4b-alignment-v1.2",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

📚 ドキュメント

モデルの派生元

luxia-21.4b-alignmentモデルは、luxia-21.4b-instructモデルをDPOトレーニングしたもので、luxia-21.4b-instructモデルはluxia-21.4bモデルをSFTトレーニングしたバージョンです。事前学習モデルと命令微調整モデルの両方を近日中にリリースする予定です。

命令微調整戦略

luxia-21.4b

internlm2-20b-llamaモデルをベースに、パススルー方式でレイヤーを拡張してベースモデルを作成しました。そして、作成したモデルの性能を回復するために継続的な事前学習を行いました。

luxia-21.4b-instructモデル

教師付き微調整（SFT）を含む最先端の命令微調整手法を利用しました。以下のデータセットを混合して使用しました。

c-s-ale/alpaca-gpt4-data
Open-Orca/SlimOrca
Metamathを利用した社内生成データ

luxia-21.4b-alignmentモデル

直接嗜好最適化（DPO）を含む最先端の命令微調整手法を利用しました。以下のデータセットを混合して使用しました。

jondurbin/truthy-dpo-v0.1
abacusai/ARC_DPO_FewShot
abacusai/HellaSwag_DPO_FewShot

データ汚染テスト結果

https://github.com/swj0419/detect-pretrain-code-contamination/tree/master を使用して汚染数を生成し、internlm2-20b-llamaを参照モデルとしています。luxia-21.4b-alignment-v1.2の結果は以下の通りです。