オープンソースIchigo-llama3.1-s-base-v0.3モデル - 音声とテキスト入力をサポートし、音声理解能力を向上させる

ホーム

Ichigo Llama3.1 S Base V0.3

Menloによって開発

Llama3-Sは音声とテキスト入力をサポートするマルチモーダル言語モデルで、Llama-3アーキテクチャを基に開発され、音声理解能力の向上に焦点を当てています。

音声生成テキスト

Safetensors

英語オープンソースライセンス:Apache-2.0 #音声テキスト双方向モーダル #大規模言語モデル拡張 #英語音声理解

ダウンロード数 18

リリース時間 : 9/9/2024

モデル概要

このモデルは拡張語彙ベースで継続事前学習を行い、音声とテキスト入力をネイティブサポートし、主に研究用途、特に音声理解能力の向上に使用されます。

モデル特徴

マルチモーダル入力サポート

音声とテキスト入力をネイティブサポートし、音声とテキストデータを処理できます。

音声理解最適化

継続的な事前学習と語彙拡張により、音声理解能力が大幅に向上しました。

効率的なトレーニング

最新のFSDP2トレーニングコードを使用し、トレーニング効率とリソース利用を最適化しました。

モデル能力

音声からテキストへの変換

テキスト生成

音声理解

使用事例

研究用途

音声理解研究

大規模言語モデルの音声理解能力向上の研究に使用されます。

🚀 ラマ3-S音声命令言語モデル

このモデルは、音声とテキストの入力をネイティブに理解することができ、主に研究用途を対象としています。

🚀 クイックスタート

このモデルは、音声とテキストの入力をネイティブに理解することができます。以下に詳細な情報を紹介します。

✨ 主な機能

音声とテキストの入力をネイティブに理解することができます。
拡張語彙での継続的事前学習により、音声理解能力を向上させています。

📚 ドキュメント

モデルの詳細

当社はllama3sファミリーを開発・リリースしました。このファミリーは、音声とテキストの入力をネイティブに理解することができます。

homebrewltd/llama3.1-s-whispervq-initの拡張語彙で、homebrewltd/raw-speech-whispervq-v1データセットからの9億トークンを使って継続的事前学習を行いました。

モデル開発者: Homebrew Research 入力: テキストと音声出力: テキスト モデルアーキテクチャ: Llama-3 言語: 英語

想定される使用方法

想定される使用事例: このファミリーは主に研究用途を対象としています。このバージョンは、大規模言語モデルの音声理解能力をさらに向上させることを目指しています。 想定外の使用: llama3-sを適用可能な法律や規制に違反する方法で使用することは、厳格に禁止されています。

学習プロセス

学習指標画像: 以下は、学習損失曲線を可視化したスナップショットです。

image/png

MMLU:

モデル	MMLUスコア
llama3.5-instruct-8b	69.40
ichigo-llama3.1-s-v0.3: phase 3	63.79
ichigo-llama3.1-s-v0.3: phase 2	63.08
ichigo-llama3.1-s-base-v0.3	42.11
llama3.5-instruct-v0.2	50.27

ハードウェア

GPU構成: 10台のNVIDIA A6000-48GBのクラスター GPU使用時間:

継続的学習: 30時間

学習引数

最新のFSDP2学習コード実装には、torchtuneライブラリを利用しています。

パラメータ	継続的学習
エポック	1
グローバルバッチサイズ	480
学習率	2e-4
学習スケジューラ	ウォームアップ付きコサイン
オプティマイザ	AdamW fused
ウォームアップステップ	50
重み減衰	0.01
最大シーケンス長	512

引用情報

BibTeX:

@article{Llama3-S: Sound Instruction Language Model 2024,
  title={Llama3-S},
  author={Homebrew Research},
  year=2024,
  month=August},
  url={https://huggingface.co/homebrewltd/llama3.1-s-2024-08-15}