M

Mini Ichigo Llama3.2 3B S Instruct

Menloによって開発
Ichigo-llama3sシリーズモデルはHomebrew Researchが開発したマルチモーダル言語モデルで、音声とテキストの入力をネイティブに理解できます。このモデルはLlama-3アーキテクチャを基盤としており、WhisperVQを音声ファイルトークナイザーとして使用してトレーニングされ、音声理解能力が向上しています。
ダウンロード数 22
リリース時間 : 10/8/2024

モデル概要

このモデルは主に研究用途を対象としており、大規模言語モデルの音声理解能力を向上させることを目的としています。英語の言語処理をサポートし、音声からテキストへの変換などのタスクに使用できます。

モデル特徴

マルチモーダル入力サポート
音声とテキスト入力をネイティブに理解し、複雑なマルチモーダルタスクを処理できます。
音声セマンティックトークン化
WhisperVQを音声ファイルトークナイザーとして使用し、音声セマンティックトークン化の実験を拡張しました。
研究指向設計
主に研究用途を対象としており、特に大規模言語モデルの音声理解能力向上に焦点を当てています。

モデル能力

音声理解
テキスト生成
マルチモーダル処理

使用事例

研究応用
音声セマンティック理解研究
大規模言語モデルの音声内容理解能力を研究するために使用されます。
AudioBench評価で2.58-3.68のGPT-4-Oスコアを獲得
教育応用
音声支援学習
音声支援学習ツールの基礎モデルとして使用できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase