M

Mini Ichigo Llama3.2 3B S Instruct

homebrewltdによって開発
Llama-3アーキテクチャに基づくマルチモーダル言語モデルで、音声とテキスト入力の理解をネイティブにサポートし、大規模言語モデルの音声理解能力向上に焦点を当てています。
ダウンロード数 14
リリース時間 : 10/8/2024

モデル概要

このシリーズモデルはWhisperVQを音声ファイルトークナイザーとして使用し、音声セマンティックトークン実験を拡張、英語言語処理をサポートします。

モデル特徴

マルチモーダル入力サポート
音声とテキストのデュアルモーダル入力をネイティブにサポートし、音声ファイル変換のセマンティックトークンを処理可能。
効率的な音声処理
WhisperVQ音声トークナイザーを統合し、効率的な音声特徴抽出と変換を実現。
指示ファインチューニング最適化
約10億トークンの指示音声データセットを使用してファインチューニングを行い、音声理解能力を最適化。

モデル能力

音声理解
テキスト生成
マルチモーダル推論
指示追従

使用事例

音声インタラクション研究
音声指示理解
音声入力を含む複雑な指示を解析・実行
AudioBench評価で3.68点(GPT-4-Oスコア基準)を達成
教育技術
言語学習支援
音声入力を通じてリアルタイムの言語学習フィードバックを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase