I

Ichigo Llama3.1 S Instruct V0.4

homebrewltdによって開発
Llama-3アーキテクチャに基づくマルチモーダル言語モデルで、音声とテキストの入力を理解し、ノイズ耐性とマルチターン対話能力を備えています
ダウンロード数 486
リリース時間 : 11/8/2024

モデル概要

このモデルはLlama-3アーキテクチャを基に開発された音声-テキストマルチモーダルモデルで、教師あり微調整により音声理解能力を強化し、特に環境ノイズ下での性能とマルチターン対話能力を最適化しています

モデル特徴

マルチモーダル入力サポート
音声とテキスト入力をネイティブにサポートし、音声内容を理解してテキスト応答を生成できます
ノイズ耐性
トレーニングにノイズ抑制能力を追加し、騒がしい環境でも良好な性能を維持できます
マルチターン対話最適化
新たに追加されたマルチターン音声対話データでトレーニングし、対話の一貫性を強化しました
効率的なトレーニング
torchtuneライブラリを使用してFSDP2トレーニングを実現し、トレーニング効率を最適化しました

モデル能力

音声からテキストへの変換
テキスト生成
マルチターン対話
ノイズ環境理解

使用事例

音声アシスタント
インテリジェント音声アシスタント
音声コマンドを理解して応答するインテリジェントアシスタントを構築
AudioBench評価で3.5点(GPT-4-Oスコア)を獲得
音声文字起こし
会議議事録の文字起こし
会議の音声内容をリアルタイムでテキストに変換
教育アプリケーション
言語学習アシスタント
学習者が英語のリスニングとスピーキングを練習するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase