I

Ichigo Llama3.1 S Instruct V0.4

由homebrewltd開發
基於Llama-3架構的多模態語言模型,支持音頻和文本輸入理解,具有噪聲魯棒性和多輪對話能力
下載量 486
發布時間 : 11/8/2024

模型概述

該模型是基於Llama-3架構開發的語音-文本多模態模型,通過監督微調增強了語音理解能力,特別優化了環境噪聲下的表現和多輪對話能力

模型特點

多模態輸入支持
原生支持音頻和文本輸入,能夠理解語音內容並生成文本響應
噪聲魯棒性
在訓練中加入了噪聲抑制能力,在嘈雜環境下仍能保持良好表現
多輪對話優化
通過新增的多輪語音對話數據訓練,增強了對話連貫性
高效訓練
使用torchtune庫實現FSDP2訓練,優化了訓練效率

模型能力

語音轉文本
文本生成
多輪對話
噪聲環境理解

使用案例

語音助手
智能語音助手
構建能夠理解語音指令並做出回應的智能助手
在AudioBench評估中獲得3.5分(GPT-4-O評分)
語音轉錄
會議記錄轉錄
將會議語音內容即時轉錄為文字
教育應用
語言學習助手
幫助學習者練習英語聽力和口語
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase