M

Mini Ichigo Llama3.2 3B S Instruct

由homebrewltd開發
基於Llama-3架構的多模態語言模型,原生支持音頻與文本輸入理解,專注於提升大語言模型對音頻的理解能力。
下載量 14
發布時間 : 10/8/2024

模型概述

該系列模型通過WhisperVQ作為音頻文件標記器,擴展了音頻語義標記實驗,支持英語語言處理。

模型特點

多模態輸入支持
原生支持音頻與文本雙模態輸入,可處理音頻文件轉換的語義標記。
高效音頻處理
集成WhisperVQ音頻標記器,實現高效的音頻特徵提取與轉換。
指令微調優化
使用近10億token的指令語音數據集進行微調,優化音頻理解能力。

模型能力

音頻理解
文本生成
多模態推理
指令跟隨

使用案例

語音交互研究
語音指令理解
解析並執行包含音頻輸入的複雜指令
在AudioBench評估中達到3.68分(GPT-4-O評分標準)
教育技術
語言學習輔助
通過音頻輸入提供即時語言學習反饋
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase