M

Mini Ichigo Llama3.2 3B S Instruct

由Menlo開發
Ichigo-llama3s系列模型是由Homebrew Research開發的多模態語言模型,原生支持音頻和文本輸入理解。該模型基於Llama-3架構,通過WhisperVQ作為音頻文件標記器進行訓練,提升了音頻理解能力。
下載量 22
發布時間 : 10/8/2024

模型概述

該模型主要面向研究應用,旨在提升大語言模型對音頻的理解能力。支持英語語言處理,可用於音頻到文本轉換等任務。

模型特點

多模態輸入支持
原生支持音頻和文本輸入理解,能夠處理複雜的多模態任務。
音頻語義標記
使用WhisperVQ作為音頻文件標記器,擴展了音頻語義標記實驗。
研究導向設計
主要面向研究應用,特別關注提升大語言模型對音頻的理解能力。

模型能力

音頻理解
文本生成
多模態處理

使用案例

研究應用
音頻語義理解研究
用於研究大語言模型對音頻內容的理解能力。
在AudioBench評估中取得2.58-3.68的GPT-4-O評分
教育應用
語音輔助學習
可作為語音輔助學習工具的基礎模型。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase