I

Ichigo Llama3.1 S Instruct V0.3 Phase 2

由homebrewltd開發
Ichigo-llama3s系列模型原生支持音頻和文本輸入理解,基於Llama-3架構,使用WhisperVQ作為音頻文件的tokenizer。
下載量 16
發布時間 : 9/17/2024

模型概述

該模型主要用於研究應用,旨在提升大語言模型的音頻理解能力。支持英語,輸入為文本和音頻,輸出為文本。

模型特點

多模態輸入支持
原生支持音頻和文本輸入理解,擴展了傳統LLM的能力。
WhisperVQ音頻tokenizer
使用WhisperVQ作為音頻文件的tokenizer,提升了音頻處理的效率和質量。
研究導向
主要用於研究應用,特別關注音頻理解能力的提升。

模型能力

音頻理解
文本生成
多模態輸入處理

使用案例

研究應用
音頻指令理解
理解並執行基於音頻的指令,如語音命令。
在語音指令基準測試中獲得較高分數。
多模態對話系統
構建支持音頻和文本輸入的對話系統。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase