I

Ichigo Llama3.1 S Instruct V0.3 Phase 3

由homebrewltd開發
Ichigo-llama3s是一個支持音頻和文本輸入的大語言模型系列,專注於提升聲音理解能力和用戶交互體驗。
下載量 43
發布時間 : 9/25/2024

模型概述

該模型基於Llama-3架構開發,原生支持音頻和文本輸入,專注於提升處理聽不清輸入和多輪對話的能力,主要用於研究應用。

模型特點

多模態輸入支持
原生支持音頻和文本兩種輸入方式,能夠處理聲音標記和文本標記的混合輸入。
增強的聲音理解能力
特別優化了處理聽不清輸入和多輪對話的能力,提升了用戶交互體驗。
高效訓練
使用torchtune庫實現最新的FSDP2訓練代碼,訓練效率高。

模型能力

音頻理解
文本生成
多輪對話處理
聽不清輸入處理

使用案例

研究應用
聲音語言模型研究
用於探索大語言模型的聲音理解能力
在AudioBench評估中獲得3.64-3.68的GPT-4-O評分
人機交互研究
用於研究更自然的人機對話系統
優化了處理聽不清輸入和多輪對話的能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase