EchoLLaMA-1B開源多模態AI - 3D視覺轉語音、支持語音對話交互

首頁

Echollama 1B

由AquaLabs開發

EchoLLaMA是一個多模態AI系統，能夠將3D視覺數據轉化為自然語音描述，同時支持通過語音輸入進行交互對話。

圖像生成文本

Transformers

#3D場景語音合成 #多模態AI系統 #深度感知描述

下載量 75

發布時間 : 3/31/2025

模型概述

基於LLaMA-3.2-1B-Instruct模型的實現，通過直接偏好優化（DPO）微調，用於生成豐富的3D場景文本描述。

模型特點

3D目標檢測矩陣

構建基於網格的檢測對象空間座標表示

深度感知場景理解

整合相對深度值以捕捉3D空間關係

自然語言生成

生成連貫且上下文豐富的描述

高質量語音合成

將文本描述轉換為自然流暢的語音

模型能力

3D場景描述生成

語音交互

多模態數據處理

目標檢測

深度估計

使用案例

輔助技術

視覺輔助

為視障人士提供環境描述

通過語音輸出幫助用戶理解周圍環境

智能家居

智能環境交互

通過語音與智能家居系統交互

實現自然語言控制家居設備

🚀 EchoLLaMA：藉助多模態AI實現3D到語音的轉換

EchoLLaMA是一個多模態AI系統，它能夠將3D視覺數據轉換為自然的語音描述，同時支持通過語音輸入進行交互式對話。本項目實現了基於Direct Preference Optimization (DPO) 微調的LLaMA - 3.2 - 1B - Instruct模型，用於生成豐富的3D場景文本描述。

🚀 快速開始

安裝

# 克隆倉庫
git clone https://github.com/The-Aqua-Labs/EchoLLaMA-Pipeline.git
cd EchoLLaMA-Pipeline

然後運行Jupyter Notebook文件。

✨ 主要特性

3D物體檢測矩陣：構建基於網格的檢測物體表示，並帶有空間座標。
深度感知場景理解：結合相對深度值來捕捉3D關係。
自然語言生成：生成連貫且上下文豐富的描述。
高質量語音合成：將文本描述轉換為自然的語音。

📦 安裝指南

# 克隆倉庫
git clone https://github.com/The-Aqua-Labs/EchoLLaMA-Pipeline.git
cd EchoLLaMA-Pipeline

運行Jupyter Notebook文件即可。

📚 詳細文檔

模型架構

EchoLLaMA管道集成了四個專門的模型：

圖像分析：
- DETR（DEtection TRansformer）用於物體檢測。
- MiDaS用於單目深度估計。
- Moondream用於整體圖像描述生成。
文本生成：
- 基於DPO微調的LLaMA - 3.2 - 1B - Instruct。
語音合成：
- 在Elise英語語音數據集上微調的Orpheus - 3B - 0.1 - ft TTS模型。
語音識別：
- SpeechRecognition包用於轉錄用戶語音輸入。

訓練細節

LLaMA模型

LLaMA - 3.2 - 1B - Instruct模型使用以下方法進行微調：

技術：使用LoRA的Direct Preference Optimization (DPO)。
數據集：來自COCO 2017的2000個樣本，經過DETR和Moondream處理。
選擇的響應：由DeepSeek - V3 - 0324生成。
拒絕的響應：由預微調的LLaMA - 3.2 - 1B - Instruct生成。
訓練參數：
- LoRA秩：8
- β (DPO)：0.1
- 學習率：2×10⁻⁵，採用餘弦衰減
- 批量大小：16（2×8累積）
- 序列長度：8192
硬件：2×T4 GPU
訓練時間：1小時40分鐘