EchoLLaMA-1B开源多模态AI - 3D视觉转语音、支持语音对话交互

首页

Echollama 1B

由 AquaLabs 开发

EchoLLaMA是一个多模态AI系统，能够将3D视觉数据转化为自然语音描述，同时支持通过语音输入进行交互对话。

图像生成文本

Transformers

#3D场景语音合成 #多模态AI系统 #深度感知描述

下载量 75

发布时间 : 3/31/2025

模型简介

基于LLaMA-3.2-1B-Instruct模型的实现，通过直接偏好优化（DPO）微调，用于生成丰富的3D场景文本描述。

模型特点

3D目标检测矩阵

构建基于网格的检测对象空间坐标表示

深度感知场景理解

整合相对深度值以捕捉3D空间关系

自然语言生成

生成连贯且上下文丰富的描述

高质量语音合成

将文本描述转换为自然流畅的语音

模型能力

3D场景描述生成

语音交互

多模态数据处理

目标检测

深度估计

使用案例

辅助技术

视觉辅助

为视障人士提供环境描述

通过语音输出帮助用户理解周围环境

智能家居

智能环境交互

通过语音与智能家居系统交互

实现自然语言控制家居设备

🚀 EchoLLaMA：借助多模态AI实现3D到语音的转换

EchoLLaMA是一个多模态AI系统，它能够将3D视觉数据转换为自然的语音描述，同时支持通过语音输入进行交互式对话。本项目实现了基于Direct Preference Optimization (DPO) 微调的LLaMA - 3.2 - 1B - Instruct模型，用于生成丰富的3D场景文本描述。

🚀 快速开始

安装

# 克隆仓库
git clone https://github.com/The-Aqua-Labs/EchoLLaMA-Pipeline.git
cd EchoLLaMA-Pipeline

然后运行Jupyter Notebook文件。

✨ 主要特性

3D物体检测矩阵：构建基于网格的检测物体表示，并带有空间坐标。
深度感知场景理解：结合相对深度值来捕捉3D关系。
自然语言生成：生成连贯且上下文丰富的描述。
高质量语音合成：将文本描述转换为自然的语音。

📦 安装指南

# 克隆仓库
git clone https://github.com/The-Aqua-Labs/EchoLLaMA-Pipeline.git
cd EchoLLaMA-Pipeline

运行Jupyter Notebook文件即可。

📚 详细文档

模型架构

EchoLLaMA管道集成了四个专门的模型：

图像分析：
- DETR（DEtection TRansformer）用于物体检测。
- MiDaS用于单目深度估计。
- Moondream用于整体图像描述生成。
文本生成：
- 基于DPO微调的LLaMA - 3.2 - 1B - Instruct。
语音合成：
- 在Elise英语语音数据集上微调的Orpheus - 3B - 0.1 - ft TTS模型。
语音识别：
- SpeechRecognition包用于转录用户语音输入。

训练细节

LLaMA模型

LLaMA - 3.2 - 1B - Instruct模型使用以下方法进行微调：

技术：使用LoRA的Direct Preference Optimization (DPO)。
数据集：来自COCO 2017的2000个样本，经过DETR和Moondream处理。
选择的响应：由DeepSeek - V3 - 0324生成。
拒绝的响应：由预微调的LLaMA - 3.2 - 1B - Instruct生成。
训练参数：
- LoRA秩：8
- β (DPO)：0.1
- 学习率：2×10⁻⁵，采用余弦衰减
- 批量大小：16（2×8累积）
- 序列长度：8192
硬件：2×T4 GPU
训练时间：1小时40分钟