YOLO LLaMa 7B VisNav

Y

YOLO LLaMa 7B VisNav

由LearnItAnyway開發

本項目整合了YOLO目標檢測模型與LLaMa 2 7b大語言模型，旨在為視障人士的日常出行提供輔助導航支持。

多模態融合

開源協議:其他 #視障導航 #多模態融合 #即時物體檢測

下載量 19

發布時間 : 7/26/2023

模型概述

該項目結合計算機視覺與自然語言處理技術，通過YOLO模型檢測環境物體並轉換為結構化數據，再由LLaMa語言模型生成導航指引，實現多模態輔助導航系統。

模型特點

多模態融合

結合視覺檢測與語言理解能力，實現環境感知與自然語言交互

無障礙設計

專門為視障人士優化的導航系統，提供口語化環境描述

即時處理

YOLO模型實現高效物體檢測，滿足即時導航需求

模型能力

環境物體檢測

空間關係理解

導航指令生成

多輪對話交互

使用案例

無障礙輔助

室內導航

識別門、電梯等關鍵設施並提供方位指引

幫助視障人士獨立完成室內移動

障礙物預警

檢測行進路徑上的障礙物並語音提示

降低碰撞風險

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase