openfly-agent-7b开源模型 - 为空中视觉语言导航提供多功能工具和基准测试

首页

Openfly Agent 7b

由 IPEC-COMMUNITY 开发

OpenFly是一个用于空中视觉语言导航的平台，提供多功能工具链和大规模基准测试。

多模态融合

Transformers

英语开源协议:MIT #无人机视觉导航 #多模态动作预测 #空中VLN基准

下载量 234

发布时间 : 4/7/2025

模型简介

OpenFly是一个基于HuggingFace的视觉语言导航平台，专注于无人机动作预测，结合语言指令和视觉输入生成导航动作。

模型特点

多功能工具链

提供完整的视觉语言导航工具链，支持从输入处理到动作预测的全流程

大规模基准测试

包含大规模基准测试数据集OpenFly，用于评估空中导航性能

高效性能

基于HuggingFace实现，代码简洁且运行高效

多模态融合

有效融合视觉和语言信息，实现精准的无人机动作预测

模型能力

视觉语言理解

无人机动作预测

多模态信息融合

空中导航决策

使用案例

无人机自主导航

河流穿越导航

根据'飞过河流'的指令和视觉输入，预测无人机穿越路径

生成准确的飞行轨迹和动作序列

复杂环境避障

在复杂地形中结合视觉输入和导航指令实现避障

安全避开障碍物并到达目标位置

无人机任务规划

搜索救援任务

根据语音指令和实时图像规划搜索路径

高效覆盖搜索区域并定位目标

🚀 OpenFly

OpenFly是一个平台，包含用于空中视觉语言导航（VLN）的多功能工具链和大规模基准测试。该代码完全基于HuggingFace，简洁且性能高效。

✨ 主要特性

提供多功能工具链和大规模基准测试，适用于空中视觉语言导航。
代码基于HuggingFace，简洁且性能高效。

📦 安装指南

文档未提及具体安装步骤，暂不提供。

💻 使用示例

基础用法

from typing import Dict, List, Optional, Union
from pathlib import Path
import numpy as np
import torch
from PIL import Image
from transformers import LlamaTokenizerFast
from transformers import AutoConfig, AutoImageProcessor, AutoModelForVision2Seq, AutoProcessor
import os, json
from model.prismatic import PrismaticVLM
from model.overwatch import initialize_overwatch
from model.action_tokenizer import ActionTokenizer
from model.vision_backbone import DinoSigLIPViTBackbone, DinoSigLIPImageTransform
from model.llm_backbone import LLaMa2LLMBackbone
from extern.hf.configuration_prismatic import OpenFlyConfig
from extern.hf.modeling_prismatic import OpenVLAForActionPrediction
from extern.hf.processing_prismatic import PrismaticImageProcessor, PrismaticProcessor

AutoConfig.register("openvla", OpenFlyConfig)
AutoImageProcessor.register(OpenFlyConfig, PrismaticImageProcessor)
AutoProcessor.register(OpenFlyConfig, PrismaticProcessor)
AutoModelForVision2Seq.register(OpenFlyConfig, OpenVLAForActionPrediction)

model_name_or_path="IPEC-COMMUNITY/openfly-agent-7b"
processor = AutoProcessor.from_pretrained(model_name_or_path)
model = AutoModelForVision2Seq.from_pretrained(
    model_name_or_path, 
    attn_implementation="flash_attention_2",  # [Optional] Requires `flash_attn`
    torch_dtype=torch.bfloat16, 
    low_cpu_mem_usage=True, 
    trust_remote_code=True,
).to("cuda:0")

image = Image.fromarray(cv2.imread("example.png"))
prompt = "Take off, go straight pass the river"
inputs = processor(prompt, [image, image, image]).to("cuda:0", dtype=torch.bfloat16)
action = model.predict_action(**inputs, unnorm_key="vln_norm", do_sample=False)
print(action)

📚 详细文档

如需完整详细信息，请阅读我们的论文并查看我们的项目页面。

🔧 技术细节

模型详情

属性	详情
开发团队	由来自上海人工智能实验室的研究人员组成的OpenFly团队
模型类型	视觉语言导航（语言、图像 => 无人机动作）
语言	英语
许可证	MIT
预训练数据集	OpenFly
代码仓库	https://github.com/SHAILAB-IPEC/OpenFly-Platform
论文	OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation
项目页面与视频	https://shailab-ipec.github.io/openfly/