RoofSense開源模型 - 免費部署實現多模態屋頂材料分類功能

首頁

Roofsense

由DimitrisMantas開發

RoofSense是一個用於多模態屋頂材料分類的編碼器-解碼器語義分割模型，結合了ResNet-18-D與DeepLabv3+架構。

圖像分割

Safetensors

#多模態屋頂分類 #抗鋸齒注意力機制 #航拍影像分割

下載量 26

發布時間 : 4/25/2025

模型概述

該模型採用編碼器-解碼器架構，專門用於航拍影像和激光雷達數據的屋頂材料分類任務，通過語義分割技術實現高精度識別。

模型特點

多模態數據融合

支持航拍影像和激光雷達數據的融合處理，提升屋頂材料分類的準確性。

改進的編碼器架構

編碼器模塊增加了抗鋸齒和高效通道注意力機制，優化了特徵提取能力。

優化的解碼器設計

解碼器的空洞空間金字塔池化模塊採用特定空洞率設置，輸出步長為16，提升小區域預測效果。

模型能力

航拍影像分析

激光雷達數據處理

屋頂材料分類

語義分割

使用案例

建築與城市規劃

屋頂材料識別

用於識別和分類建築物屋頂材料，支持建築維護和城市規劃。

平均準確率84.99%，整體準確率91.13%

遙感分析

航拍影像分割

對航拍影像進行語義分割，識別不同屋頂材料區域。

mIoU達到74.74%

🚀 RoofSense模型卡片

RoofSense是一個用於多模態屋頂材料分類的編碼器 - 解碼器語義分割模型，能有效處理相關圖像分割任務，為屋頂材料分類提供精準的解決方案。

📚 詳細文檔

🔍 模型詳情

模型描述

該模型採用編碼器 - 解碼器架構，將ResNet - 18 - D與DeepLabv3 + 相結合。經過超參數優化後，編碼器模塊增加了抗鋸齒和高效通道注意力模塊。此外，編碼器中的全局平均池化模塊被替換為平均池化和最大池化的均值。並且，解碼器的空洞空間金字塔池化模塊的膨脹率設置為$\left(20, 15, 6\right)$。最後，為解決標註錯誤並改善小區域的預測效果，解碼器的輸出步長設置為16。

開發者：Dimitris Mantas，荷蘭代爾夫特理工大學
模型類型：全卷積神經網絡
許可證：知識共享署名4.0國際許可協議
基礎模型：timm/resnet18d.ra2_in1k（遷移學習）

模型來源

倉庫：https://github.com/DimitrisMantas/RoofSense
資源：https://repository.tudelft.nl/record/uuid:c463e920 - 61e6 - 40c5 - 89e9 - 25354fadf549

📊 評估

屬性	詳情
基礎模型	timm/resnet18d.ra2_in1k
基礎模型關係	合併
數據集	DimitrisMantas/RoofSense
庫名稱	segmentation - models - pytorch
許可證	cc - by - 4.0
評估指標	準確率、混淆矩陣、F1分數、平均交併比、精確率、召回率
模型索引	名稱：RoofSense；結果：在RoofSense數據集上，平均準確率0.8499，總體準確率0.9113，平均精確率0.842，平均交併比0.7474；任務：語義分割
管道標籤	圖像分割
標籤	航空影像、激光雷達、數據融合、屋頂材料、屋頂材料分類、語義分割

🚀 快速開始

使用以下代碼開始使用該模型：

{{ get_started_code | default("[More Information Needed]", true)}}

💡 建議

⚠️ 重要提示

用戶（直接用戶和下游用戶）應瞭解模型的風險、偏差和侷限性。如需進一步建議，還需更多信息。

📚 引用

BibTeX：

{{ citation_bibtex | default("[More Information Needed]", true)}}

APA：

{{ citation_apa | default("[More Information Needed]", true)}}

Apache-2.0

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多語言圖像描述任務。

Nunchaku Flux.1 Dev Colossus

其他

Colossus Project Flux 的 Nunchaku 量化版本，旨在根據文本提示生成高質量圖像。該模型在優化推理效率的同時，將性能損失降至最低。

圖像生成英語

nunchaku-tech

235

Qwen2.5 VL 7B Abliterated Caption It GGUF

Apache-2.0

這是一個基於Qwen2.5-VL-7B模型的靜態量化版本，專注於圖像描述生成任務，支持多種語言。

olmOCR-7B-0725-FP8是基於Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225數據集微調後量化為FP8版本的文檔OCR模型。

Lucy-128k是基於Qwen3-1.7B開發的專注於代理式網絡搜索和輕量級瀏覽的模型，在移動設備上也能高效運行。

智啟未來，您的人工智能解決方案智庫

Roofsense

模型介紹

內容詳情

替代品

模型概述

模型特點

模型能力

使用案例

🚀 RoofSense模型卡片

📚 詳細文檔

🔍 模型詳情

模型描述

模型來源

📊 評估

🚀 快速開始

💡 建議

📚 引用

精選推薦AI模型