M

Minicpm O 2 6

由openbmb開發
MiniCPM-o 2.6是一款手機端運行的GPT-4o級多模態大模型,支持視覺、語音與直播流處理
下載量 178.38k
發布時間 : 1/12/2025

模型概述

基於SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B構建的端到端全模態架構,參數量總計8B。相比MiniCPM-V 2.6實現顯著性能提升,新增即時語音對話與多模態直播流處理能力。

模型特點

頂尖視覺能力
在OpenCompass涵蓋8大基準的綜合評測中超越GPT-4o-202405、Gemini 1.5 Pro等商用閉源模型
領先語音技術
支持中英雙語即時語音對話與可配置音色,在ASR、STT翻譯等音頻理解任務上超越GPT-4o即時版
強悍直播處理
創新支持持續視頻/音頻流輸入與即時語音交互,實現開源社區最佳即時視頻理解
卓越OCR能力
OCRBench評測在25B以下模型中奪冠,支持任意長寬比圖像和180萬像素處理
極致效能
超高視覺token密度(單token編碼2822像素),可在iPad等終端設備流暢運行多模態直播

模型能力

視覺理解
語音識別
語音合成
即時語音對話
多圖像處理
視頻理解
OCR
語音克隆
直播流處理
多語言支持

使用案例

智能助手
即時語音助手
支持中英雙語即時語音交互,可配置音色和情感風格
在AudioArena語義/音質評測雙第一
多模態客服
同時處理語音、圖像和文本輸入,提供綜合解決方案
在MMHal-Bench可信度評測中超越GPT-4o
內容處理
直播內容分析
即時處理直播視頻流,提供內容理解和互動
在StreamingBench直播基準上超越GPT-4o-202408
文檔OCR
高精度識別任意長寬比文檔
OCRBench評測在25B以下模型中奪冠
創意應用
語音克隆
支持端到端語音克隆與描述式音色生成
在Seed-TTS測試集上表現優異
多模態創作
基於視覺和語音輸入的創意內容生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase