V

Voxtral Mini 3B 2507 Transformers

由MohamedRashad開發
Voxtral Mini是基於Ministral 3B的增強版本,具備先進的音頻輸入能力,在語音轉錄、翻譯和音頻理解等方面表現出色。
下載量 416
發布時間 : 7/18/2025

模型概述

Voxtral Mini是一個結合文本和音頻處理能力的多模態模型,保留了Ministral 3B的文本處理能力,同時增加了強大的音頻理解功能。

模型特點

專用轉錄模式
可以在純語音轉錄模式下運行,自動識別源音頻語言並進行文本轉錄
長上下文處理
支持32k標記的上下文長度,可處理長達30-40分鐘的音頻
內置問答和摘要功能
支持直接通過音頻提問並生成結構化摘要,無需單獨的ASR和語言模型
原生多語言支持
自動檢測並支持8種主要語言的音頻處理
語音直接調用功能
能夠根據語音意圖直接觸發後端功能、工作流或API調用

模型能力

語音轉錄
音頻理解
多語言支持
長音頻處理
文本生成
問答系統
摘要生成
多輪對話

使用案例

語音處理
會議記錄轉錄
將長達30分鐘的會議錄音自動轉錄為文字
高準確率的轉錄文本
多語言語音翻譯
將一種語言的語音即時翻譯為另一種語言的文本
支持8種主要語言的互譯
音頻分析
音頻內容理解
直接對音頻內容提問並獲取答案
無需先轉錄即可理解音頻內容
音頻摘要生成
分析長音頻並生成結構化摘要
節省人工整理時間
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase