Kimi-Audio-7B-Instruct開源音頻模型 - 免費支持理解、生成、對話等多任務

首頁

Kimi Audio 7B Instruct

由moonshotai開發

金鳴音頻是一個在音頻理解、生成與對話方面表現卓越的開源音頻基礎模型，支持多種音頻處理任務。

語音識別

Safetensors

支持多種語言開源協議:MIT #多模態音頻處理 #端到端語音對話 #超大規模預訓練

下載量 1,626

發布時間 : 4/25/2025

模型概述

金鳴音頻是一個通用音頻基礎模型，能在統一框架下處理多種音頻處理任務，包括語音識別、音頻問答、音頻描述、語音情感識別等。

模型特點

全能處理能力

支持多種音頻處理任務，包括語音識別、音頻問答、音頻描述、語音情感識別等。

頂尖性能表現

在多項音頻基準測試中達到最先進水平。

超大規模預訓練

基於超1300萬小時的多樣化音頻數據（語音/音樂/環境聲）及文本數據訓練。

創新架構設計

採用混合音頻輸入與並行生成文本/音頻標記的大語言模型核心架構。

高效推理部署

配備基於流匹配的塊流式解碼器，實現低延遲音頻生成。

模型能力

音頻理解

音頻生成

語音識別

音頻問答

音頻描述

語音情感識別

聲學事件分類

聲學場景分類

端到端語音對話

使用案例

語音識別

音頻轉文本

將音頻文件轉換為文本內容。

高準確率的文本輸出。

多模態對話

音頻對話生成

根據輸入的音頻生成對話響應。

生成自然的對話音頻和文本。

🚀 Kimi-Audio

Kimi-Audio 是一個開源的音頻基礎模型，在音頻理解、生成和對話方面表現出色。它能在單一統一框架內處理多種音頻處理任務，為音頻領域的研究和應用提供了強大支持。

🚀 快速開始

環境準備

我們建議你構建一個 Docker 鏡像來運行推理。克隆推理代碼後，你可以使用 docker build 命令構建鏡像：

git clone https://github.com/MoonshotAI/Kimi-Audio
git submodule update --init
cd Kimi-Audio
docker build -t kimi-audio:v0.1 .

或者，你也可以使用我們預先構建的鏡像：

docker pull moonshotai/kimi-audio:v0.1

另外，你還可以通過以下命令安裝依賴：

pip install -r requirements.txt

如果遇到任何環境問題，請參考 Dockerfile。

代碼示例

以下示例展示瞭如何使用 Kimi-Audio-7B-Instruct 模型從音頻生成文本（自動語音識別，ASR），以及在對話回合中生成文本和語音：

import soundfile as sf
# 假設安裝後 KimiAudio 類可用
from kimia_infer.api.kimia import KimiAudio
import torch # 如果需要進行設備放置，請確保導入 torch

# --- 1. 加載模型 ---
# 從 Hugging Face Hub 加載模型
# 如果倉庫是私有的，請確保你已登錄 (`huggingface-cli login`)。
model_id = "moonshotai/Kimi-Audio-7B-Instruct" # 或者 "Kimi/Kimi-Audio-7B"
device = "cuda" if torch.cuda.is_available() else "cpu" # 示例設備放置
# 注意：KimiAudio 類處理模型加載的方式可能不同。
# 你可能需要直接傳遞 model_id，或者手動下載檢查點
# 並提供本地路徑，如原始 readme_kimia.md 所示。
# 請參考 Kimi-Audio 主倉庫獲取精確的加載說明。
# 假設 KimiAudio 接受 HF ID 或本地路徑的示例：
try:
    model = KimiAudio(model_path=model_id, load_detokenizer=True) # 可能需要設備參數
    model.to(device) # 示例設備放置
except Exception as e:
    print(f"從 HF Hub 自動加載可能需要特定設置。")
    print(f"參考 Kimi-Audio 文檔。嘗試本地路徑示例（更新路徑！）。錯誤: {e}")
    # 備用示例：
    # model_path = "/path/to/your/downloaded/kimia-hf-ckpt" # 重要：如果本地加載，請更新此路徑
    # model = KimiAudio(model_path=model_path, load_detokenizer=True)
    # model.to(device) # 示例設備放置

# --- 2. 定義採樣參數 ---
sampling_params = {
    "audio_temperature": 0.8,
    "audio_top_k": 10,
    "text_temperature": 0.0,
    "text_top_k": 5,
    "audio_repetition_penalty": 1.0,
    "audio_repetition_window_size": 64,
    "text_repetition_penalty": 1.0,
    "text_repetition_window_size": 16,
}

# --- 3. 示例 1: 音頻轉文本 (ASR) ---
# TODO: 提供用戶可訪問的實際示例音頻文件或 URL
# 例如，先下載示例文件或使用 URL
# wget https://path/to/your/asr_example.wav -O asr_example.wav
# wget https://path/to/your/qa_example.wav -O qa_example.wav
asr_audio_path = "asr_example.wav" # 重要：確保此文件存在
qa_audio_path = "qa_example.wav" # 重要：確保此文件存在

messages_asr = [
    {"role": "user", "message_type": "text", "content": "請轉錄以下音頻:"},
    {"role": "user", "message_type": "audio", "content": asr_audio_path}
]

# 僅生成文本輸出
# 注意：確保模型對象和 generate 方法在需要時接受設備放置
_, text_output = model.generate(messages_asr, **sampling_params, output_type="text")
print(">>> ASR 輸出文本: ", text_output)
# 預期輸出: "這並不是告別，這是一個篇章的結束，也是新篇章的開始。" (示例)

# --- 4. 示例 2: 音頻到音頻/文本對話 ---
messages_conversation = [
    {"role": "user", "message_type": "audio", "content": qa_audio_path}
]

# 生成音頻和文本輸出
wav_output, text_output = model.generate(messages_conversation, **sampling_params, output_type="both")

# 保存生成的音頻
output_audio_path = "output_audio.wav"
# 確保 wav_output 在 CPU 上並展平後再保存
sf.write(output_audio_path, wav_output.detach().cpu().view(-1).numpy(), 24000) # 假設輸出為 24kHz
print(f">>> 對話輸出音頻保存到: {output_audio_path}")
print(">>> 對話輸出文本: ", text_output)
# 預期輸出: "A." (示例)

print("Kimi-Audio 推理示例完成。")

✨ 主要特性

通用能力：能夠處理多種任務，如自動語音識別（ASR）、音頻問答（AQA）、音頻字幕生成（AAC）、語音情感識別（SER）、聲音事件/場景分類（SEC/ASC）以及端到端語音對話。
先進性能：在眾多音頻基準測試中取得了最先進的成果（詳見我們的技術報告）。
大規模預訓練：在超過 1300 萬小時的多樣化音頻數據（語音、音樂、聲音）和文本數據上進行了預訓練。
新穎架構：採用混合音頻輸入（連續聲學 + 離散語義標記）和具有並行頭的大語言模型（LLM）核心，用於文本和音頻標記生成。
高效推理：基於流匹配的分塊流式去標記器，實現低延遲音頻生成。

📚 詳細文檔

如需更多詳細信息，請參考我們的 GitHub 倉庫和技術報告。

📄 許可證

該模型基於 Qwen 2.5-7B 進行修改。源自 Qwen2.5-7B 的代碼遵循 Apache 2.0 許可證。代碼的其他部分遵循 MIT 許可證。

📖 引用

如果你在研究或應用中發現 Kimi-Audio 很有用，請引用我們的技術報告：

@misc{kimi_audio_2024,
      title={Kimi-Audio Technical Report},
      author={Kimi Team},
      year={2024},
      eprint={arXiv:placeholder},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}