Kimi-Audio-7B-Instruct开源音频模型 - 免费支持理解、生成、对话等多任务

首页

Kimi Audio 7B Instruct

由 moonshotai 开发

金鸣音频是一个在音频理解、生成与对话方面表现卓越的开源音频基础模型，支持多种音频处理任务。

语音识别

Safetensors

支持多种语言开源协议:MIT #多模态音频处理 #端到端语音对话 #超大规模预训练

下载量 1,626

发布时间 : 4/25/2025

模型简介

金鸣音频是一个通用音频基础模型，能在统一框架下处理多种音频处理任务，包括语音识别、音频问答、音频描述、语音情感识别等。

模型特点

全能处理能力

支持多种音频处理任务，包括语音识别、音频问答、音频描述、语音情感识别等。

顶尖性能表现

在多项音频基准测试中达到最先进水平。

超大规模预训练

基于超1300万小时的多样化音频数据（语音/音乐/环境声）及文本数据训练。

创新架构设计

采用混合音频输入与并行生成文本/音频标记的大语言模型核心架构。

高效推理部署

配备基于流匹配的块流式解码器，实现低延迟音频生成。

模型能力

音频理解

音频生成

语音识别

音频问答

音频描述

语音情感识别

声学事件分类

声学场景分类

端到端语音对话

使用案例

语音识别

音频转文本

将音频文件转换为文本内容。

高准确率的文本输出。

多模态对话

音频对话生成

根据输入的音频生成对话响应。

生成自然的对话音频和文本。

🚀 Kimi-Audio

Kimi-Audio 是一个开源的音频基础模型，在音频理解、生成和对话方面表现出色。它能在单一统一框架内处理多种音频处理任务，为音频领域的研究和应用提供了强大支持。

🚀 快速开始

环境准备

我们建议你构建一个 Docker 镜像来运行推理。克隆推理代码后，你可以使用 docker build 命令构建镜像：

git clone https://github.com/MoonshotAI/Kimi-Audio
git submodule update --init
cd Kimi-Audio
docker build -t kimi-audio:v0.1 .

或者，你也可以使用我们预先构建的镜像：

docker pull moonshotai/kimi-audio:v0.1

另外，你还可以通过以下命令安装依赖：

pip install -r requirements.txt

如果遇到任何环境问题，请参考 Dockerfile。

代码示例

以下示例展示了如何使用 Kimi-Audio-7B-Instruct 模型从音频生成文本（自动语音识别，ASR），以及在对话回合中生成文本和语音：

import soundfile as sf
# 假设安装后 KimiAudio 类可用
from kimia_infer.api.kimia import KimiAudio
import torch # 如果需要进行设备放置，请确保导入 torch

# --- 1. 加载模型 ---
# 从 Hugging Face Hub 加载模型
# 如果仓库是私有的，请确保你已登录 (`huggingface-cli login`)。
model_id = "moonshotai/Kimi-Audio-7B-Instruct" # 或者 "Kimi/Kimi-Audio-7B"
device = "cuda" if torch.cuda.is_available() else "cpu" # 示例设备放置
# 注意：KimiAudio 类处理模型加载的方式可能不同。
# 你可能需要直接传递 model_id，或者手动下载检查点
# 并提供本地路径，如原始 readme_kimia.md 所示。
# 请参考 Kimi-Audio 主仓库获取精确的加载说明。
# 假设 KimiAudio 接受 HF ID 或本地路径的示例：
try:
    model = KimiAudio(model_path=model_id, load_detokenizer=True) # 可能需要设备参数
    model.to(device) # 示例设备放置
except Exception as e:
    print(f"从 HF Hub 自动加载可能需要特定设置。")
    print(f"参考 Kimi-Audio 文档。尝试本地路径示例（更新路径！）。错误: {e}")
    # 备用示例：
    # model_path = "/path/to/your/downloaded/kimia-hf-ckpt" # 重要：如果本地加载，请更新此路径
    # model = KimiAudio(model_path=model_path, load_detokenizer=True)
    # model.to(device) # 示例设备放置

# --- 2. 定义采样参数 ---
sampling_params = {
    "audio_temperature": 0.8,
    "audio_top_k": 10,
    "text_temperature": 0.0,
    "text_top_k": 5,
    "audio_repetition_penalty": 1.0,
    "audio_repetition_window_size": 64,
    "text_repetition_penalty": 1.0,
    "text_repetition_window_size": 16,
}

# --- 3. 示例 1: 音频转文本 (ASR) ---
# TODO: 提供用户可访问的实际示例音频文件或 URL
# 例如，先下载示例文件或使用 URL
# wget https://path/to/your/asr_example.wav -O asr_example.wav
# wget https://path/to/your/qa_example.wav -O qa_example.wav
asr_audio_path = "asr_example.wav" # 重要：确保此文件存在
qa_audio_path = "qa_example.wav" # 重要：确保此文件存在

messages_asr = [
    {"role": "user", "message_type": "text", "content": "请转录以下音频:"},
    {"role": "user", "message_type": "audio", "content": asr_audio_path}
]

# 仅生成文本输出
# 注意：确保模型对象和 generate 方法在需要时接受设备放置
_, text_output = model.generate(messages_asr, **sampling_params, output_type="text")
print(">>> ASR 输出文本: ", text_output)
# 预期输出: "这并不是告别，这是一个篇章的结束，也是新篇章的开始。" (示例)

# --- 4. 示例 2: 音频到音频/文本对话 ---
messages_conversation = [
    {"role": "user", "message_type": "audio", "content": qa_audio_path}
]

# 生成音频和文本输出
wav_output, text_output = model.generate(messages_conversation, **sampling_params, output_type="both")

# 保存生成的音频
output_audio_path = "output_audio.wav"
# 确保 wav_output 在 CPU 上并展平后再保存
sf.write(output_audio_path, wav_output.detach().cpu().view(-1).numpy(), 24000) # 假设输出为 24kHz
print(f">>> 对话输出音频保存到: {output_audio_path}")
print(">>> 对话输出文本: ", text_output)
# 预期输出: "A." (示例)

print("Kimi-Audio 推理示例完成。")

✨ 主要特性

通用能力：能够处理多种任务，如自动语音识别（ASR）、音频问答（AQA）、音频字幕生成（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）以及端到端语音对话。
先进性能：在众多音频基准测试中取得了最先进的成果（详见我们的技术报告）。
大规模预训练：在超过 1300 万小时的多样化音频数据（语音、音乐、声音）和文本数据上进行了预训练。
新颖架构：采用混合音频输入（连续声学 + 离散语义标记）和具有并行头的大语言模型（LLM）核心，用于文本和音频标记生成。
高效推理：基于流匹配的分块流式去标记器，实现低延迟音频生成。

📚 详细文档

如需更多详细信息，请参考我们的 GitHub 仓库和技术报告。

📄 许可证

该模型基于 Qwen 2.5-7B 进行修改。源自 Qwen2.5-7B 的代码遵循 Apache 2.0 许可证。代码的其他部分遵循 MIT 许可证。

📖 引用

如果你在研究或应用中发现 Kimi-Audio 很有用，请引用我们的技术报告：

@misc{kimi_audio_2024,
      title={Kimi-Audio Technical Report},
      author={Kimi Team},
      year={2024},
      eprint={arXiv:placeholder},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}