🚀 上传的模型
本项目上传了一个经过微调的模型,该模型基于特定的基础模型进行训练,具备高效训练和高质量语音合成等特点。
模型信息
属性 |
详情 |
基础模型 |
unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit |
标签 |
text-generation-inference、transformers、unsloth、llama、trl、tts、text-to-speech、gguf、llama-cpp-python |
许可证 |
apache-2.0 |
库名称 |
transformers |
语言 |
en |
数据集 |
MrDragonFox/Elise |
模型微调信息
- 微调者:Prince-1
- 许可证:apache-2.0
- 基础微调模型:unsloth/orpheus-3b-0.1-ft-unsloth-bnb-4bit
这个Llama模型使用 Unsloth 和Huggingface的TRL库进行训练,速度提升了2倍。

Orpheus TTS是一款基于Llama的先进语音大语言模型(Speech-LLM),专为高质量、富有同理心的文本转语音生成而设计。该模型经过微调,能够实现接近人类水平的语音合成,在清晰度、表现力和实时流式传输性能方面表现出色。
✨ 主要特性
模型能力
- 类人语音:具有自然的语调、情感和节奏,优于当前最先进的闭源模型。
- 零样本语音克隆:无需事先微调即可克隆语音。
- 情感和语调引导:通过简单的标签控制语音和情感特征。
- 低延迟:实时应用的流式传输延迟约为200ms,使用输入流式传输可将延迟降低至约100ms。
模型资源
🔧 技术细节
量化
模型已转换为 GGUF
格式。
可选择的 quantization_method
如下:
- not_quantized:推荐。转换速度快,推理速度慢,文件大。
- fast_quantized:推荐。转换速度快,推理效果一般,文件大小适中。
- quantized:推荐。转换速度慢,推理速度快,文件小。
- f32:不推荐。保留100%的精度,但速度极慢且占用大量内存。
- f16:转换速度最快,保留100%的精度,但速度慢且占用大量内存。
- q8_0:转换速度快,资源使用高,但通常可以接受。
- q4_k_m:推荐。对
attention.wv
和 feed_forward.w2
张量的一半使用Q6_K,其余使用Q4_K。
- q5_k_m:推荐。对
attention.wv
和 feed_forward.w2
张量的一半使用Q6_K,其余使用Q5_K。
- q2_k:对
attention.vw
和 feed_forward.w2
张量使用Q4_K,对其他张量使用Q2_K。
- q3_k_l:对
attention.wv
、attention.wo
和 feed_forward.w2
张量使用Q5_K,其余使用Q3_K。
- q3_k_m:对
attention.wv
、attention.wo
和 feed_forward.w2
张量使用Q4_K,其余使用Q3_K。
- q3_k_s:对所有张量使用Q3_K。
- q4_0:原始的4位量化方法。
- q4_1:比q4_0精度高,但不如q5_0。不过,推理速度比q5模型快。
- q4_k_s:对所有张量使用Q4_K。
- q4_k:q4_k_m的别名。
- q5_k:q5_k_m的别名。
- q5_0:精度更高,资源使用更多,推理速度更慢。
- q5_1:精度更高,资源使用更多,推理速度更慢。
- q5_k_s:对所有张量使用Q5_K。
- q6_k:对所有张量使用Q8_K。
💻 使用示例
基础用法
模型使用 llama-cpp-python
模块进行调用,该模块为llama-cpp提供了Python绑定。
from llama-cpp-python import LLM
📄 许可证
本模型使用 apache-2.0
许可证。
📚 模型使用规范
⚠️ 重要提示
未经同意,请勿使用我们的模型进行冒充、传播错误信息或欺骗行为(包括虚假新闻或欺诈性电话),或任何非法或有害活动。使用此模型即表示您同意遵守所有适用的法律和道德准则。我们对任何使用行为不承担责任。