🚀 Google medgemma - 27b - it的Llamacpp imatrix量化版本
本项目是对Google的medgemma - 27b - it模型进行的Llamacpp imatrix量化。该模型主要应用于医疗领域,如X光、病理学、皮肤病学、眼底检查等方面,可进行图像 - 文本转换、放射报告生成、图像分类等任务。
访问说明
要在Hugging Face上访问MedGemma,你需要查看并同意[Health AI Developer Foundation的使用条款](https://developers.google.com/health - ai - developer - foundations/terms)。请确保你已登录Hugging Face,然后点击下方按钮。请求将立即处理。
模型信息
属性 |
详情 |
量化者 |
bartowski |
模型类型 |
图像 - 文本转换 |
标签 |
医疗、X光、病理学、皮肤病学、眼底、放射报告生成、胸部X光、医疗嵌入、图像分类、零样本图像分类、图像特征提取、图像 - 文本转换 |
许可证名称 |
health - ai - developer - foundations |
基础模型 |
google/medgemma - 27b - it |
基础模型关系 |
量化版本 |
许可证链接 |
https://developers.google.com/health - ai - developer - foundations/terms |
🚀 快速开始
量化信息
使用 llama.cpp 版本 b5868 进行量化。
原始模型:https://huggingface.co/google/medgemma - 27b - it
所有量化均使用imatrix选项,并使用来自此处的数据集。
运行方式
✨ 主要特性
提示格式
<bos><start_of_turn>user
{system_prompt}
{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model
下载文件
可从以下列表中下载单个文件(非整个分支):
文件名 |
量化类型 |
文件大小 |
拆分情况 |
描述 |
[medgemma - 27b - it - bf16.gguf](https://huggingface.co/bartowski/google_medgemma - 27b - it - GGUF/tree/main/google_medgemma - 27b - it - bf16) |
bf16 |
54.03GB |
true |
完整的BF16权重。 |
[medgemma - 27b - it - Q8_0.gguf](https://huggingface.co/bartowski/google_medgemma - 27b - it - GGUF/blob/main/google_medgemma - 27b - it - Q8_0.gguf) |
Q8_0 |
28.71GB |
false |
极高质量,通常不需要,但为最大可用量化。 |
[medgemma - 27b - it - Q6_K_L.gguf](https://huggingface.co/bartowski/google_medgemma - 27b - it - GGUF/blob/main/google_medgemma - 27b - it - Q6_K_L.gguf) |
Q6_K_L |
22.51GB |
false |
嵌入和输出权重使用Q8_0。非常高质量,接近完美,推荐。 |
……(此处省略其他行,可根据需求完整列出) |
…… |
…… |
…… |
…… |
嵌入/输出权重
部分量化(如Q3_K_XL、Q4_K_L等)采用标准量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。
ARM/AVX信息
以前,你会下载Q4_0_4_4/4_8/8_8,这些模型的权重会在内存中交错排列,以便通过一次加载更多数据来提高ARM和AVX机器的性能。
现在,有了所谓的“在线重新打包”权重功能,详情见this PR。如果你使用Q4_0,且你的硬件能从重新打包权重中受益,它将自动实时进行。
从llama.cpp版本 b4282 开始,你将无法运行Q4_0_X_X文件,而需要使用Q4_0。
此外,如果你想获得稍好的质量,可以使用IQ4_NL,感谢this PR,它也会为ARM重新打包权重,不过目前仅适用于4_4。加载时间可能会更长,但会提高整体速度。
选择合适的文件
点击查看详情
Artefact2在[此处](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)提供了一份很棒的带有图表的文档,展示了各种性能表现。
首先,你需要确定能运行多大的模型。这需要了解你有多少RAM和/或VRAM。
如果你希望模型运行尽可能快,你需要将整个模型放入GPU的VRAM中。选择文件大小比GPU总VRAM小1 - 2GB的量化版本。
如果你追求绝对最高质量,将系统RAM和GPU的VRAM相加,然后选择文件大小比该总和小1 - 2GB的量化版本。
接下来,你需要决定是使用“I - 量化”还是“K - 量化”。
如果你不想考虑太多,选择K - 量化。它们的格式为'QX_K_X',如Q5_K_M。
如果你想深入了解,可以查看这个非常有用的特性图表:
[llama.cpp feature matrix](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)
基本上,如果你目标是低于Q4,并且使用cuBLAS(Nvidia)或rocBLAS(AMD),你应该考虑I - 量化。它们的格式为IQX_X,如IQ3_M。这些是较新的量化方式,在相同大小下提供更好的性能。
这些I - 量化也可以在CPU上使用,但比对应的K - 量化慢,所以你需要在速度和性能之间做出权衡。
📦 安装指南
使用huggingface - cli下载
点击查看下载说明
首先,确保你已安装huggingface - cli:
```
pip install -U "huggingface_hub[cli]"
```
然后,你可以指定下载特定文件:
```
huggingface - cli download bartowski/google_medgemma - 27b - it - GGUF --include "google_medgemma - 27b - it - Q4_K_M.gguf" --local - dir ./
```
如果模型大于50GB,它会被拆分为多个文件。要将它们全部下载到本地文件夹,请运行:
```
huggingface - cli download bartowski/google_medgemma - 27b - it - GGUF --include "google_medgemma - 27b - it - Q8_0/*" --local - dir ./
```
你可以指定一个新的本地目录(google_medgemma - 27b - it - Q8_0),也可以将它们全部下载到当前目录(./)。
📚 详细文档
(已弃用)Q4_0_X_X信息
点击查看Q4_0_X_X信息(已弃用)
保留此部分是为了展示使用带有在线重新打包的Q4_0在性能上的潜在理论提升。
点击查看AVX2系统(EPYC7702)上的基准测试
| 模型 | 大小 | 参数 | 后端 | 线程数 | 测试 | t/s | (与Q4_0相比)百分比 |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | ------------: | -------------------: |-------------: |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
| ……(此处省略其他行,可根据需求完整列出) | …… | …… | …… | …… | …… | …… | …… |
Q4_0_8_8在提示处理方面有显著提升,在文本生成方面有小幅提升。
📄 许可证
本项目使用的许可证为health - ai - developer - foundations,具体条款请见[Health AI Developer Foundation's terms of use](https://developers.google.com/health - ai - developer - foundations/terms)。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。
感谢ZeroWw启发进行嵌入/输出实验。
感谢LM Studio赞助我的工作。
如果你想支持我的工作,请访问我的ko - fi页面:https://ko - fi.com/bartowski