🚀 全新翻译模型发布
C3TR-Adapter 是基于 google/gemma-7b 的 QLoRA 适配器。尽管采用了 4 位量化,但 GPU 内存需求仍增加到了 8.1GB。不过,它可以在 Colab 的免费版本上运行,并且性能有了显著提升!
🚀 快速开始
webbigdata/ALMA-7B-Ja-V2
ALMA-7B-Ja-V2 是一款能够实现日语到英语、英语到日语翻译的机器翻译模型。它在之前的模型(ALMA-7B-Ja)基础上进一步学习,性能得到了提升。
除了日语和英语之间的翻译,该模型还具备以下语言之间的翻译能力,不过主要还是以日英、英日翻译为目标:
- 德语(German,de)和英语(English,en)
- 中文(Chinese,zh)和英语(English,en)
- 冰岛语(Icelandic,is)和英语(English,en)
- 捷克语(Czech,cs)和英语(English,en)
✨ 主要特性
翻译性能评估指标
使用了以下三种指标来评估翻译性能,数值越大表示性能越好:
- BLEU:用于评估翻译文本与原文的相似度。但由于它主要关注单词的出现频率,因此在评估单词顺序的准确性和句子流畅性方面存在不足。
- chrF++:基于字符组合的匹配度和单词顺序来评估翻译的准确性。缺点是可能不太适合评估较长的句子。
- comet:这是一个使用机器学习模型自动评估翻译质量的工具,据说与人类的主观评估相近。但由于它基于机器学习,原始模型在很大程度上依赖于训练数据。
与其他模型的对比
与 Meta 公司的 NLLB - 200 系列对比
模型名称 |
文件大小 |
英日 chrF++/F2 |
英日 comet |
日英 chrF++/F2 |
日英 comet |
NLLB - 200 - Distilled |
2.46GB |
23.6/- |
- |
50.2/- |
- |
NLLB - 200 - Distilled |
5.48GB |
25.4/- |
- |
54.2/- |
- |
NLLB - 200 |
5.48GB |
24.2/- |
- |
53.6/- |
- |
NLLB - 200 |
17.58GB |
25.2/- |
- |
55.1/- |
- |
NLLB - 200 |
220.18GB |
27.9/33.2 |
0.8908 |
55.8/59.8 |
0.8792 |
与之前的模型(ALMA - 7B - Ja)对比
模型名称 |
文件大小 |
英日 chrF++/F2 |
英日 comet |
日英 chrF++/F2 |
日英 comet |
webbigdata - ALMA - 7B - Ja - q4_K_S |
3.6GB |
-/24.2 |
0.8210 |
-/54.2 |
0.8559 |
ALMA - 7B - Ja - GPTQ - Ja - En |
3.9GB |
-/30.8 |
0.8743 |
-/60.9 |
0.8743 |
ALMA - Ja(Ours) |
13.48GB |
-/31.8 |
0.8811 |
-/61.6 |
0.8773 |
ALMA - 7B - Ja - V2 不同版本对比
模型名称 |
文件大小 |
英日 chrF++/F2 |
英日 comet |
日英 chrF++/F2 |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
3.9GB |
-/33.0 |
0.8818 |
-/62.0 |
0.8774 |
ALMA - Ja - V2(Ours) |
13.48GB |
-/33.9 |
0.8820 |
-/63.1 |
0.8873 |
ALMA - Ja - V2 - Lora(Ours) |
13.48GB |
-/33.7 |
0.8843 |
-/61.1 |
0.8775 |
不同类型文本翻译对比
政府官方文章
模型 |
英日 chrF2++ |
英日 BLEU |
英日 comet |
日英 chrF2++ |
日英 BLEU |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
25.3 |
15.00 |
0.8848 |
60.3 |
26.82 |
0.6189 |
ALMA - Ja - V2 |
27.2 |
15.60 |
0.8868 |
58.5 |
29.27 |
0.6155 |
ALMA - 7B - Ja - V2 - Lora |
24.5 |
13.58 |
0.8670 |
50.7 |
21.85 |
0.6196 |
SeamlessM4T |
27.3 |
16.76 |
0.9070 |
54.2 |
25.76 |
0.5656 |
gpt - 3.5 |
34.6 |
28.33 |
0.8895 |
74.5 |
49.20 |
0.6382 |
gpt - 4.0 |
36.5 |
28.07 |
0.9255 |
62.5 |
33.63 |
0.6320 |
google - translate |
43.5 |
35.37 |
0.9181 |
62.7 |
29.22 |
0.6446 |
deepl |
43.5 |
35.74 |
0.9301 |
60.1 |
27.40 |
0.6389 |
古典文学
模型 |
英日 chrF2++ |
英日 BLEU |
英日 comet |
日英 chrF2++ |
日英 BLEU |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
11.8 |
7.24 |
0.6943 |
31.9 |
9.71 |
0.5617 |
ALMA - Ja - V2 |
10.7 |
4.93 |
0.7202 |
32.9 |
10.52 |
0.5638 |
ALMA - 7B - Ja - V2 - Lora |
12.3 |
7.25 |
0.7076 |
32.5 |
11.14 |
0.5441 |
gpt - 3.5 |
- |
- |
0.6367 |
69.3 |
46.34 |
0.4922 |
gpt - 4.0 |
13.3 |
8.33 |
0.7074 |
44.3 |
23.75 |
0.5518 |
deepl |
14.4 |
9.18 |
0.7149 |
34.6 |
10.68 |
0.5787 |
google - translate |
13.5 |
8.57 |
0.7432 |
31.7 |
7.94 |
0.5856 |
二次创作
模型 |
英日 chrF2++ |
英日 BLEU |
英日 comet |
日英 chrF2++ |
日英 BLEU |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
27.6 |
18.28 |
0.8643 |
52.1 |
24.58 |
0.6106 |
ALMA - Ja - V2 |
20.4 |
8.45 |
0.7870 |
48.7 |
23.06 |
0.6050 |
ALMA - 7B - Ja - V2 - Lora |
23.9 |
18.55 |
0.8634 |
55.6 |
29.91 |
0.6093 |
SeamlessM4T |
25.5 |
19.97 |
0.8657 |
42.2 |
14.39 |
0.5554 |
gpt - 3.5 |
31.2 |
23.37 |
0.9001 |
- |
- |
0.5948 |
gpt - 4.0 |
30.7 |
24.31 |
0.8848 |
53.9 |
24.89 |
0.6163 |
google - translate |
32.4 |
25.36 |
0.8968 |
58.5 |
29.88 |
0.6022 |
deepl |
33.5 |
28.38 |
0.9094 |
60.0 |
31.14 |
0.6124 |
💻 使用示例
基础用法
使用 Google 的免费 Web 工具 Colab 可以轻松验证 ALMA_7B_Ja_V2 的性能。
免费 Colab 示例代码
📚 详细文档
其他版本
llama.cpp
llama.cpp 的主要目的是在 MacBook 上使用 4 位整数量子化运行 LLaMA 模型。虽然 4 位量化会使性能略有下降,但使用 mmnga 制作的 webbigdata-ALMA-7B-Ja-V2-gguf,可以在 Mac 以及未搭载 GPU 的 Windows、Linux 上运行该模型。
无 GPU 版 Colab 运行示例
GPTQ
GPTQ 是一种减小模型大小的技术(称为量化)。ALMA-7B-Ja-V2-GPTQ-Ja-En 是 GPTQ 量化版本,它减小了模型大小(3.9GB)和内存使用量,并提高了速度。不过,性能会稍有下降,并且对日语和英语以外语言的翻译能力可能会显著降低。
免费 Colab 示例代码 webbigdata/ALMA-7B-Ja-V2-GPTQ-Ja-En
如果你想一次性翻译整个文本文件,可以尝试以下 Colab:
ALMA_7B_Ja_GPTQ_Ja_En 批量翻译示例
ALMA 模型相关信息
ALMA(Advanced Language Model - based trAnslator)是一个基于大语言模型的翻译模型,采用了一种新的翻译模型范式:先在单语数据上进行微调,然后使用高质量的平行数据进一步优化。这种两步微调过程确保了强大的翻译性能。更多详细信息请参考他们的 论文。
@misc{xu2023paradigm,
title={A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models},
author={Haoran Xu and Young Jin Kim and Amr Sharaf and Hany Hassan Awadalla},
year={2023},
eprint={2309.11674},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
原始模型 ALMA-7B (26.95GB)
上一版本模型 ALMA-7B-Ja (13.3GB)
关于本项目
📄 许可证
本项目采用 llama2 许可证。