🚀 全新翻譯模型發佈
C3TR-Adapter 是基於 google/gemma-7b 的 QLoRA 適配器。儘管採用了 4 位量化,但 GPU 內存需求仍增加到了 8.1GB。不過,它可以在 Colab 的免費版本上運行,並且性能有了顯著提升!
🚀 快速開始
webbigdata/ALMA-7B-Ja-V2
ALMA-7B-Ja-V2 是一款能夠實現日語到英語、英語到日語翻譯的機器翻譯模型。它在之前的模型(ALMA-7B-Ja)基礎上進一步學習,性能得到了提升。
除了日語和英語之間的翻譯,該模型還具備以下語言之間的翻譯能力,不過主要還是以日英、英日翻譯為目標:
- 德語(German,de)和英語(English,en)
- 中文(Chinese,zh)和英語(English,en)
- 冰島語(Icelandic,is)和英語(English,en)
- 捷克語(Czech,cs)和英語(English,en)
✨ 主要特性
翻譯性能評估指標
使用了以下三種指標來評估翻譯性能,數值越大表示性能越好:
- BLEU:用於評估翻譯文本與原文的相似度。但由於它主要關注單詞的出現頻率,因此在評估單詞順序的準確性和句子流暢性方面存在不足。
- chrF++:基於字符組合的匹配度和單詞順序來評估翻譯的準確性。缺點是可能不太適合評估較長的句子。
- comet:這是一個使用機器學習模型自動評估翻譯質量的工具,據說與人類的主觀評估相近。但由於它基於機器學習,原始模型在很大程度上依賴於訓練數據。
與其他模型的對比
與 Meta 公司的 NLLB - 200 系列對比
模型名稱 |
文件大小 |
英日 chrF++/F2 |
英日 comet |
日英 chrF++/F2 |
日英 comet |
NLLB - 200 - Distilled |
2.46GB |
23.6/- |
- |
50.2/- |
- |
NLLB - 200 - Distilled |
5.48GB |
25.4/- |
- |
54.2/- |
- |
NLLB - 200 |
5.48GB |
24.2/- |
- |
53.6/- |
- |
NLLB - 200 |
17.58GB |
25.2/- |
- |
55.1/- |
- |
NLLB - 200 |
220.18GB |
27.9/33.2 |
0.8908 |
55.8/59.8 |
0.8792 |
與之前的模型(ALMA - 7B - Ja)對比
模型名稱 |
文件大小 |
英日 chrF++/F2 |
英日 comet |
日英 chrF++/F2 |
日英 comet |
webbigdata - ALMA - 7B - Ja - q4_K_S |
3.6GB |
-/24.2 |
0.8210 |
-/54.2 |
0.8559 |
ALMA - 7B - Ja - GPTQ - Ja - En |
3.9GB |
-/30.8 |
0.8743 |
-/60.9 |
0.8743 |
ALMA - Ja(Ours) |
13.48GB |
-/31.8 |
0.8811 |
-/61.6 |
0.8773 |
ALMA - 7B - Ja - V2 不同版本對比
模型名稱 |
文件大小 |
英日 chrF++/F2 |
英日 comet |
日英 chrF++/F2 |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
3.9GB |
-/33.0 |
0.8818 |
-/62.0 |
0.8774 |
ALMA - Ja - V2(Ours) |
13.48GB |
-/33.9 |
0.8820 |
-/63.1 |
0.8873 |
ALMA - Ja - V2 - Lora(Ours) |
13.48GB |
-/33.7 |
0.8843 |
-/61.1 |
0.8775 |
不同類型文本翻譯對比
政府官方文章
模型 |
英日 chrF2++ |
英日 BLEU |
英日 comet |
日英 chrF2++ |
日英 BLEU |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
25.3 |
15.00 |
0.8848 |
60.3 |
26.82 |
0.6189 |
ALMA - Ja - V2 |
27.2 |
15.60 |
0.8868 |
58.5 |
29.27 |
0.6155 |
ALMA - 7B - Ja - V2 - Lora |
24.5 |
13.58 |
0.8670 |
50.7 |
21.85 |
0.6196 |
SeamlessM4T |
27.3 |
16.76 |
0.9070 |
54.2 |
25.76 |
0.5656 |
gpt - 3.5 |
34.6 |
28.33 |
0.8895 |
74.5 |
49.20 |
0.6382 |
gpt - 4.0 |
36.5 |
28.07 |
0.9255 |
62.5 |
33.63 |
0.6320 |
google - translate |
43.5 |
35.37 |
0.9181 |
62.7 |
29.22 |
0.6446 |
deepl |
43.5 |
35.74 |
0.9301 |
60.1 |
27.40 |
0.6389 |
古典文學
模型 |
英日 chrF2++ |
英日 BLEU |
英日 comet |
日英 chrF2++ |
日英 BLEU |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
11.8 |
7.24 |
0.6943 |
31.9 |
9.71 |
0.5617 |
ALMA - Ja - V2 |
10.7 |
4.93 |
0.7202 |
32.9 |
10.52 |
0.5638 |
ALMA - 7B - Ja - V2 - Lora |
12.3 |
7.25 |
0.7076 |
32.5 |
11.14 |
0.5441 |
gpt - 3.5 |
- |
- |
0.6367 |
69.3 |
46.34 |
0.4922 |
gpt - 4.0 |
13.3 |
8.33 |
0.7074 |
44.3 |
23.75 |
0.5518 |
deepl |
14.4 |
9.18 |
0.7149 |
34.6 |
10.68 |
0.5787 |
google - translate |
13.5 |
8.57 |
0.7432 |
31.7 |
7.94 |
0.5856 |
二次創作
模型 |
英日 chrF2++ |
英日 BLEU |
英日 comet |
日英 chrF2++ |
日英 BLEU |
日英 comet |
ALMA - 7B - Ja - V2 - GPTQ - Ja - En |
27.6 |
18.28 |
0.8643 |
52.1 |
24.58 |
0.6106 |
ALMA - Ja - V2 |
20.4 |
8.45 |
0.7870 |
48.7 |
23.06 |
0.6050 |
ALMA - 7B - Ja - V2 - Lora |
23.9 |
18.55 |
0.8634 |
55.6 |
29.91 |
0.6093 |
SeamlessM4T |
25.5 |
19.97 |
0.8657 |
42.2 |
14.39 |
0.5554 |
gpt - 3.5 |
31.2 |
23.37 |
0.9001 |
- |
- |
0.5948 |
gpt - 4.0 |
30.7 |
24.31 |
0.8848 |
53.9 |
24.89 |
0.6163 |
google - translate |
32.4 |
25.36 |
0.8968 |
58.5 |
29.88 |
0.6022 |
deepl |
33.5 |
28.38 |
0.9094 |
60.0 |
31.14 |
0.6124 |
💻 使用示例
基礎用法
使用 Google 的免費 Web 工具 Colab 可以輕鬆驗證 ALMA_7B_Ja_V2 的性能。
免費 Colab 示例代碼
📚 詳細文檔
其他版本
llama.cpp
llama.cpp 的主要目的是在 MacBook 上使用 4 位整數量子化運行 LLaMA 模型。雖然 4 位量化會使性能略有下降,但使用 mmnga 製作的 webbigdata-ALMA-7B-Ja-V2-gguf,可以在 Mac 以及未搭載 GPU 的 Windows、Linux 上運行該模型。
無 GPU 版 Colab 運行示例
GPTQ
GPTQ 是一種減小模型大小的技術(稱為量化)。ALMA-7B-Ja-V2-GPTQ-Ja-En 是 GPTQ 量化版本,它減小了模型大小(3.9GB)和內存使用量,並提高了速度。不過,性能會稍有下降,並且對日語和英語以外語言的翻譯能力可能會顯著降低。
免費 Colab 示例代碼 webbigdata/ALMA-7B-Ja-V2-GPTQ-Ja-En
如果你想一次性翻譯整個文本文件,可以嘗試以下 Colab:
ALMA_7B_Ja_GPTQ_Ja_En 批量翻譯示例
ALMA 模型相關信息
ALMA(Advanced Language Model - based trAnslator)是一個基於大語言模型的翻譯模型,採用了一種新的翻譯模型範式:先在單語數據上進行微調,然後使用高質量的平行數據進一步優化。這種兩步微調過程確保了強大的翻譯性能。更多詳細信息請參考他們的 論文。
@misc{xu2023paradigm,
title={A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models},
author={Haoran Xu and Young Jin Kim and Amr Sharaf and Hany Hassan Awadalla},
year={2023},
eprint={2309.11674},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
原始模型 ALMA-7B (26.95GB)
上一版本模型 ALMA-7B-Ja (13.3GB)
關於本項目
📄 許可證
本項目採用 llama2 許可證。