ALMA-7BおよびALMA-13B-Rオープンソース翻訳モデル - GPT - 4に匹敵し、質の高い翻訳結果を実現

ホーム

ALMA 7B

haoranxuによって開発

ALMA-13B-Rは大規模言語モデルを基盤とした先進的な翻訳モデルで、対照選好最適化（CPO）を用いてファインチューニングされており、GPT-4やWMTコンペティションの優勝者に匹敵、あるいは凌駕する性能を発揮します。

機械翻訳

Transformers

オープンソースライセンス:MIT #大規模言語モデル翻訳 #2段階ファインチューニング #対照選好最適化

ダウンロード数 256

リリース時間 : 9/17/2023

モデル概要

ALMA-13B-RはLLaMA-2-13Bを基盤とした翻訳モデルで、2段階のファインチューニング（単一言語データでのファインチューニング＋高品質並列データによる最適化）と対照選好最適化（CPO）により高性能な機械翻訳を実現しています。

モデル特徴

2段階ファインチューニング

最初に単一言語データでファインチューニングを行い、その後高品質な並列データで最適化することで、強力な翻訳性能を確保します。

対照選好最適化（CPO）

従来の教師ありファインチューニングではなく、革新的な対照選好最適化手法を用いてLoRAファインチューニングを行うことで、翻訳品質を大幅に向上させます。

高性能翻訳

GPT-4やWMTコンペティションの優勝者に匹敵、あるいは凌駕するプロフェッショナルレベルの翻訳品質を提供します。

モデル能力

高品質な機械翻訳

多言語翻訳

専門分野の翻訳

使用事例

プロフェッショナル翻訳

技術文書翻訳

技術文書をある言語から別の言語へ翻訳し、専門用語の正確性を保持します。

翻訳品質はプロの人間翻訳に匹敵します

国際会議資料翻訳

国際会議向けに高品質なプレゼンテーション資料や議事録の翻訳を提供します。

WMTコンペティション優勝者レベルに達します

ビジネスアプリケーション

多国籍企業コミュニケーション

企業のクロスランゲージ内部コミュニケーションや文書翻訳を支援します。

多国籍企業のコミュニケーション効率を向上させます

🚀 ALMA (Advanced Language Model-based trAnslator)

ALMAは、大規模言語モデル（LLM）をベースとした翻訳モデルです。新しい翻訳モデルパラダイムを採用しており、単言語データでのファインチューニングから始まり、高品質な並列データでさらに最適化されます。この二段階のファインチューニングプロセスにより、強力な翻訳性能が保証されます。詳細は、論文をご覧ください。

@misc{xu2023paradigm,
      title={A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models}, 
      author={Haoran Xu and Young Jin Kim and Amr Sharaf and Hany Hassan Awadalla},
      year={2023},
      eprint={2309.11674},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

ALMA-R (NEW!) がリリースされました！ ALMA-RはALMAモデルをベースに構築されており、ALMAで使用されている教師ありファインチューニングの代わりに、提案されたContrastive Preference Optimization (CPO) を用いてさらにLoRAファインチューニングが行われています。CPOファインチューニングには、嗜好学習のためのトリプレット嗜好データが必要です。ALMA-Rは、現在、GPT-4やWMTの優勝モデルと同等、あるいはそれ以上の性能を発揮することができます！

@misc{xu2024contrastive,
      title={Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation}, 
      author={Haoran Xu and Amr Sharaf and Yunmo Chen and Weiting Tan and Lingfeng Shen and Benjamin Van Durme and Kenton Murray and Young Jin Kim},
      year={2024},
      eprint={2401.08417},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

論文で提示された6つの翻訳モデルをリリースしています：

ALMA-7B：LLaMA-2-7Bを200億の単言語トークンで完全重みファインチューニングし、その後、人が書いた並列データで完全重みファインチューニングを行います。
ALMA-7B-LoRA：LLaMA-2-7Bを200億の単言語トークンで完全重みファインチューニングし、その後、人が書いた並列データでLoRAファインチューニングを行います。
ALMA-7B-R (NEW!)：ALMA-7B-LoRAに対して、対照的嗜好最適化を用いてさらにLoRAファインチューニングを行います。
ALMA-13B：LLaMA-2-7Bを120億の単言語トークンで完全重みファインチューニングし、その後、人が書いた並列データで完全重みファインチューニングを行います。
ALMA-13B-LoRA (最良のシステム)：LLaMA-2-7Bを120億の単言語トークンで完全重みファインチューニングし、その後、人が書いた並列データでLoRAファインチューニングを行います。
ALMA-13B-R (NEW!)：ALMA-13B-LoRAに対して、対照的嗜好最適化を用いてさらにLoRAファインチューニングを行います。

モデルチェックポイントは、huggingfaceで公開されています：

モデル	ベースモデルリンク	LoRAリンク
ALMA-7B	haoranxu/ALMA-7B	-
ALMA-7B-LoRA	haoranxu/ALMA-7B-Pretrain	haoranxu/ALMA-7B-Pretrain-LoRA
ALMA-7B-R (NEW!)	haoranxu/ALMA-7B-R (LoRA merged)	-
ALMA-13B	haoranxu/ALMA-13B	-
ALMA-13B-LoRA	haoranxu/ALMA-13B-Pretrain	haoranxu/ALMA-13B-Pretrain-LoRA
ALMA-13B-R (NEW!)	haoranxu/ALMA-13B-R (LoRA merged)	-

⚠️ 重要提示

ALMA-7B-Pretrain と ALMA-13B-Pretrain は翻訳モデルではありません。これらは第1段階の単言語ファインチューニング（7Bモデルには200億トークン、13Bモデルには120億トークン）のみを経ており、LoRAモデルと組み合わせて使用する必要があります。

ALMAおよびALMA-Rで使用されるデータセットも、huggingfaceで公開されています (NEW!)

データセット	訓練 / 検証	テスト
人が書いた並列データ (ALMA)	訓練と検証	WMT'22
トリプレット嗜好データ	訓練	WMT'22 と WMT'23

💻 使用例

基本的な使用法

システムALMA-13B-LoRAを使用して翻訳を行うクイックスタートです。「我爱机器翻译。」を英語に翻訳する例です：

import torch
from peft import PeftModel
from transformers import AutoModelForCausalLM
from transformers import LlamaTokenizer

# Load base model and LoRA weights
model = AutoModelForCausalLM.from_pretrained("haoranxu/ALMA-13B-Pretrain", torch_dtype=torch.float16, device_map="auto")
model = PeftModel.from_pretrained(model, "haoranxu/ALMA-13B-Pretrain-LoRA")
tokenizer = LlamaTokenizer.from_pretrained("haoranxu/ALMA-13B-Pretrain", padding_side='left')

# Add the source setence into the prompt template
prompt="Translate this from Chinese to English:\nChinese: 我爱机器翻译。\nEnglish:"
input_ids = tokenizer(prompt, return_tensors="pt", padding=True, max_length=40, truncation=True).input_ids.cuda()

# Translation
with torch.no_grad():
    generated_ids = model.generate(input_ids=input_ids, num_beams=5, max_new_tokens=20, do_sample=True, temperature=0.6, top_p=0.9)
outputs = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
print(outputs)