TowerInstruct-7B-v0.2オープンソース多言語大規模言語モデル - 10言語をサポートする無料翻訳ツール

ホーム

Towerinstruct 7B V0.2

Unbabelによって開発

TowerInstruct-7B-v0.2 は70億パラメータの多言語大規模言語モデルで、翻訳関連タスクに特化しており、10言語をサポートしています。

大規模言語モデル

Transformers

複数言語対応#多言語翻訳 #ドキュメントレベルの翻訳 #用語を考慮した翻訳

ダウンロード数 5,003

リリース時間 : 2/9/2024

モデル概要

このモデルはTowerBaseを基に微調整されており、一般的な機械翻訳、自動ポストエディット、固有表現認識、文法誤り訂正、言い換え生成など、さまざまな翻訳関連タスクを処理できます。

モデル特徴

多言語サポート

10言語の翻訳と関連タスク処理をサポート。

多様なタスク処理

文や段落/ドキュメントレベルの翻訳、用語を考慮した翻訳、コンテキストを考慮した翻訳など、さまざまな翻訳関連タスクを処理可能。

ドキュメントレベルの翻訳能力

v0.2バージョンでは特にドキュメントレベルの翻訳の信頼性と一貫性が向上。

モデル能力

機械翻訳

自動ポストエディット

固有表現認識

文法誤り訂正

言い換え生成

使用事例

翻訳サービス

多言語テキスト翻訳

サポートされている10言語間でテキストを翻訳。

用語を考慮した翻訳

翻訳プロセス中に特定の用語の一貫性を維持。

テキスト処理

文法誤り訂正

テキスト中の文法誤りを識別し修正。

テキスト言い換え

原文と同じ意味で表現の異なるテキストを生成。

🚀 TowerInstruct-7B-v0.2 モデルカード

TowerInstruct-7Bは、TowerBaseをTowerBlocksの教師付き微調整データセットで微調整した言語モデルです。TowerInstruct-7B-v0.2は、このシリーズの最初のモデルです。このモデルは、一般的な機械翻訳（文や段落/文書レベルの翻訳、用語対応翻訳、文脈対応翻訳など）、自動ポストエディット、固有表現認識、文法誤り訂正、言い換え生成など、いくつかの翻訳関連タスクを処理するように訓練されています。

🚀 クイックスタート

TowerInstruct-7B-v0.2モデルを使用するには、🤗 Transformersのpipeline()関数を使うことができます。以下にコード例を示します。

# Install transformers from source - only needed for versions <= v4.34
# pip install git+https://github.com/huggingface/transformers.git
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="Unbabel/TowerInstruct-7B-v0.2", torch_dtype=torch.bfloat16, device_map="auto")
# We use the tokenizer’s chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {"role": "user", "content": "Translate the following text from Portuguese into English.\nPortuguese: Um grupo de investigadores lançou um novo modelo para tarefas relacionadas com tradução.\nEnglish:"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=False)
print(outputs[0]["generated_text"])
# <|im_start|>user
# Translate the following text from Portuguese into English.
# Portuguese: Um grupo de investigadores lançou um novo modelo para tarefas relacionadas com tradução.
# English:<|im_end|>
# <|im_start|>assistant
# A group of researchers has launched a new model for translation-related tasks.

✨ 主な機能

多言語の翻訳関連タスクをサポート：英語、ポルトガル語、スペイン語、フランス語、ドイツ語、オランダ語、イタリア語、韓国語、中国語、ロシア語。
文や段落/文書レベルの翻訳、自動ポストエディット、固有表現認識、文法誤り訂正、言い換え生成などのタスクを処理可能。
TowerInstruct-7B-v0.2は、TowerInstruct-7B-v0.1と比較して、文書レベルの翻訳能力が向上しています。

📦 インストール

モデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。

# Install transformers from source - only needed for versions <= v4.34
pip install git+https://github.com/huggingface/transformers.git
pip install accelerate

📚 ドキュメント

モデル詳細

モデル説明

プロパティ	詳細
開発者	Unbabel、Instituto Superior Técnico、CentraleSupélec University of Paris - Saclay
モデルタイプ	翻訳関連タスクに関する公開されている合成データセット、会話データセット、コード命令の混合データで微調整された70億パラメータのモデル
言語 (NLP)	英語、ポルトガル語、スペイン語、フランス語、ドイツ語、オランダ語、イタリア語、韓国語、中国語、ロシア語
ライセンス	CC - BY - NC - 4.0、Llama 2はLLAMA 2 Community Licenseの下でライセンスされています。Copyright © Meta Platforms, Inc. All Rights Reserved.
微調整元のモデル	TowerBase

更新: TowerInstruct-7B-v0.2は、TowerInstruct-7B-v0.1と比較して、文書レベルの翻訳能力が向上しています。v0.2の訓練に使用された新しいバージョンのTowerBlocksも、Towerコレクションで利用可能です。

想定用途と制限

このモデルは、フィルタリングされ、前処理された教師付き微調整データセット（TowerBlocks）で最初に微調整されました。このデータセットには、以下のような多様なデータソースが含まれています。

翻訳（文および段落レベル）
自動ポストエディット
機械翻訳評価
文脈対応翻訳
用語対応翻訳
複数参照翻訳
固有表現認識
言い換え生成
合成チャットデータ
コード命令

TowerBlocksのデータセットとすべてのデータソースは、こちらで確認できます。

想定外の用途

このモデルは、サポートする10言語以外の言語での性能は保証されていません。会話データやコード命令で訓練されていますが、会話型チャットボットやコードアシスタントとして使用することを意図していません。現在、文書レベルの翻訳の品質と一貫性の向上に取り組んでいます。このモデルは、文書レベルの翻訳ツールとして使用することを意図していません。

バイアス、リスク、および制限

TowerInstruct - v0.2は、人間の嗜好に合わせて調整されていないため、問題のある出力（例えば、幻覚、有害な内容、または誤った声明）を生成する可能性があります。

プロンプト形式

TowerInstruct - v0.2は、システムプロンプトなしでChatMLプロンプトテンプレートを使用して訓練されました。以下に例を示します。

<|im_start|>user
{ユーザープロンプト}<|im_end|>
<|im_start|>assistant
{モデル応答}<|im_end|>
<|im_start|>user
[...]

教師付きタスク

すべての教師付きタスクのプロンプトは、TowerBlocksで確認できます。各タスクには複数のプロンプトテンプレートを使用しています。異なるプロンプトでは異なる出力が得られる場合がありますが、下流の性能の差は非常に小さいはずです。

訓練詳細

訓練データ

TowerBlocksへのリンク。

訓練ハイパーパラメータ

訓練中に使用されたハイパーパラメータは以下の通りです。

total_train_batch_size: 256
learning_rate: 7e - 06
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 500
weight_decay: 0.01
optimizer: Adam（betas=(0.9, 0.999)、epsilon = 1e - 08）
num_epochs: 4
max_seq_length: 2048

🔧 技術詳細

このモデルの技術的な詳細については、今後公開される技術レポートで確認できます。

📄 ライセンス

📖 引用

@misc{tower_llm_2024,
      title={Tower: An Open Multilingual Large Language Model for Translation-Related Tasks}, 
      author={Duarte M. Alves and José Pombal and Nuno M. Guerreiro and Pedro H. Martins and João Alves and Amin Farajian and Ben Peters and Ricardo Rei and Patrick Fernandes and Sweta Agrawal and Pierre Colombo and José G. C. de Souza and André F. T. Martins},
      year={2024},
      eprint={2402.17733},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}