🚀 WiNGPT-Babel
WiNGPT-Babel(バベル塔)は、大規模言語モデル(LLM)をベースにした翻訳アプリケーション向けのモデルで、使いやすい多言語情報のネイティブレベルの体験を提供することを目指しています。
他の機械翻訳モデルと最大の違いは、WiNGPT-Babel が human-in-the-loop データ生成収集の閉ループ戦略を用いて訓練されていることです。そのため、WiNGPT-Babel は、ニュース、研究成果、リアルタイム翻訳字幕付きのビデオなど、実際の使用シーンにより適しています。一連のツールプラグインを通じて、WiNGPT-Babel はこれらの内容をユーザーの母国語に翻訳し、より良い体験をユーザーに提供します。
私たちの目標は、先進的な LLM 技術を利用して言語の障壁を低くし、ユーザーが学術論文、ソーシャルメディア、ウェブコンテンツ、ビデオ字幕など、グローバルなインターネット情報をより簡単に取得できるようにすることです。この目標を達成するにはまだ時間がかかりますが、LLM 技術の進歩により、それが可能になっています。
🚀 クイックスタート
WiNGPT-Babel は Qwen2.5-1.5B をベースモデルとして採用しており、様々なパラメータ規模のモデルをテスト・比較し、推論速度と翻訳品質のバランスを考慮して選択されました。様々なアプリケーションシーンにおいて、翻訳速度はグーグル翻訳に匹敵するか、それ以上のものになります。このような体験は、翻訳モデルの使用において非常に重要です。 皆さんがすぐに使い始められるように、以下の例を提供します。Hugging Face Transformers ライブラリを使用してロードと推論を行いますが、vllm、llama.cpp、ollama などの推論ツールやフレームワークの使用もおすすめします。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "WiNGPT/WiNGPT-Babel"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "system", "content": "中英互译下面的内容"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
llama.cpp での迅速な推論の例
llama-cli -m WiNGPT-Babel-Q4_K_M.gguf -co -i -if -p "<|im_start|>system\n中英互译下面的内容<|im_end|>\n" --in-prefix "<|im_start|>user\n" --in-suffix "<|im_end|>\n<|im_start|>assistant\n" -fa -ngl 80 -n 512
⚠️ 重要提示
WiNGPT-Babel のデフォルトのシステムプロンプトは「中英互译下面的内容」のみです。モデルはユーザーの入力に応じて自動的に対応する言語に翻訳し、他の複雑な命令は必要ありません。サポートされる最大長は 8192 で、マルチターン対話の機能も備えています。
🎬 使用例
以下は、モデルを使って翻訳する方法を示すアプリケーションシーンの例です。
- ウェブページの翻訳
- シーン:ユーザーはツールと簡単なシステムプロンプトを使って、外国語のウェブページの内容を母国語に翻訳します。
- ツール:沉浸式翻译
- 学術論文の翻訳
- シーン:ユーザーはツールを使って外国語の研究論文を翻訳し、研究作業を支援します。
- ツール:沉浸式翻译
- ソーシャルメディアの翻訳
- シーン:ユーザーはモデルを使って、異なる言語のソーシャルメディアの内容を母国語に翻訳できます。
- ツール:沉浸式翻译
- ビデオ字幕の翻訳
- シーン:ユーザーはツールを利用し、モデルと組み合わせて、字幕ファイルを直接翻訳してファイルとして保存します。
- ツール:沉浸式翻译
- PDFファイルの翻訳
- シーン:ユーザーはツールを利用し、モデルと組み合わせて、PDF などのドキュメントを翻訳したり、バイリンガル対照として利用したりします。
- ツール:PDFMathTranslate
- データセットの翻訳
- シーン:ユーザーはモデルを利用して、外国語のデータセットを翻訳します。
- ツール:wingpt-web-client
- ビデオサイトのリアルタイム翻訳
- シーン:ユーザーはツールを利用し、モデルと組み合わせて、インターネットビデオを視聴する際にリアルタイムで字幕を生成します。
- ツール:沉浸式翻译
- ビデオの翻訳と字幕の埋め込み
- シーン:ユーザーはツールを利用し、モデルと組み合わせて、外国語のビデオに翻訳字幕を付けたビデオを生成します。
- ツール:VideoLingo
⚠️ 重要提示
上記の例は、ツールを使って WiNGPT-Babel モデルを利用してテキスト翻訳を行う方法を示しています。あなた自身のニーズや習慣に合わせて、ツールを使ってさらに多くのシーンに適用することができます。
✨ 主な機能
- human-in-the-loop 🌱:まず、少量のデータを使って初期訓練を行います。次に、API を通じてさまざまなツールの使用ログデータを収集し、これらのログを使って新しい訓練データを構築します。WiNGPT-2.6 モデルと報酬モデルを使ってこれらのデータを rejection sampling し、人工審査を行ってデータの質を保証します。数回の反復訓練を行うことで、モデルの性能が徐々に向上し、目標レベルに達するまで続けます。
- 多形式の翻訳 📄 🌐 🎬:ウェブページ、ソーシャルメディアコンテンツ、学術論文、ビデオ字幕、データセットなど、さまざまなテキスト形式の翻訳をサポートしています。
- 高精度の翻訳 🧠:先進的な LLM アーキテクチャに基づいて、正確で自然で流暢な翻訳結果を提供することに取り組んでいます。
- 高性能の翻訳 ⏱️:1.5B モデルを採用しており、リアルタイム字幕翻訳などのアプリケーションシーンをサポートし、ユーザーのリアルタイム翻訳のニーズを満たします。
- 多言語サポート 🗣️:現在、20 種類以上の言語をサポートしており、言語サポートの範囲を拡大し続けています。
- アプリケーションの適合 🪒:現在、沉浸式翻译、videolingo などのツールに対応しています。
🧪 適用シーン
- 🌐 ウェブコンテンツの翻訳:日常のウェブ閲覧に適しており、ウェブ情報をすばやく理解することができます。
- 📄 学術論文の翻訳:多言語の研究論文の理解を支援し、読書効率を向上させるのに適しています。
- 📰 ニュース情報の翻訳:グローバルなニュース動向をすばやく把握し、一手情報を取得するのに適しています。
- 🎬 ビデオ字幕の翻訳:外国語のビデオを視聴する際に、ビデオ内容の理解を支援します。
- 📊 データセットの多言語処理:多言語データセットの初期翻訳に適しており、データ分析を支援します。
🔤 言語サポート(これ以上の言語は検証待ち)
🇺🇸 英語 ↔️ 🇨🇳 中国語 | 🇯🇵 日本語 ➡️ 🇨🇳 中国語
🌱 制限事項
- 専門用語の翻訳:法律、医学などの高度な専門分野やコードなどでは、翻訳結果に誤差が生じる可能性があります。
- 文学作品の翻訳:文学作品の修辞や隠喩などについては、原文の意境を完全に伝えることができない場合があります。
- 長文の翻訳:非常に長いテキストを処理する際には、翻訳エラーや幻覚問題が発生する可能性があり、分割処理が必要です。
- 多言語の適合性:現在は主に中英言語のシーンで使用されており、他の言語については、より多くのテストとフィードバックが必要です。
📄 ライセンス
- このプロジェクトのライセンスは Apache License 2.0 です。
- このプロジェクト(モデルの重みを含む)を使用する場合は、このプロジェクトを引用してください:https://huggingface.co/winninghealth/WiNGPT-Babel
- Qwen2.5-1.5B、 immersive-translate、 VideoLingo の関連プロトコルとライセンスに従ってください。詳細は各ウェブサイトを参照してください。
お問い合わせ