🚀 LLaMA 3 Youko 8B 日本語ビジュアルノベル翻訳用モデル
このモデルは、LLaMA 3 Youko を VNTL データセットの新バージョンを用いて QLoRA でファインチューニングしたものです。主な目的は、日本語のビジュアルノベルを英語に翻訳する際の大規模言語モデル(LLM)の性能向上です。前のバージョンとは異なり、このバージョンには「チャットモード」が含まれていません。
ライセンス
属性 |
详情 |
ライセンス |
llama3 |
データセット |
lmg-anon/VNTL-v5-1k |
言語 |
ja, en |
ベースモデル |
rinna/llama-3-youko-8b |
パイプラインタグ |
翻訳 |
🚀 クイックスタート
このモデルは、日本語のビジュアルノベルを英語に翻訳するために最適化されています。以下に、このモデルの概要、注意事項、サンプリング推奨事項、学習詳細、翻訳プロンプトについて説明します。
✨ 主な機能
- 新しい VNTL データセットを用いたファインチューニングにより、翻訳の精度と安定性が向上
- マルチライン翻訳に対応(旧バージョンは単一行のみ対応)
- LLaMA 3 のデフォルトプロンプト形式を使用
📚 ドキュメント
注意事項
この VNTL 8B の新バージョンでは、VNTL のデータセットを完全に再構築し、拡張しました。精度と安定性の面で旧バージョンを上回り、高温で実行しても誤りが少なくなります(ただし、最高の精度を得るには温度 0 を推奨)。
このバージョンの主な変更点:
- カスタムプロンプト形式で問題があったため、LLaMA3 のデフォルトプロンプト形式に切り替え
- マルチライン翻訳に対応(旧バージョンは単一行のみ対応)
- 全体的に翻訳精度が向上
注意点として、このバージョンの翻訳はより正確ですが、旧バージョンに比べて逐語的な傾向があります。
サンプリング推奨事項
このモデルを使用する際には、最適な結果を得るために中性のサンプリングパラメータ(温度 0、繰り返しペナルティなし)を使用することを強く推奨します。
学習詳細
このファインチューニングは、旧バージョン と同様のハイパーパラメータを使用して行われました。唯一の違いは、データセットが全く新しいものであることです。
- ランク: 128
- アルファ: 32
- 有効バッチサイズ: 45
- ウォームアップ比率: 0.02
- 学習率: 6e-5
- 埋め込み学習率: 1e-5
- オプティマイザ: grokadamw
- 学習率スケジュール: コサイン
- 重み減衰: 0.01
学習損失: 0.42
翻訳プロンプト
このファインチューニングは LLaMA 3 のプロンプト形式を使用しています。以下は翻訳用のプロンプト例です。
<|begin_of_text|><|start_header_id|>Metadata<|end_header_id|>
[character] Name: Uryuu Shingo (瓜生 新吾) | Gender: Male | Aliases: Onii-chan (お兄ちゃん)
[character] Name: Uryuu Sakuno (瓜生 桜乃) | Gender: Female<|eot_id|><|start_header_id|>Japanese<|end_header_id|>
[桜乃]: 『……ごめん』<|eot_id|><|start_header_id|>English<|end_header_id|>
[Sakuno]: 『... Sorry.』<|eot_id|><|start_header_id|>Japanese<|end_header_id|>
[新吾]: 「ううん、こう言っちゃなんだけど、迷子でよかったよ。桜乃は可愛いから、いろいろ心配しちゃってたんだぞ俺」<|eot_id|><|start_header_id|>English<|end_header_id|>
[Shingo]: "Nah, I know it’s weird to say this, but I’m glad you got lost. You’re so cute, Sakuno, so I was really worried about you."<|eot_id|>
このプロンプトに対する温度 0 での生成翻訳は以下の通りです。
[Shingo]: "Nah, I know it’s weird to say this, but I’m glad you got lost. You’re so cute, Sakuno, so I was really worried about you."
豆知識
メタデータセクションはキャラクター情報に限定されず、豆知識を追加したり、モデルが苦手な単語の正しい発音を教えることもできます。
以下はその例です。
<|begin_of_text|><|start_header_id|>Metadata<|end_header_id|>
[character] Name: Uryuu Shingo (瓜生 新吾) | Gender: Male | Aliases: Onii-chan (お兄ちゃん)
[character] Name: Uryuu Sakuno (瓜生 桜乃) | Gender: Female
[element] Name: Murasamemaru (叢雨丸) | Type: Quality<|eot_id|><|start_header_id|>Japanese<|end_header_id|>
[桜乃]: 『……ごめん』<|eot_id|><|start_header_id|>English<|end_header_id|>
[Sakuno]: 『... Sorry.』<|eot_id|><|start_header_id|>Japanese<|end_header_id|>
[新吾]: 「ううん、こう言っちゃなんだけど、迷子でよかったよ。桜乃は叢雨丸いから、いろいろ心配しちゃってたんだぞ俺」<|eot_id|><|start_header_id|>English<|end_header_id|>
このプロンプトに対する温度 0 での生成翻訳は以下の通りです。
[Shingo]: "Nah, I know it’s not the best thing to say, but I’m glad you got lost. Sakuno’s Murasamemaru, so I was really worried about you, you know?"