🚀 クイックスタート
このモデルは、英語からヒングリッシュへの翻訳を行うためのものです。NATERAWによって英語からヒングリッシュへの翻訳データセットで学習されたLoRAを、llama2 - 7bとOPENHATHI - 7B - BASEにマージしたものです。openHathiはllama2と比較して事前学習においてより多くのヒンディー語データを持っているため、翻訳精度が大幅に向上しています。

📚 ドキュメント
🔍 モデルの詳細
このモデルは、NATERAWによって英語からヒングリッシュへの翻訳データセットで学習されたLoRAを、llama2 - 7bとOPENHATHI - 7B - BASEにマージしたものです。openHathiはllama2と比較して事前学習においてより多くのヒンディー語データを持っているため、翻訳が大幅に良くなっています。
💬 プロンプトの使用方法
naterawによって提供されたプロンプトテンプレートを使用することができます。
"Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n"
💻 使用例
基本的な使用法
from transformers import LlamaForCausalLM, AutoTokenizer
import torch
device = "cuda:0"
tokenizer = AutoTokenizer.from_pretrained('akashgoel-id/OpenHathi-7B-English-to-Hinglish')
model = LlamaForCausalLM.from_pretrained('akashgoel-id/OpenHathi-7B-English-to-Hinglish', torch_dtype=torch.bfloat16).to(device)
PROMPT_TEMPLATE = (
f"Translate from english to hinglish:\n{{en}}\n---\nTranslation:\n"
)
while True:
userInput = input("Enter input: ")
prompt = PROMPT_TEMPLATE.format(en=userInput)
inputs = tokenizer(prompt, return_tensors="pt").to(device)
generate_ids = model.generate(inputs.input_ids, max_length=500)
print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])
⚠️ 制限事項
このモデルは、慣用句の翻訳に関してはまだ十分ではありません。
-
入力 : When it rains, it pours
応答: Jab baarish hoti hai, to baarish hoti hai
評価: この翻訳は非常に逐語的で、慣用句の意味を捉えていません。元のフレーズは、何かが起こるとき、しばしば極端な程度で起こることを意味します。提供された翻訳は単に「雨が降るときは雨が降る」と述べているだけで、慣用句の本質を捉えていません。
-
入力 : Don't count your chickens before they hatch
応答: Apne murgon ko ande se pahle na ginein
評価: これは慣用句の合理的な翻訳で、不確実な未来の出来事を前提とした計画を立てないという比喩的な意味を維持しています。
-
入力 : Biting off more than you can chew
応答: Aap jo chaba sakte hain usse adhik kaatna
評価: この翻訳は噛むという文字通りの側面を捉えていますが、取り組むのが大きすぎたり難しすぎたりするタスクを引き受けるという慣用的な意味を完全に伝えていないかもしれません。
-
入力 : The ball is in your court
応答 : Gend aapke court mein hai
評価 : この翻訳は、誰かが決定を下したり行動を起こしたりする番であるという慣用句の意味を効果的に伝えています。
-
入力 : Beating around the bush
応答 : Bush ke chaaron or peetna
評価 : これは逐語的な翻訳で、主要なポイントを避けたり、ある主題について直接話さなかったりするという慣用的な意味を捉えていません。「Ghumaphira ke baat karna」という表現の方が適切です。
🚀 次のステップ
- このモデルはllama2を使用しているため、高度に検閲されているようです。次のステップは、より検閲されていないデータで微調整することで、一部の検閲を解除することです。(WizardLMがllama2に対して行ったこと)
- 慣用句に関するデータで微調整すること。