🚀 AI-translator-eng-to-9ja
このモデルは、4.18億のパラメータを持つ翻訳モデルで、英語をヨルバ語、イボ語、ハウサ語に翻訳するために構築されました。150万文(各言語50万文)のデータセットで訓練されており、これらの言語に対して高品質な翻訳を提供することができます。このモデルを構築した目的は、イボ語、ハウサ語、ヨルバ語を使用して大規模言語モデル(LLMs)とのコミュニケーションを容易にするシステムを作成することです。
🚀 クイックスタート
このモデルを翻訳タスクに使用するには、Hugging Faceのtransformers
ライブラリからロードすることができます。
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
import huggingface_hub
huggingface_hub.login()
model = M2M100ForConditionalGeneration.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
tokenizer = M2M100Tokenizer.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ig"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ig"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions. Effective healthcare systems aim to improve health outcomes, reduce the incidence of illness, and ensure that individuals have access to necessary medical services."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "yo"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("yo"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions. Effective healthcare systems aim to improve health outcomes, reduce the incidence of illness, and ensure that individuals have access to necessary medical services."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ha"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ha"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
✨ 主な機能
- サポート言語:
- ソース言語:英語
- ターゲット言語:ヨルバ語、イボ語、ハウサ語
💻 使用例
基本的な使用法
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
import huggingface_hub
huggingface_hub.login()
model = M2M100ForConditionalGeneration.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
tokenizer = M2M100Tokenizer.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ig"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ig"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
📚 ドキュメント
サポートされる言語コード
- 英語:
en
- ヨルバ語:
yo
- イボ語:
ig
- ハウサ語:
ha
訓練データセット
訓練データセットは150万の翻訳データ対を含み、これらのデータはオープンソースの平行コーパスと、ヨルバ語、イボ語、ハウサ語用に精心に選ばれたデータセットの組み合わせから来ています。
制限事項
- このモデルは英語からヨルバ語、イボ語、ハウサ語の翻訳で良好な性能を示しますが、性能はテキストの複雑さや分野によって異なる場合があります。
- 非常に長い文や曖昧なコンテキストでは、翻訳品質が低下する可能性があります。
訓練ハイパーパラメータ
訓練過程では以下のハイパーパラメータが使用されました。
- 学習率:2e - 05
- 訓練バッチサイズ:64
- 評価バッチサイズ:64
- 乱数シード:42
- オプティマイザ:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学習率スケジューリングタイプ:線形
- 訓練エポック数:3
フレームワークバージョン
- Transformers 4.44.2
- Pytorch 2.4.0+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1
📄 ライセンス
このモデルはMITライセンスを採用しています。
属性 |
詳細 |
モデルタイプ |
翻訳モデル |
訓練データ |
150万文(各言語50万文)を含むデータセットで、オープンソースの平行コーパスと、ヨルバ語、イボ語、ハウサ語用に精心に選ばれたデータセットの組み合わせから来ています。 |
サポート言語 |
ソース言語は英語、ターゲット言語はヨルバ語、イボ語、ハウサ語 |
訓練ハイパーパラメータ |
学習率2e - 05、訓練バッチサイズ64、評価バッチサイズ64、乱数シード42、オプティマイザAdam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)、学習率スケジューリングタイプ線形、訓練エポック数3 |
フレームワークバージョン |
Transformers 4.44.2、Pytorch 2.4.0+cu121、Datasets 2.21.0、Tokenizers 0.19.1 |
ライセンス |
MIT |