AI Translator Eng To 9ja
這是一個擁有4.18億參數的翻譯模型,專為將英語翻譯成約魯巴語、伊博語和豪薩語而構建。
下載量 122
發布時間 : 9/22/2024
模型概述
該模型旨在為約魯巴語、伊博語和豪薩語提供高質量的英語翻譯服務,幫助用戶更容易地使用這些語言與大語言模型交流。
模型特點
多語言支持
支持英語到約魯巴語、伊博語和豪薩語三種尼日利亞主要語言的翻譯。
高質量翻譯
在包含150萬條句子的數據集上訓練,能夠提供高質量的翻譯結果。
大模型規模
擁有4.18億參數,具備較強的語言理解和生成能力。
模型能力
英語到約魯巴語翻譯
英語到伊博語翻譯
英語到豪薩語翻譯
使用案例
語言交流
與大語言模型交流
幫助使用約魯巴語、伊博語和豪薩語的用戶更容易地與大語言模型進行交流。
內容本地化
醫療內容翻譯
將英語醫療相關內容翻譯成當地語言,提高醫療信息的可及性。
🚀 AI-translator-eng-to-9ja
這個模型是一個擁有4.18億參數的翻譯模型,專為將英語翻譯成約魯巴語、伊博語和豪薩語而構建。它在包含150萬條句子(每種語言50萬條)的數據集上進行訓練,能夠為這些語言提供高質量的翻譯。構建該模型的初衷是打造一個系統,讓使用伊博語、豪薩語和約魯巴語與大語言模型(LLMs)進行交流變得更加容易。
🚀 快速開始
要使用此模型進行翻譯任務,你可以從Hugging Face的transformers
庫中加載它:
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
import huggingface_hub
huggingface_hub.login()
# Load the fine-tuned model
model = M2M100ForConditionalGeneration.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
tokenizer = M2M100Tokenizer.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
# translate English to Igbo
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ig"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ig"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# translate English to yoruba
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions. Effective healthcare systems aim to improve health outcomes, reduce the incidence of illness, and ensure that individuals have access to necessary medical services."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "yo"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("yo"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# translate English to Hausa
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions. Effective healthcare systems aim to improve health outcomes, reduce the incidence of illness, and ensure that individuals have access to necessary medical services."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ha"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ha"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
✨ 主要特性
- 支持的語言:
- 源語言:英語
- 目標語言:約魯巴語、伊博語、豪薩語
📦 安裝指南
文檔未提及安裝相關內容,跳過該章節。
💻 使用示例
基礎用法
# 上述使用此模型進行翻譯任務的代碼示例
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
import huggingface_hub
huggingface_hub.login()
# Load the fine-tuned model
model = M2M100ForConditionalGeneration.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
tokenizer = M2M100Tokenizer.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
# translate English to Igbo
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ig"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ig"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# 其他語言翻譯代碼同理
📚 詳細文檔
支持的語言代碼
- 英語:
en
- 約魯巴語:
yo
- 伊博語:
ig
- 豪薩語:
ha
訓練數據集
訓練數據集包含150萬對翻譯數據,這些數據來自開源平行語料庫和針對約魯巴語、伊博語和豪薩語精心策劃的數據集的組合。
侷限性
- 雖然該模型在英語到約魯巴語、伊博語和豪薩語的翻譯中表現良好,但性能可能會因文本的複雜性和領域而異。
- 對於極長的句子或有歧義的上下文,翻譯質量可能會下降。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:64
- 評估批次大小:64
- 隨機種子:42
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度類型:線性
- 訓練輪數:3
框架版本
- Transformers 4.44.2
- Pytorch 2.4.0+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1
🔧 技術細節
文檔未提供足夠詳細的技術實現細節,跳過該章節。
📄 許可證
該模型採用MIT許可證。
屬性 | 詳情 |
---|---|
模型類型 | 翻譯模型 |
訓練數據 | 包含150萬條句子(每種語言50萬條)的數據集,來自開源平行語料庫和針對約魯巴語、伊博語和豪薩語精心策劃的數據集的組合 |
支持語言 | 源語言為英語,目標語言為約魯巴語、伊博語和豪薩語 |
訓練超參數 | 學習率2e - 05,訓練批次大小64,評估批次大小64,隨機種子42,優化器Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08),學習率調度類型線性,訓練輪數3 |
框架版本 | Transformers 4.44.2,Pytorch 2.4.0+cu121,Datasets 2.21.0,Tokenizers 0.19.1 |
許可證 | MIT |
M2m100 418M
MIT
M2M100是一個多語言編碼器-解碼器模型,支持100種語言的9900個翻譯方向
機器翻譯 支持多種語言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基於Transformer的法語到英語神經機器翻譯模型,由Helsinki-NLP團隊開發,採用OPUS多語數據集訓練。
機器翻譯 支持多種語言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基於OPUS數據訓練的阿拉伯語到英語的機器翻譯模型,採用transformer-align架構
機器翻譯 支持多種語言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一個支持100種語言的多語言機器翻譯模型,可直接在9900個翻譯方向之間進行翻譯。
機器翻譯 支持多種語言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25種印度語言與英語互譯的1.1B參數規模機器翻譯模型,由AI4Bharat項目開發
機器翻譯
Transformers 支持多種語言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基於Transformer架構的英漢多方言翻譯模型,支持英語到13種漢語變體的翻譯任務
機器翻譯 支持多種語言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫爾辛基大學開發的基於OPUS語料庫的中文到英語機器翻譯模型
機器翻譯 支持多種語言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基於mBART-large-50微調的多語言機器翻譯模型,支持50種語言間的互譯
機器翻譯 支持多種語言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一個基於 transformer-align 架構的德語到英語的機器翻譯模型,由 Helsinki-NLP 團隊開發。
機器翻譯 支持多種語言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
這是一個基於Transformer架構的西班牙語到英語的機器翻譯模型,由Helsinki-NLP團隊開發。
機器翻譯
Transformers 支持多種語言

O
Helsinki-NLP
385.40k
71
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98