AI Translator Eng To 9ja
这是一个拥有4.18亿参数的翻译模型,专为将英语翻译成约鲁巴语、伊博语和豪萨语而构建。
下载量 122
发布时间 : 9/22/2024
模型简介
该模型旨在为约鲁巴语、伊博语和豪萨语提供高质量的英语翻译服务,帮助用户更容易地使用这些语言与大语言模型交流。
模型特点
多语言支持
支持英语到约鲁巴语、伊博语和豪萨语三种尼日利亚主要语言的翻译。
高质量翻译
在包含150万条句子的数据集上训练,能够提供高质量的翻译结果。
大模型规模
拥有4.18亿参数,具备较强的语言理解和生成能力。
模型能力
英语到约鲁巴语翻译
英语到伊博语翻译
英语到豪萨语翻译
使用案例
语言交流
与大语言模型交流
帮助使用约鲁巴语、伊博语和豪萨语的用户更容易地与大语言模型进行交流。
内容本地化
医疗内容翻译
将英语医疗相关内容翻译成当地语言,提高医疗信息的可及性。
🚀 AI-translator-eng-to-9ja
这个模型是一个拥有4.18亿参数的翻译模型,专为将英语翻译成约鲁巴语、伊博语和豪萨语而构建。它在包含150万条句子(每种语言50万条)的数据集上进行训练,能够为这些语言提供高质量的翻译。构建该模型的初衷是打造一个系统,让使用伊博语、豪萨语和约鲁巴语与大语言模型(LLMs)进行交流变得更加容易。
🚀 快速开始
要使用此模型进行翻译任务,你可以从Hugging Face的transformers
库中加载它:
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
import huggingface_hub
huggingface_hub.login()
# Load the fine-tuned model
model = M2M100ForConditionalGeneration.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
tokenizer = M2M100Tokenizer.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
# translate English to Igbo
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ig"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ig"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# translate English to yoruba
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions. Effective healthcare systems aim to improve health outcomes, reduce the incidence of illness, and ensure that individuals have access to necessary medical services."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "yo"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("yo"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# translate English to Hausa
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions. Effective healthcare systems aim to improve health outcomes, reduce the incidence of illness, and ensure that individuals have access to necessary medical services."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ha"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ha"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
✨ 主要特性
- 支持的语言:
- 源语言:英语
- 目标语言:约鲁巴语、伊博语、豪萨语
📦 安装指南
文档未提及安装相关内容,跳过该章节。
💻 使用示例
基础用法
# 上述使用此模型进行翻译任务的代码示例
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
import huggingface_hub
huggingface_hub.login()
# Load the fine-tuned model
model = M2M100ForConditionalGeneration.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
tokenizer = M2M100Tokenizer.from_pretrained("HelpMumHQ/AI-translator-eng-to-9ja")
# translate English to Igbo
eng_text="Healthcare is an important field in virtually every society because it directly affects the well-being and quality of life of individuals. It encompasses a wide range of services and professions, including preventive care, diagnosis, treatment, and management of diseases and conditions."
tokenizer.src_lang = "en"
tokenizer.tgt_lang = "ig"
encoded_eng = tokenizer(eng_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_eng, forced_bos_token_id=tokenizer.get_lang_id("ig"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# 其他语言翻译代码同理
📚 详细文档
支持的语言代码
- 英语:
en
- 约鲁巴语:
yo
- 伊博语:
ig
- 豪萨语:
ha
训练数据集
训练数据集包含150万对翻译数据,这些数据来自开源平行语料库和针对约鲁巴语、伊博语和豪萨语精心策划的数据集的组合。
局限性
- 虽然该模型在英语到约鲁巴语、伊博语和豪萨语的翻译中表现良好,但性能可能会因文本的复杂性和领域而异。
- 对于极长的句子或有歧义的上下文,翻译质量可能会下降。
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:64
- 评估批次大小:64
- 随机种子:42
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度类型:线性
- 训练轮数:3
框架版本
- Transformers 4.44.2
- Pytorch 2.4.0+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1
🔧 技术细节
文档未提供足够详细的技术实现细节,跳过该章节。
📄 许可证
该模型采用MIT许可证。
属性 | 详情 |
---|---|
模型类型 | 翻译模型 |
训练数据 | 包含150万条句子(每种语言50万条)的数据集,来自开源平行语料库和针对约鲁巴语、伊博语和豪萨语精心策划的数据集的组合 |
支持语言 | 源语言为英语,目标语言为约鲁巴语、伊博语和豪萨语 |
训练超参数 | 学习率2e - 05,训练批次大小64,评估批次大小64,随机种子42,优化器Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08),学习率调度类型线性,训练轮数3 |
框架版本 | Transformers 4.44.2,Pytorch 2.4.0+cu121,Datasets 2.21.0,Tokenizers 0.19.1 |
许可证 | MIT |
M2m100 418M
MIT
M2M100是一个多语言编码器-解码器模型,支持100种语言的9900个翻译方向
机器翻译 支持多种语言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基于Transformer的法语到英语神经机器翻译模型,由Helsinki-NLP团队开发,采用OPUS多语数据集训练。
机器翻译 支持多种语言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基于OPUS数据训练的阿拉伯语到英语的机器翻译模型,采用transformer-align架构
机器翻译 支持多种语言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一个支持100种语言的多语言机器翻译模型,可直接在9900个翻译方向之间进行翻译。
机器翻译 支持多种语言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25种印度语言与英语互译的1.1B参数规模机器翻译模型,由AI4Bharat项目开发
机器翻译
Transformers 支持多种语言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基于Transformer架构的英汉多方言翻译模型,支持英语到13种汉语变体的翻译任务
机器翻译 支持多种语言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫尔辛基大学开发的基于OPUS语料库的中文到英语机器翻译模型
机器翻译 支持多种语言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基于mBART-large-50微调的多语言机器翻译模型,支持50种语言间的互译
机器翻译 支持多种语言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一个基于 transformer-align 架构的德语到英语的机器翻译模型,由 Helsinki-NLP 团队开发。
机器翻译 支持多种语言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
这是一个基于Transformer架构的西班牙语到英语的机器翻译模型,由Helsinki-NLP团队开发。
机器翻译
Transformers 支持多种语言

O
Helsinki-NLP
385.40k
71
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98