🚀 英文 - 挪威语翻译模型
本项目提供了一个英文到挪威语的翻译模型,支持挪威语的两种主要变体(书面挪威语 nb
和新挪威语 nn
)。该模型基于Transformer架构,使用了大量的训练数据,能够实现高质量的翻译。
🚀 快速开始
你可以通过以下链接下载模型的原始权重:
opus+bt-2021-04-20.zip
在使用模型时,需要在句子开头添加语言标记,格式为 >>id<<
(id
通常是有效的三字母目标语言ID)。
📦 模型信息
属性 |
详情 |
模型类型 |
transformer-align |
源语言代码 |
en |
目标语言代码 |
nb, nn |
数据集 |
opus 及反向翻译数据 |
发布日期 |
2021-04-20 |
预处理 |
归一化 + SentencePiece (spm32k,spm32k) |
📚 详细文档
训练数据
- 英文 - 新挪威语 (
eng-nno
):Tatoeba-train (1661769)、wikipedia.aa.nno-eng (995603)、wikipedia.ab.nno-eng (605107)、wikiquote.aa.nno-eng (22626)
- 英文 - 书面挪威语 (
eng-nob
):Tatoeba-train (11525999)、wikibooks.aa.nob-eng (37901)、wikinews.aa.nob-eng (8706)、wikipedia.aa.nob-eng (992563)、wikipedia.ab.nob-eng (992772)、wikipedia.ac.nob-eng (992621)、wikipedia.ad.nob-eng (992828)、wikipedia.ae.nob-eng (992812)、wikipedia.af.nob-eng (976715)、wikiquote.aa.nob-eng (10443)、wikisource.aa.nob-eng (279891)
验证数据
- 英文 - 新挪威语 (
eng-nno
):Tatoeba-dev, 505
- 英文 - 书面挪威语 (
eng-nob
):Tatoeba-dev, 5189
- 总大小(打乱后):1505
- 验证集选择:Tatoeba-dev.src.shuffled 的前 1505 行
测试数据
- Tatoeba-test.eng-nno:460/3428
- Tatoeba-test.eng-nob:4539/36110
- Tatoeba-test.eng-nor:4999/39547
测试集文件
评估指标
BLEU 分数
测试集 |
分数 |
Tatoeba-test.eng-nob |
56.4 |
Tatoeba-test.eng-nor |
55.4 |
Tatoeba-test.eng-nno |
40.3 |
chr-F 分数
测试集 |
分数 |
Tatoeba-test.eng-nob |
0.716 |
Tatoeba-test.eng-nor |
0.71 |
Tatoeba-test.eng-nno |
0.615 |
🔧 系统信息
- Hugging Face 名称:eng-nor
- 源语言:en
- 目标语言:nb, nn
- OPUS 文档链接:https://object.pouta.csc.fi/Tatoeba-MT-models/eng-nor/opus+bt-2021-04-20.zip/README.md
- 原始仓库:Tatoeba-Challenge
- 标签:['translation']
- 支持语言:['en', 'nb', 'nn']
- 源语言成分:['eng']
- 目标语言成分:['nob', 'nno']
- 源语言多语言支持:False
- 目标语言多语言支持:True
- Helsinki 代码提交哈希:59400fea592520766f9910390155681bc930dbc4
- Transformers 代码提交哈希:fd5cdaeea6eafac32e9d967327bfa3dc0e0d962d
- 移植机器:DESKTOP-6CPR2HH
- 移植时间:2023-01-23-21:07
📄 许可证
本项目采用 Apache-2.0 许可证。