🚀 Madlad-400 8B参数语言模型
本项目的模型是 Madlad-400 8B参数语言模型的Safetensors权重。该项目旨在提供多语言处理能力,基于大规模的多语言数据集训练,为多语言任务提供支持。
🚀 快速开始
目前,使用Hugging Face Transformers库运行推理的代码尚未准备好。原始实现是基于JAX/Flaxformer的,你可以参考原始实现代码。
✨ 主要特性
- 模型架构:此模型架构与 Palm 8B 相同,是一个仅解码器的T5模型,具有32层、16个查询头、1个键值头和4096的嵌入大小。
- 改进特性:相对于原始T5架构,该模型有以下主要改进:
- SwiGLU激活函数
- 并行层结构
- 多查询注意力机制
- RoPE嵌入
- 共享输入输出嵌入
- 无偏置
- 双向注意力
- 层归一化时
center_scale_at_zero
以及最后一层 use_scale=False
📚 详细文档
可用版本
如果你正在寻找不同参数规模的语言模型,以下是可用的版本:
相关论文
- 论文标题:MADLAD-400: A Multilingual And Document-Level Large Audited Dataset
- 摘要:我们介绍了MADLAD - 400,这是一个基于CommonCrawl的、经过人工审核的通用领域3T标记单语数据集,涵盖419种语言。我们讨论了对MADLAD - 400进行自我审核所揭示的局限性,以及数据审核在数据集创建过程中的作用。然后,我们使用公开可用的数据,在2500亿个标记上训练并发布了一个107亿参数的多语言机器翻译模型,该模型涵盖450多种语言,并发现它与规模大得多的模型具有竞争力,并报告了在不同领域的结果。此外,我们还训练了一个80亿参数的语言模型,并评估了其在少样本翻译上的结果。我们将基准模型提供给研究界使用。
📄 许可证
本项目采用Apache-2.0许可证。
🔧 技术细节
支持语言
本模型支持以下多种语言:
en, ru, es, fr, de, it, pt, pl, nl, vi, tr, sv, id, ro, cs, zh, hu, ja, th, fi, fa, uk, da, el, "no", bg, sk, ko, ar, lt, ca, sl, he, et, lv, hi, sq, ms, az, sr, ta, hr, kk, is, ml, mr, te, af, gl, fil, be, mk, eu, bn, ka, mn, bs, uz, ur, sw, yue, ne, kn, kaa, gu, si, cy, eo, la, hy, ky, tg, ga, mt, my, km, tt, so, ku, ps, pa, rw, lo, ha, dv, fy, lb, ckb, mg, gd, am, ug, ht, grc, hmn, sd, jv, mi, tk, ceb, yi, ba, fo, or, xh, su, kl, ny, sm, sn, co, zu, ig, yo, pap, st, haw, as, oc, cv, lus, tet, gsw, sah, br, rm, sa, bo, om, se, ce, cnh, ilo, hil, udm, os, lg, ti, vec, ts, tyv, kbd, ee, iba, av, kha, to, tn, nso, fj, zza, ak, ada, otq, dz, bua, cfm, ln, chm, gn, krc, wa, hif, yua, srn, war, rom, bik, pam, sg, lu, ady, kbp, syr, ltg, myv, iso, kac, bho, ay, kum, qu, za, pag, ngu, ve, pck, zap, tyz, hui, bbc, tzo, tiv, ksd, gom, min, ang, nhe, bgp, nzi, nnb, nv, zxx, bci, kv, new, mps, alt, meu, bew, fon, iu, abt, mgh, mnw, tvl, dov, tlh, ho, kw, mrj, meo, crh, mbt, emp, ace, ium, mam, gym, mai, crs, pon, ubu, fip, quc, gv, kj, btx, ape, chk, rcf, shn, tzh, mdf, ppk, ss, gag, cab, kri, seh, ibb, tbz, bru, enq, ach, cuk, kmb, wo, kek, qub, tab, bts, kos, rwo, cak, tuc, bum, cjk, gil, stq, tsg, quh, mak, arn, ban, jiv, sja, yap, tcy, toj, twu, xal, amu, rmc, hus, nia, kjh, bm, guh, mas, acf, dtp, ksw, bzj, din, zne, mad, msi, mag, mkn, kg, lhu, ch, qvi, mh, djk, sus, mfe, srm, dyu, ctu, gui, pau, inb, bi, mni, guc, jam, wal, jac, bas, gor, skr, nyu, noa, sda, gub, nog, cni, teo, tdx, sxn, rki, nr, frp, alz, taj, lrc, cce, rn, jvn, hvn, nij, dwr, izz, msm, bus, ktu, chr, maz, tzj, suz, knj, bim, gvl, bqc, tca, pis, prk, laj, mel, qxr, niq, ahk, shp, hne, spp, koi, krj, quf, luz, agr, tsc, mqy, gof, gbm, miq, dje, awa, bjj, qvz, sjp, tll, raj, kjg, bgz, quy, cbk, akb, oj, ify, mey, ks, cac, brx, qup, syl, jax, ff, ber, tks, trp, mrw, adh, smt, srr, ffm, qvc, mtr, ann, kaa, aa, noe, nut, gyn, kwi, xmm, msb
数据集
本模型使用的数据集为 allenai/MADLAD-400。