🚀 Madlad-400 8B參數語言模型
本項目的模型是 Madlad-400 8B參數語言模型的Safetensors權重。該項目旨在提供多語言處理能力,基於大規模的多語言數據集訓練,為多語言任務提供支持。
🚀 快速開始
目前,使用Hugging Face Transformers庫運行推理的代碼尚未準備好。原始實現是基於JAX/Flaxformer的,你可以參考原始實現代碼。
✨ 主要特性
- 模型架構:此模型架構與 Palm 8B 相同,是一個僅解碼器的T5模型,具有32層、16個查詢頭、1個鍵值頭和4096的嵌入大小。
- 改進特性:相對於原始T5架構,該模型有以下主要改進:
- SwiGLU激活函數
- 並行層結構
- 多查詢注意力機制
- RoPE嵌入
- 共享輸入輸出嵌入
- 無偏置
- 雙向注意力
- 層歸一化時
center_scale_at_zero
以及最後一層 use_scale=False
📚 詳細文檔
可用版本
如果你正在尋找不同參數規模的語言模型,以下是可用的版本:
相關論文
- 論文標題:MADLAD-400: A Multilingual And Document-Level Large Audited Dataset
- 摘要:我們介紹了MADLAD - 400,這是一個基於CommonCrawl的、經過人工審核的通用領域3T標記單語數據集,涵蓋419種語言。我們討論了對MADLAD - 400進行自我審核所揭示的侷限性,以及數據審核在數據集創建過程中的作用。然後,我們使用公開可用的數據,在2500億個標記上訓練併發布了一個107億參數的多語言機器翻譯模型,該模型涵蓋450多種語言,並發現它與規模大得多的模型具有競爭力,並報告了在不同領域的結果。此外,我們還訓練了一個80億參數的語言模型,並評估了其在少樣本翻譯上的結果。我們將基準模型提供給研究界使用。
📄 許可證
本項目採用Apache-2.0許可證。
🔧 技術細節
支持語言
本模型支持以下多種語言:
en, ru, es, fr, de, it, pt, pl, nl, vi, tr, sv, id, ro, cs, zh, hu, ja, th, fi, fa, uk, da, el, "no", bg, sk, ko, ar, lt, ca, sl, he, et, lv, hi, sq, ms, az, sr, ta, hr, kk, is, ml, mr, te, af, gl, fil, be, mk, eu, bn, ka, mn, bs, uz, ur, sw, yue, ne, kn, kaa, gu, si, cy, eo, la, hy, ky, tg, ga, mt, my, km, tt, so, ku, ps, pa, rw, lo, ha, dv, fy, lb, ckb, mg, gd, am, ug, ht, grc, hmn, sd, jv, mi, tk, ceb, yi, ba, fo, or, xh, su, kl, ny, sm, sn, co, zu, ig, yo, pap, st, haw, as, oc, cv, lus, tet, gsw, sah, br, rm, sa, bo, om, se, ce, cnh, ilo, hil, udm, os, lg, ti, vec, ts, tyv, kbd, ee, iba, av, kha, to, tn, nso, fj, zza, ak, ada, otq, dz, bua, cfm, ln, chm, gn, krc, wa, hif, yua, srn, war, rom, bik, pam, sg, lu, ady, kbp, syr, ltg, myv, iso, kac, bho, ay, kum, qu, za, pag, ngu, ve, pck, zap, tyz, hui, bbc, tzo, tiv, ksd, gom, min, ang, nhe, bgp, nzi, nnb, nv, zxx, bci, kv, new, mps, alt, meu, bew, fon, iu, abt, mgh, mnw, tvl, dov, tlh, ho, kw, mrj, meo, crh, mbt, emp, ace, ium, mam, gym, mai, crs, pon, ubu, fip, quc, gv, kj, btx, ape, chk, rcf, shn, tzh, mdf, ppk, ss, gag, cab, kri, seh, ibb, tbz, bru, enq, ach, cuk, kmb, wo, kek, qub, tab, bts, kos, rwo, cak, tuc, bum, cjk, gil, stq, tsg, quh, mak, arn, ban, jiv, sja, yap, tcy, toj, twu, xal, amu, rmc, hus, nia, kjh, bm, guh, mas, acf, dtp, ksw, bzj, din, zne, mad, msi, mag, mkn, kg, lhu, ch, qvi, mh, djk, sus, mfe, srm, dyu, ctu, gui, pau, inb, bi, mni, guc, jam, wal, jac, bas, gor, skr, nyu, noa, sda, gub, nog, cni, teo, tdx, sxn, rki, nr, frp, alz, taj, lrc, cce, rn, jvn, hvn, nij, dwr, izz, msm, bus, ktu, chr, maz, tzj, suz, knj, bim, gvl, bqc, tca, pis, prk, laj, mel, qxr, niq, ahk, shp, hne, spp, koi, krj, quf, luz, agr, tsc, mqy, gof, gbm, miq, dje, awa, bjj, qvz, sjp, tll, raj, kjg, bgz, quy, cbk, akb, oj, ify, mey, ks, cac, brx, qup, syl, jax, ff, ber, tks, trp, mrw, adh, smt, srr, ffm, qvc, mtr, ann, kaa, aa, noe, nut, gyn, kwi, xmm, msb
數據集
本模型使用的數據集為 allenai/MADLAD-400。