Glotlid开源语言模型 - 免费支持亚非欧多民族小众语言使用

首页

Glotlid

由 cis-lmu 开发

一个支持多种语言的模型，特别关注非洲、亚洲和欧洲的少数民族语言。

大型语言模型支持多种语言开源协议:Apache-2.0 #超多语言支持 #低资源语言处理 #跨语言迁移学习

下载量 12.20k

发布时间 : 10/19/2023

模型简介

该模型专注于提供对多种少数民族语言的支持，特别是非洲、亚洲和欧洲的一些不常见语言。

模型特点

多语言支持

支持超过200种语言，特别关注少数民族和地区性语言。

开源许可证

使用Apache-2.0许可证，允许商业和研究用途。

模型能力

多语言文本处理

少数民族语言支持

使用案例

语言保护

少数民族语言数字化

帮助数字化和保护濒危的少数民族语言。

多语言应用

多语言文本处理

可用于处理多种语言的文本数据。

🚀 GlotLID

GlotLID 是一个基于 Fasttext 的语言识别（LID）模型，支持超过 2000 种语言标签，能高效准确地识别文本语言。

🚀 快速开始

模型使用

以下是使用该模型检测给定文本语言的示例代码：

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

# model.bin 始终为最新版本
>>> model_path = hf_hub_download(repo_id="cis-lmu/glotlid", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.predict("Hello, world!")

直接下载模型

若你不喜欢使用 huggingface_hub，也可以直接下载模型：

>>> ! wget https://huggingface.co/cis-lmu/glotlid/resolve/main/model.bin

>>> import fasttext

>>> model = fasttext.load_model("/path/to/model.bin")
>>> model.predict("Hello, world!")

✨ 主要特性

支持众多语言：支持超过 2000 种语言标签，最新的 V3 版本支持 2102 种语言标签（带书写系统的三字母 ISO 代码）。
持续更新：模型不断迭代更新，从 V1 到 V3 版本，逐步增加支持的语言数量，清理噪声语料和修正错误的元数据标签。

📚 详细文档

最新版本信息：GlotLID 现已更新到 V3。V3 支持 2102 种语言标签，有关支持的语言、性能以及与之前版本的重大更改的更多详细信息，请参考 https://github.com/cisnlp/GlotLID/blob/main/languages-v3.md。
相关链接：
- 演示：huggingface
- 仓库：github
- 论文：paper (EMNLP 2023)
- 联系人：amir@cis.lmu.de

📄 许可证

该模型遵循 Apache 许可证 2.0 版本进行分发。

🔖 版本说明

我们在仓库中始终保留 GlotLID 的旧版本。若要访问特定版本，只需在 filename 后添加版本号：

V1：model_v1.bin（在 GlotLID 论文中引入，并用于所有实验）。
V2：model_v2.bin（V1 的改进版本，支持更多语言，基于 V1 的分析清理了噪声语料）。
V3：model_v3.bin（V2 的改进版本，支持更多语言，排除宏观语言，基于 V2 的分析进一步清理了噪声语料和错误的元数据标签，支持 "zxx" 和 "und" 系列标签）。

model.bin 始终指代最新版本（V3）。

📑 参考文献

如果您使用此模型，请引用以下论文：

@inproceedings{
  kargaran2023glotlid,
  title={{GlotLID}: Language Identification for Low-Resource Languages},
  author={Kargaran, Amir Hossein and Imani, Ayyoob and Yvon, Fran{\c{c}}ois and Sch{\"u}tze, Hinrich},
  booktitle={The 2023 Conference on Empirical Methods in Natural Language Processing},
  year={2023},
  url={https://openreview.net/forum?id=dl4e3EBz5j}
}