Glotlid開源語言模型 - 免費支持亞非歐多民族小眾語言使用

首頁

Glotlid

由cis-lmu開發

一個支持多種語言的模型，特別關注非洲、亞洲和歐洲的少數民族語言。

大型語言模型支持多種語言開源協議:Apache-2.0 #超多語言支持 #低資源語言處理 #跨語言遷移學習

下載量 12.20k

發布時間 : 10/19/2023

模型概述

該模型專注於提供對多種少數民族語言的支持，特別是非洲、亞洲和歐洲的一些不常見語言。

模型特點

多語言支持

支持超過200種語言，特別關注少數民族和地區性語言。

開源許可證

使用Apache-2.0許可證，允許商業和研究用途。

模型能力

多語言文本處理

少數民族語言支持

使用案例

語言保護

少數民族語言數字化

幫助數字化和保護瀕危的少數民族語言。

多語言應用

多語言文本處理

可用於處理多種語言的文本數據。

🚀 GlotLID

GlotLID 是一個基於 Fasttext 的語言識別（LID）模型，支持超過 2000 種語言標籤，能高效準確地識別文本語言。

🚀 快速開始

模型使用

以下是使用該模型檢測給定文本語言的示例代碼：

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

# model.bin 始終為最新版本
>>> model_path = hf_hub_download(repo_id="cis-lmu/glotlid", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.predict("Hello, world!")

直接下載模型

若你不喜歡使用 huggingface_hub，也可以直接下載模型：

>>> ! wget https://huggingface.co/cis-lmu/glotlid/resolve/main/model.bin

>>> import fasttext

>>> model = fasttext.load_model("/path/to/model.bin")
>>> model.predict("Hello, world!")

✨ 主要特性

支持眾多語言：支持超過 2000 種語言標籤，最新的 V3 版本支持 2102 種語言標籤（帶書寫系統的三字母 ISO 代碼）。
持續更新：模型不斷迭代更新，從 V1 到 V3 版本，逐步增加支持的語言數量，清理噪聲語料和修正錯誤的元數據標籤。

📚 詳細文檔

最新版本信息：GlotLID 現已更新到 V3。V3 支持 2102 種語言標籤，有關支持的語言、性能以及與之前版本的重大更改的更多詳細信息，請參考 https://github.com/cisnlp/GlotLID/blob/main/languages-v3.md。
相關鏈接：
- 演示：huggingface
- 倉庫：github
- 論文：paper (EMNLP 2023)
- 聯繫人：amir@cis.lmu.de

📄 許可證

該模型遵循 Apache 許可證 2.0 版本進行分發。

🔖 版本說明

我們在倉庫中始終保留 GlotLID 的舊版本。若要訪問特定版本，只需在 filename 後添加版本號：

V1：model_v1.bin（在 GlotLID 論文中引入，並用於所有實驗）。
V2：model_v2.bin（V1 的改進版本，支持更多語言，基於 V1 的分析清理了噪聲語料）。
V3：model_v3.bin（V2 的改進版本，支持更多語言，排除宏觀語言，基於 V2 的分析進一步清理了噪聲語料和錯誤的元數據標籤，支持 "zxx" 和 "und" 系列標籤）。

model.bin 始終指代最新版本（V3）。

📑 參考文獻

如果您使用此模型，請引用以下論文：

@inproceedings{
  kargaran2023glotlid,
  title={{GlotLID}: Language Identification for Low-Resource Languages},
  author={Kargaran, Amir Hossein and Imani, Ayyoob and Yvon, Fran{\c{c}}ois and Sch{\"u}tze, Hinrich},
  booktitle={The 2023 Conference on Empirical Methods in Natural Language Processing},
  year={2023},
  url={https://openreview.net/forum?id=dl4e3EBz5j}
}