🚀 克里特岛XLS - R模型
克里特方言是现代希腊语的一种变体,主要由居住在克里特岛或属于克里特侨民的人使用。这包括在1923年希腊与土耳其人口交换后,迁至叙利亚哈米迪耶村和小亚细亚西部的克里特裔社区。塑造该方言发展和保存的历史及地理因素包括:克里特岛长期与大陆隔离,以及在七个世纪的时间里,该岛先后被阿拉伯人、威尼斯人和土耳其人等外国势力统治。根据语音、音位、形态和词汇特征,克里特方言主要分为两大方言群:西部和东部。这两个方言群的分界线与该岛行政上分为雷西姆农和伊拉克利翁两个州的分界线一致。康托索普洛斯(2008)认为,东部方言群比西部方言群更为统一,西部方言群在语言分析的各个层面都表现出更多的差异。与其他现代希腊语方言不同,克里特方言不存在灭绝的威胁,因为它仍然是该岛不同地区众多使用者的唯一交流方式。
这是首个用于克里特方言的自动语音识别(ASR)模型。为了训练该模型,我们在克里特语资源(见下文)上对希腊语XLS - R模型(jonatasgrosman/wav2vec2 - large - xlsr - 53 - greek)进行了微调。
✨ 主要特性
- 适用语言:克里特方言,现代希腊语的一种变体。
- 模型来源:基于希腊语XLS - R模型微调。
- 资源收集:从克里特岛伊拉克利翁的广播中收集数据。
- 评估指标:使用字错率(WER)和字符错误率(CER)进行评估。
📦 安装指南
文档未提及安装相关内容,暂不提供。
💻 使用示例
文档未提及使用示例代码,暂不提供。
📚 详细文档
资源情况
为了汇编克里特语语料库,我们在获得克里特岛伊拉克利翁维凯拉亚市立图书馆视听部的许可后,收集了32盘包含广播材料的数字磁带。这些广播由米雷斯电台在伊拉克利翁的梅萨拉地区录制并播出,时间为1998 - 2001年,总时长为958分钟47秒。这些录音主要是由一位名为约安尼斯·阿纳格诺斯塔基斯的讲述者讲述的故事,他也是这些内容的创作者。从文本类型来看,广播的语言内容主要是用当地语言变体表达的民间故事。在收集的所有材料中,我们使用了9盘磁带。材料选择的标准一方面是最大限度地提高语音的数字清晰度,另一方面是确保在整个三年的广播录音中进行有代表性的抽样。为了获得初始转录,我们使用了当时最大的Whisper模型Large - v2。随后,转录内容与当地社区合作进行了手动校正。所使用的转录系统基于希腊字母和正字法,并在Praat中进行了标注。
为了准备数据集,我们对文本进行了归一化处理(详见greek_dialects_asr/中的脚本),并将所有音频文件转换为16 kHz的单声道格式。
我们将Praat标注分割成音频 - 转录片段,最终得到了一个总时长为1小时21分12秒的数据集。需要注意的是,去除音乐、长停顿和未转录片段会导致总音频时长减少(与最初9盘磁带的2小时录音相比)。
评估指标
我们在测试集(占数据集录音的10%)上对模型进行了评估。
模型 |
字错率(WER) |
字符错误率(CER) |
预训练模型 |
104.83% |
91.73% |
微调后模型 |
28.27% |
7.88% |
训练超参数
我们在NVIDIA GeForce RTX 3090上对基线模型(wav2vec2 - large - xlsr - 53 - greek
)进行了微调,使用了以下超参数:
参数 |
值 |
per_device_train_batch_size |
8 |
gradient_accumulation_steps |
2 |
num_train_epochs |
35 |
learning_rate |
3e - 4 |
warmup_steps |
500 |
引用信息
若要引用此工作或了解更多关于训练流程的信息,请参考:
S. Vakirtzian, C. Tsoukala, S. Bompolas, K. Mouzou, V. Stamou, G. Paraskevopoulos, A. Dimakis, S. Markantonatou, A. Ralli, A. Anastasopoulos, Speech Recognition for Greek Dialects: A Challenging Benchmark, Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), 2024.
🔧 技术细节
文档未提及详细技术实现细节,暂不提供。
📄 许可证
文档未提及许可证信息,暂不提供。