🚀 克里特島XLS - R模型
克里特方言是現代希臘語的一種變體,主要由居住在克里特島或屬於克里特僑民的人使用。這包括在1923年希臘與土耳其人口交換後,遷至敘利亞哈米迪耶村和小亞細亞西部的克里特裔社區。塑造該方言發展和保存的歷史及地理因素包括:克里特島長期與大陸隔離,以及在七個世紀的時間裡,該島先後被阿拉伯人、威尼斯人和土耳其人等外國勢力統治。根據語音、音位、形態和詞彙特徵,克里特方言主要分為兩大方言群:西部和東部。這兩個方言群的分界線與該島行政上分為雷西姆農和伊拉克利翁兩個州的分界線一致。康託索普洛斯(2008)認為,東部方言群比西部方言群更為統一,西部方言群在語言分析的各個層面都表現出更多的差異。與其他現代希臘語方言不同,克里特方言不存在滅絕的威脅,因為它仍然是該島不同地區眾多使用者的唯一交流方式。
這是首個用於克里特方言的自動語音識別(ASR)模型。為了訓練該模型,我們在克里特語資源(見下文)上對希臘語XLS - R模型(jonatasgrosman/wav2vec2 - large - xlsr - 53 - greek)進行了微調。
✨ 主要特性
- 適用語言:克里特方言,現代希臘語的一種變體。
- 模型來源:基於希臘語XLS - R模型微調。
- 資源收集:從克里特島伊拉克利翁的廣播中收集數據。
- 評估指標:使用字錯率(WER)和字符錯誤率(CER)進行評估。
📦 安裝指南
文檔未提及安裝相關內容,暫不提供。
💻 使用示例
文檔未提及使用示例代碼,暫不提供。
📚 詳細文檔
資源情況
為了彙編克里特語語料庫,我們在獲得克里特島伊拉克利翁維凱拉亞市立圖書館視聽部的許可後,收集了32盤包含廣播材料的數字磁帶。這些廣播由米雷斯電臺在伊拉克利翁的梅薩拉地區錄製並播出,時間為1998 - 2001年,總時長為958分鐘47秒。這些錄音主要是由一位名為約安尼斯·阿納格諾斯塔基斯的講述者講述的故事,他也是這些內容的創作者。從文本類型來看,廣播的語言內容主要是用當地語言變體表達的民間故事。在收集的所有材料中,我們使用了9盤磁帶。材料選擇的標準一方面是最大限度地提高語音的數字清晰度,另一方面是確保在整個三年的廣播錄音中進行有代表性的抽樣。為了獲得初始轉錄,我們使用了當時最大的Whisper模型Large - v2。隨後,轉錄內容與當地社區合作進行了手動校正。所使用的轉錄系統基於希臘字母和正字法,並在Praat中進行了標註。
為了準備數據集,我們對文本進行了歸一化處理(詳見greek_dialects_asr/中的腳本),並將所有音頻文件轉換為16 kHz的單聲道格式。
我們將Praat標註分割成音頻 - 轉錄片段,最終得到了一個總時長為1小時21分12秒的數據集。需要注意的是,去除音樂、長停頓和未轉錄片段會導致總音頻時長減少(與最初9盤磁帶的2小時錄音相比)。
評估指標
我們在測試集(佔數據集錄音的10%)上對模型進行了評估。
模型 |
字錯率(WER) |
字符錯誤率(CER) |
預訓練模型 |
104.83% |
91.73% |
微調後模型 |
28.27% |
7.88% |
訓練超參數
我們在NVIDIA GeForce RTX 3090上對基線模型(wav2vec2 - large - xlsr - 53 - greek
)進行了微調,使用了以下超參數:
參數 |
值 |
per_device_train_batch_size |
8 |
gradient_accumulation_steps |
2 |
num_train_epochs |
35 |
learning_rate |
3e - 4 |
warmup_steps |
500 |
引用信息
若要引用此工作或瞭解更多關於訓練流程的信息,請參考:
S. Vakirtzian, C. Tsoukala, S. Bompolas, K. Mouzou, V. Stamou, G. Paraskevopoulos, A. Dimakis, S. Markantonatou, A. Ralli, A. Anastasopoulos, Speech Recognition for Greek Dialects: A Challenging Benchmark, Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), 2024.
🔧 技術細節
文檔未提及詳細技術實現細節,暫不提供。
📄 許可證
文檔未提及許可證信息,暫不提供。