2020 iFLYTEK A.I. 開發者大賽.語種識別挑戰賽

2020 iFLYTEK A.I. 開發者大賽.語種識別挑戰賽

 總獎金: 77500(CNY)

活動時間: 2020-06-22 ~ 2020-08-20

主辦單位: 科大訊飛股份有限公司

主辦單位Email:AICompetition@iflytek.com

報名截止時間:2020-08-20

舉辦方:科大訊飛股份有限公司

賽事概要

一、賽事背景

隨著經濟全球化發展和“一帶一路”國家倡議的提出,跨境的國際合作和交流日益頻繁,越來越多的中國企業正走向世界參與世界經濟發展和管理,對多語種語音技術提出大量多樣化的需求。“多語種語種分類挑戰賽”旨在加強語種識別研究的交流、促進語種識別技術的發展。自2018年第一屆方言挑戰賽活動以來,多種實用、高效的語種識別技術在競賽中得到打磨。本屆競賽將從真實場景和實際應用出發,新增了更具挑戰性、更加務實的任務,期待業內同仁們能在這些任務上相互切磋、共同進步。

二、賽事任務

語種識別挑戰賽旨在增強多語種語言識別技術,本次挑戰賽設置了更具挑戰性的任務,相比其他競賽,本次競賽所提供的訓練數據更少、語言種類更多、混淆度更高,總體為更貼近真實使用場景的競賽任務,具體包含:

  • 初賽:短語音語種識別,該任務所要識別的有效語音時長僅為3秒左右。
  • 複賽:高混淆度語種識別,該任務除了需要保障初賽集合的識別準確率之外,還需要識別較為相似的三種語言( 埃及阿拉伯語、沙特阿拉伯語、阿聯酋阿拉伯語 )。

三、評審規則

1.數據說明:

初賽共有17種語言,分別是: 匈牙利語、希臘語、塞爾維亞語、斯洛伐克語、格魯吉亞語、克羅地亞語、斯瓦西里語、阿姆哈拉語、馬來語、菲律賓語、高棉語、孟加拉語、土耳其語、僧伽羅語、阿塞拜疆語、希伯來語、南非祖魯語;

複賽增加3種高混淆度語言,分別是: 埃及阿拉伯語、沙特阿拉伯語、阿聯酋語阿拉伯語

以上20種語言覆蓋“一帶一路”周邊國家,且每種語言平均包含1小時的朗讀風格語音數據。數據由各個型號的智能手機採集,錄製環境包含安靜環境和噪聲環境。數據以採樣率16000Hz,16比特量化的PCM格式存儲。數據集包含訓練集、開發集和測試集三個部分。訓練集每種語言約有250句左右語音;開發集和測試集分別每種語言約有400句左右語音。初賽複賽的開發集和測試集的數據根據語音段的時長均為有效語音長約三秒的短時語音數據,更貼近實際應用場景。訓練集、開發集、測試集均沒有重複。

數據具體描述見表1

表1 數據詳細描述 為了保證比賽的公平性,本次比賽僅允許使用官方發佈的數據,否則比賽成績將被視為無效。不符合規定的情況包括以下幾種:

a )參賽系統搭建過程中有任何一個環節( 包括數據加噪、模型初始化等 )用到了官方發佈的訓練數據集之外的其他數據;

b )其他對發佈數據集的人工處理,比如人工對數據集進行語音端點檢測等;

c )人工對測試集語音進行辯聽;

這種情況是允許的:僅利用官方發佈的訓練數據集進行數據的機器仿真和加噪

2.評估指標

結果評價指標為分類正確率:即分類正確的語音條數/所有語音條數。訓練集合與開發集合供參加競賽的科研單位以及開發者調試系統使用,最終排名以參賽者提交的測試集合測試結果為準,分類正確率越高排名越靠前。

3.評測及排行

1、初賽和複賽均提供下載數據,選手在本地進行算法調試,在比賽頁面提交結果。

2、每支團隊每天最多提交3次。

3、排行按照得分從高到低排序,排行榜將選擇團隊的歷史最優成績進行排名。

四、作品提交要求

【舉例】:

1、文件格式:按照csv格式提交

2、文件大小:無要求

3、提交次數限制:每支隊伍每天最多3次

4、文件詳細說明:

1 ) 以csv格式提交,編碼為UTF-8,第一行為表頭;

2 ) 提交格式見樣例,submit_example.csv;

id,label

test00001.wav,L001

test00002.wav,L002

5、不需要上傳其他文件

五、賽程規則

初賽 6月22日——8月21日

  1. 初賽截止成績以團隊在初賽時間段內最優成績為準( 不含測試排名 )。
  2. 初賽作品提交截止日期為8月20日17:00;初賽名次公佈日期為8月21日10:00。

複賽 8月21日——9月21日

  1. 排名前20%的團隊晉級複賽,大賽官網將公示團隊信息。選手通過大賽官網下載新增的訓練集和開發集,本地調試算法,在線提交結果。
  2. 複賽成績以參賽團隊在複賽時間段內最優成績為準。
  3. 複賽作品提交截止日期為9月20日17:00;複賽名次公佈日期為9月21日10:00。

決賽 10月24日

  1. 前三名團隊將受邀參加科大訊飛全球1024開發者節並於現場進行決賽。
  2. 決賽以答辯( 10min陳述+5min問答 )的形式進行。
  3. 根據複賽成績和答辯成績綜合評分( 複賽成績佔比70%,現場答辯分數佔比30% )。

六、獎項設置

  • 入圍複賽
    • 複賽入圍證書
    • 大賽專屬Geek禮包
    • 大賽限量文化衫
  • 入圍決賽
    • 科大訊飛1024開發者節全場通票
    • 決賽入圍證書
    • 科大訊飛創孵基地綠色入駐通道
    • A.I.服務市場入駐特權
  • 決賽勝出
    • 決賽獎金,各賽道TOP10選手將階梯獲得賽道獎金,第一名3萬元、第二名2萬元、第三名1萬元、第四-第十名分別獲得“算法菁英獎”2500元。
    • 參與1024全球開發者節頒獎盛典,現場授予獎金、證書與定製獎盃
    • A.I.全鏈創業扶持
    • 綠色就業通道&訊飛Offer

報名成功後,請添加大賽小助手微信 : iFLYTEKAI2020

關於iFLYTEK A.I.開發者大賽

“iFLYTEK A.I. 開發者大賽”是由科大訊飛發起的頂尖人工智能競賽平台,匯聚產學研各界力量,面向全球開發者發起數據算法及創新應用類挑戰,推動人工智能前沿科學研究和創新成果轉化,培育人工智能產業人才,助力人工智能生態建設。


相關連結:


iFLYTEK A.I. 開發者大賽相關競賽


您可能也會喜歡…

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料