2020 AI CUP.歌聲轉譜競賽

2020 AI CUP.歌聲轉譜競賽

 總獎金: 250000

最高獎金: 100000

報名時間: 2020-03-15 ~ 2020-06-01

主辦單位: AI CUP 實戰人工智慧

主辦單位Email:admin.AIdea@itri.org.tw

簡介

隨著時代的進展,聆聽音樂的方式已經從以往的 CD 轉移到各式各樣的音樂線上平台,如國外的 Spotify、Line Music,國內的 KKBOX、Friday Music 等。就 2016 年 IFPI 的報告指出,數位音樂的產值已經正式超過實體音樂產值,而實體音樂的產值正在連年下降中,顯示出趨勢正站在數位音樂這邊。

而數位音樂的發展帶動了許多相關的 AI 智能應用,包括原曲辨識、哼唱選歌、樂曲分類等,其中 Line Music、KKBOX 與 Spotify 都相繼成立機器學習或人工智慧部門,專門透過歌曲內容與使用者的聆聽習慣來分析使用者的音樂喜好,並且提供上述各種 AI 服務來讓使用者方便聆聽到自己喜歡的音樂,進而衍生出加值的空間。

如前所述,各式各樣的線上音樂平台正在積極的拓展各式各樣的 AI 音樂分析與應用,並成立屬於自己的機器學習或是人工智慧部門。Line Music 也即將在今年正式進駐台灣,顯示數位音樂的市場在經由科技、網路、以及社群平台的發展之後正在火速超越實體音樂的產值中。此類服務在機器學習的研究上可以分成兩個部分,一是針對使用者行為做推薦,另一則是針對歌曲的本質做推薦,在歌曲的本質上,許多基本的特性方法研究是一個必須的重點,如歌曲的主旋律、和弦、歌曲結構、曲風、節拍…等等的基本要素,這些基本要素構成了一首歌曲該如何被分類及推薦,因此熟悉這些音樂基本分析元素及機器學習之方法的人才在目前的音樂產業中是亟需被重點培養的。

競賽論壇:AI CUP – 歌聲轉譜競賽

競賽獎金

敘獎對象須為報名時具中華民國各大專校院之在學生,敘獎時需檢附相關證明。

在「歌聲轉譜競賽」項目前九名的優勝隊伍將分別獲得競賽獎金:

名次 獎金
第一名 10 萬元
第二名 5 萬元
第三名 3.5 萬元
優等 1.5 萬元
佳作五名 各 1 萬元
  • 前三名獲獎隊伍經評審委員審定後將獲得教育部獎狀乙紙。
  • 名次在前 25% 且超過 Baseline 之隊伍,經評審委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀。
  • 各項獎勵名額得視參賽件數及成績酌予調整,參賽作品未達水準時,得由決選評審委員決定從缺,或不足額入選。

競賽方式及評選辦法

本競賽「歌聲轉譜」係依據主辦單位所提供之語料集,並經由主辦單位聘僱之音樂領域專家所標註的結果,以 F1-measure 來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:

主辦單位會標註好 2000 首歌曲的資料,其中 1500 首為測試資料集,作為最終的評分使用,另 500 首則會在競賽途中釋放作為訓練集所用。資料內含有有原曲的音高(單位:Semitone),對應的 YouTube 連結及對應的音符(內含起始時間,結束時間及音高,單位為[毫秒、毫秒、Semitone])。主要的比賽階段如下:

  • 第一階段:主辦單位提供 500 首經音樂專家標註具有歌聲轉譜的資料集,此段時間內參賽者可以利用交互驗證(Cross Validation)的方式來作訓練及測試。
  • 第二階段:線上系統公佈,主辦單位會公布 1500 首測試資料集的音高與對應的 YouTube 連結,參賽者可自行產生對應的音符並依照格式上傳至系統,在此階段只會公布 750 首之評估結果。
  • 第三階段:競賽時間截止,系統會以最後一筆上傳的結果計算剩下 750 首測試資料集的評估分數,並以此測試資料集的結果為最終排名依據。
  • 第四階段:參賽者必須在競賽截止的兩周內上傳報告說明文件,以茲證明無任何作弊或抄襲之可能,前九名的參賽者須提供程式碼,供主辦單位驗證。委員們將在此階段一一進行嚴格的文件審查。
  • 第五階段:競賽成績公佈。

活動時間

時間 事件
2020/03/05 開放報名及組隊,提供範例資料
2020/03/05-4/30 校園巡迴
2020/03/31 公布訓練資料
2020/06/01 報名及組隊截止
2020/06/02 公布測試集,開放上傳結果
2020/06/12 23:59:59 比賽截止
2020/06/15 公布系統分數,開始上傳報告
2020/06/29 23:59:59 上傳報告截止
2020/07/01 系統及報告評估
2020/07/10 成績公布(頒獎時間待公布)

評估標準

歌聲轉譜的部分,我們的評估標準取自 E. Molina 等人的論文[1]。具體的標準,包含三種指標的 F-measure,分別列舉如下:

  • Correct OnsetCOn:音符的起始點(onset)正確。
  • Correct Onset, pitchCOnP:音符的起始點及音高(pitch)皆正確。
  • Correct Onset, pitch, offset(COnPOff):音符的起始點、音高及結束點(offset)皆正確。

其中,音高的容忍值為 ±0.5 semitone,即半個半音。考慮到我們所標記的答案,皆是整數音高,這代表只有唯一一個整數答案,可被判斷為正確。

另外,起始點的容忍值為 ±50ms,即 0.05 秒;至於結束點的容忍值,則定為 ±max(50ms, 0.2t),其中 t 是對應的標準答案的音符時長。這代表結束點的容忍值必定不低於 0.05 秒。舉例而言,若某個正確答案的音符時長為 1.0 秒,則該音符的容忍值就會設為 ±0.2 秒。

根據這些容忍值,來計算各個項目的 F-measure:

其中,假設標記的正確答案共包含 A 個音,而參賽者給出的答案則包含 B 個音,而在某個指標當中,滿足條件的共包含 C 個音,則該指標的 Precision 與 Recall 的計算方式如下:

評估的結果會包含 3 個 F-measure 的分數,各自代表一個模型在某個指標上的表現。在此,較高的分數代表一個模型表現較好,反之亦然。最終的排名,會以這三個分數的加權平均進行比序。三個指標中,COn 佔 20%,COnP 佔 60%,COnPOff 佔 20%。

此外,用以計算這三種指標的程式,使用的是 python 語言,且呼叫的是 mir_eval [2] 的函式 mir_eval.transcription.evaluate。一切評估結果將以此為準。

Reference:

[1]Molina, A. M. Barbancho-Perez, L. J. Tardón, I. Barbancho-Perez: “Evaluation framework for automatic singing transcription,” in Proceedings of the 15th International Society for Music Information Retrieval Conference(ISMIR 2014), pp.567-572, 2014.

[2]C. Raffel, B. McFee, E. J. Humphrey, J. Salamon, O. Nieto, D. Liang, and D. P. W. Ellis: “mir_eval: A Transparent Implementation of Common MIR Metrics,” in Proceedings of the 15th International Conference on Music Information Retrieval (ISMIR 2014), 2014.


相關連結:


AI CUP 教育部全國大專校院人工智慧競賽相關競賽


You may also like...

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料