新聞立場檢索技術獎金賽

新聞立場檢索技術獎金賽

總獎金:300000

最高獎金:100000

報名時間:即日起 ~ 2019-06-30

簡介

具爭議性議題的新聞一直是閱聽人關注與討論的焦點,例如:美國牛肉開放進口、死刑廢除、多元成家等。不論是政治、經濟、教育、兩性、能源、環保等公共議題,新聞媒體常需報導不同的立場。若能從大量的新聞文件裡,快速搜尋各種爭議性議題中具特定立場的新聞,不但有助於人們理解不同立場對這些議題的認知與價值觀,對制定決策的過程而言,也相當有參考價值。

參與本競賽之隊伍需開發一搜尋引擎,找出「與爭議性議題相關」且「符合特定立場」的新聞。本競賽網站以網頁連結(Hyperlink)方式,提供國內各大媒體新聞作為競賽用的資料;本網站亦提供參賽隊伍一些「包含立場和爭議性議題」的查詢題目(例如:「反對學雜費調漲」)以及部分標註資料(例如:「相關」與「不相關」),協助參賽隊伍應用「資訊檢索」及「機器學習」技術於檢索模型的訓練,期望所開發之搜尋引擎能有效找出與「反對學雜費調漲」的相關新聞,並依照相關程度由高至低排列。

競賽獎金

敘獎對象必須為全學生之隊伍,敘獎時需要檢附相關證明。

在「新聞立場檢索技術獎金賽」項目前十三名的優勝隊伍將獲得競賽獎金:

名次獎金
第一名10 萬元
第二名6 萬元
第三名4 萬元
佳作 10 名各 1 萬元
  • 前十三名獲獎隊伍經評審委員審定後將獲得教育部獎狀乙紙。
  • 名次在前 25% 且超過 Baseline 之隊伍,經評審委員會審定後,將獲頒教育部人工智慧競賽計畫辦公室獎狀。
  • 各項獎勵名額得視參賽件數及成績酌予調整,參賽作品未達水準時,得由決選評審委員決定從缺,或不足額入選。

參賽對象

全國各大專院校在學生,業界亦可參加,但不列入敘獎排名。

競賽方式及評選辦法

本競賽「新聞立場檢索技術獎金賽」係依據主辦單位提供之語料集建構檢索系統,並經由主辦單位指定之測試查詢主題結果,來評比各參賽隊伍的系統效能和名次,詳細辦法說明如下:

本競賽分為兩階段,主辦單位於每個階段提供以下資料:

  • 第一階段:「部分新聞語料庫(NC-1)」及「其測試查詢題目(QS-1)」
  • 第二階段:「完整新聞語料庫(NC-2)」及「其測試查詢題目(QS-2)」

「完整新聞語料庫」包含「部分新聞語料庫」((NC-1⊂NC-2)),「第二階段之測試查詢題目」包含「第一階段之測試查詢題目」((QS-1⊂QS-2))。,第一階段另外提供「訓練標記語料((TD))」「訓練標記語料(TD)」作為訓練模型之參考,詳述如下:

1. 第一階段:參賽隊伍需從「部分新聞語料庫(NC-1)」中搜索出其對應之「測試查詢題目(QS-1)」的相關文章,每個查詢題目需回傳排名前 300 名的新聞,並上傳搜尋結果至線上排名系統以調校模型效能,一天最多上傳 10 次。該系統使用 MAP@300 指標評分,之後會說明 MAP@300 的計算方法。主辦單位於本階段另提供「訓練標記語料(TD)」,每項標記語料包含「訓練用的查詢題目(QS-t)」、「部分新聞語料庫(NC-1)中的某篇新聞」及「該新聞針對查詢題目的相關程度」;其中相關程度分四個等級,分別代表不相關 (0)、部分相關 (1)、相關 (2)、非常相關 (3);「訓練標記語料(TD)」並非「部分新聞語料庫(NC-1)」之完整標記,意即「部分新聞語料庫(NC-1)」的某些新聞可能沒有標記;「測試查詢題目(QS-1)」包含「訓練用的查詢題目(QS-t)」中的 5 個查詢題目。

2. 第二階段:參賽隊伍需從「完整新聞語料庫(NC-2)」中搜索出其對應之「測試查詢題目(QS-2)」的相關文章,每個查詢題目需回傳排名前 300 名的新聞。請注意:第二階段上傳的結果將決定本競賽之最終排名,此階段不再提供第一階段線上排名系統的服務,主辦單位會提前公布「完整新聞語料庫(NC-2)」,參賽隊伍必須於「測試查詢題目(QS-2)」公布之當日截止時間前上傳「完整新聞語料庫(NC-2)」的搜索結果,至多上傳 7 次,最後一次上傳的答案將作為評分對象。

活動時間

日期事件
2019/03/22開放報名及組隊
2019/03/25公布「訓練標記語料(TD)」、「部分新聞語料庫(NC-1)」及「其測試查詢題目(QS-1)」
2019/05/06公布「完整新聞語料庫(NC-2)」
2019/06/30報名及組隊截止
2019/07/08公布「完整新聞語料庫之測試查詢題目(QS-2)」,開放測試結果上傳,並於當天截止時間前關閉上傳功能
2019/10/16公布競賽排名

(頒獎時間待公布)

評估標準

本競賽採用 MAP@300(Mean Average Precision at 300)指標來評估參賽隊伍之系統效能,並以此成績高低作為評估最後獎金賽名次之依據。MAP@300 的值介於 0 到 1 之間,值愈高表示搜尋結果愈好,詳細計算方式定義如下:

MAP@300=1|Q|∑q∈QAveP(q)@300

其中 Q 代表測試查詢題目的集合,|Q| 是測試查詢題目的個數,而 q 表示某一個測試查詢題目;AveP(q) 的計算則定義為:

AveP(q)@300=1min(|R(q)|,300)∑k=1300(P(k)×rel(k))

其中 P(k) 為上傳結果中排名前 k 名之精確度(Precision),即前 k 名中有多少比例屬於相關;rel(k) 表示上傳結果中第 k 名是否相關,若相關回傳 1,反之為 0;R(q) 表示測試查詢題目 q 的相關文件集合,|R(q)| 為測試查詢題目 q 的相關文件個數。請注意:在評估系統效能時,「訓練標記語料(TD)」的四個相關等級標記中,程度在「部份相關」以上則視為相關,意即除了不相關 (0) 外、部分相關 (1)、相關 (2)、非常相關 (3) 在計算 MAP@300 時皆視為相關。


相關連結:


You may also like...

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料