2020 iFLYTEK A.I. 開發者大賽.多語種文本挖掘挑戰賽

2020 iFLYTEK A.I. 開發者大賽.多語種文本挖掘挑戰賽

 總獎金: 77500(CNY)

活動時間: 2020-06-22 ~ 2020-08-20

主辦單位: 科大訊飛股份有限公司

主辦單位Email:AICompetition@iflytek.com

開始報名/初賽 : 2020.06.22

報名截止時間:2020-08-20

舉辦方:科大訊飛股份有限公司

賽事概要

一、賽事背景

智能語音語言技術旨在讓機器“掌握”人類獨有的語音和語言能力,包含語音識別、機器翻譯等方向,是支撐萬物互聯時代人機交互升級、實現人類語言互通以及提高國家全球信息情報獲取和態勢感知能力的關鍵技術手段,是當前人工智能領域發展最為迅速、影響最為深遠的技術之一。“多語種文本挖掘挑戰賽”旨在加強語種間翻譯研究的交流、促進多語種機器翻譯技術的發展。本屆競賽將從機器翻譯的文本挖掘技術出發,期待參賽選手們能在這些任務上相互切磋、共同進步。

二、賽事任務

多語種文本挖掘挑戰賽旨在增強多語種語料清洗和挖掘技術,本次挑戰賽設置了更具挑戰性的任務,相比其他競賽,本次競賽所提供的訓練數據更廣,噪音數據也更多,具體為:

1.我們提供從開源語料庫爬取的包含多個語種單語網頁的原始語料庫;

2.參賽者需從原始語料庫中進行中文和日語( 初賽 )以及中文和意大利語( 複賽 )的文本對齊,並提交每對語種2萬句對齊後的雙語平行句對,提交的語料需按語料質量從高往低排序;

3.參賽者將雙語句對及句對在網頁中的對應位置提交官方,我們根據網頁位置提取原始語料,通過機器翻譯模型進行統一處理,並使用Bleu分評測工具對處理結果來進行評分,以Bleu分評價參賽者篩選出來的數據質量,Bleu分越高,數據質量越好;

4.我們在比賽結束後,提供比賽評分使用的翻譯模型接口和Bleu分工具,方便參賽者驗證結果。

三、評審規則

1. 數據說明:

本次比賽使用的語料為:共計100G的原始語料庫,為了保證比賽的公平性,本次比賽僅允許使用官方發佈的數據,否則比賽成績將被視為無效。

( 1 )需要提交的格式:

  • 參賽者提供的語料,需要為完整的句子,至少包含4個以上漢字;
  • 每句語料需要附帶在原始語料庫網頁中的位置,詳見樣例。

( 2 )不符合規定的情況:

  • 參賽系統搭建過程中有任何一個環節用到了官方發佈的訓練數據集之外的其他數據;
  • 參賽系統搭建過程中有任何一個環節用到了機器翻譯的模型或引擎。 參賽選手在晉級賽和決賽環節必須向官方提供數據算法模型,如有上述違規情況,則取消參賽資格。

2. 評估指標

結果評價指標為Bleu分,機器翻譯模型對參賽者提供的句子進行翻譯,使用機器翻譯結果和參賽者提供的原始語料進行Bleu評分,Bleu分越高排名越靠前。

評分算法Bleu計算方式:

sf7 = SmoothingFunction( ).method7 r = sentence_bleu( r, c, weights=( 0.25, 0.25, 0.25, 0.25 ), smoothing_function=sf7 )

3. 評測及排行

  1. 比賽提供下載數據,選手在本地進行算法調試,在比賽頁面提交結果;
  2. 每支團隊每週最多提交3次;
  3. 排行按照得分從高到低排序,排行榜將選擇團隊的歷史最優成績進行排名。

四、作品提交要求

  1. 文件格式:按照csv格式提交
  2. 文件大小:無要求
  3. 提交次數限制:每支隊伍每週最多3次
  4. 文件詳細說明:1 ) 以csv格式提交,編碼為UTF-8,第一行為表頭;

    2 ) 提交格式見樣例;

  5. 不需要上傳其他文件

五、賽程規則

初賽 6月22日——8月21日

  1. 初賽截止成績以團隊在初賽時間段內最優成績為準( 不含測試排名 )。
  2. 初賽作品提交截止日期為8月20日17:00;初賽名次公佈日期為8月21日10:00。

複賽 8月21日——9月21日

  1. 排名前20%的團隊晉級複賽,大賽官網將公示團隊信息。選手通過大賽官網下載新增的訓練集和開發集,本地調試算法,在線提交結果。
  2. 複賽成績以參賽團隊在複賽時間段內最優成績為準。
  3. 複賽作品提交截止日期為9月20日17:00;複賽名次公佈日期為9月21日10:00。

決賽 10月24日

  1. 前三名團隊將受邀參加科大訊飛全球1024開發者節並於現場進行決賽。
  2. 決賽以答辯( 10min陳述+5min問答 )的形式進行。
  3. 根據複賽成績和答辯成績綜合評分( 複賽成績佔比70%,現場答辯分數佔比30% )。

六、獎項設置

  • 入圍複賽
    • 複賽入圍證書
    • 大賽專屬Geek禮包
    • 大賽限量文化衫
  • 入圍決賽
    • 科大訊飛1024開發者節全場通票
    • 決賽入圍證書
    • 科大訊飛創孵基地綠色入駐通道
    • A.I.服務市場入駐特權
  • 決賽勝出
    • 決賽獎金,各賽道TOP10選手將階梯獲得賽道獎金,第一名3萬元、第二名2萬元、第三名1萬元、第四-第十名分別獲得“算法菁英獎”2500元。
    • 參與1024全球開發者節頒獎盛典,現場授予獎金、證書與定製獎盃
    • A.I.全鏈創業扶持
    • 綠色就業通道&訊飛Offer

本賽題數據集於2020年7月2日 15:00更新,請各參賽選手更新數據集。

關於iFLYTEK A.I.開發者大賽

“iFLYTEK A.I. 開發者大賽”是由科大訊飛發起的頂尖人工智能競賽平台,匯聚產學研各界力量,面向全球開發者發起數據算法及創新應用類挑戰,推動人工智能前沿科學研究和創新成果轉化,培育人工智能產業人才,助力人工智能生態建設。


相關連結:


iFLYTEK A.I. 開發者大賽相關競賽


您可能也會喜歡…

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料