2020 iFLYTEK A.I. 開發者大賽.事件抽取挑戰賽

2020 iFLYTEK A.I. 開發者大賽.事件抽取挑戰賽

 總獎金: 77500(CNY)

活動時間: 2020-06-22 ~ 2020-08-20

主辦單位: 雲孚科技

主辦單位Email:AICompetition@iflytek.com

開始報名/初賽:2020.06.22

報名截止時間:2020-08-20

舉辦方:雲孚科技

賽事概要

一、賽事背景

事件抽取將非結構化文本中的事件信息展現為結構化形式,在輿情監測、文本摘要、自 動問答、事理圖譜自動構建等領域有著重要應用。在真實新聞中,由於文本中可能存在句式 複雜,主被動轉換,多事件主客體共享等難點,因此“事件抽取”是一項極具挑戰的抽取任 務。

二、賽事任務

本賽事任務旨在從通用新聞文本中抽取事件觸發詞、事件論元以及事件屬性。 在傳統的事件定義中,事件由事件觸發詞( Trigger ) 和描述事件結構的元素 ( Argument )構成。事件觸發詞標識著事件的發生。事件論元為事件主體( Subject )、客體( Object )、時間( Time )、地點( Location )等,是表達事件重要信息的載體。

事件屬性包括事件極性( Polarity )、時態( Tense ),是衡量事件是否真實發生的重要依據。 通過極性,事件分為肯定、否定、可能事件。通過時態,事件分為過去發生的事件、現在正 在發生的事件、將要發生的事件以及其他無法確定時態的事件。

本賽事任務一為初賽任務,任務二為複賽任務,在任務一的基礎上增加了事件屬性識別。為 了模擬真實場景,數據中包含了非實際發生的事件。

任務一:事件觸發詞及論元抽取

該任務旨在從文本中抽取標識事件發生的觸發詞和論元,觸發詞往往為動詞和名詞。觸發詞 對應的事件論元,主要為主體、客體、時間、地點,其中主體為必備論元。

示例 1:

文本:北京時間 3 月 27 日晚上 7 點 15 分,英國首相鮑裡斯約翰遜確診感染了新冠肺炎。

抽取結果:

示例 2:

文本:4 月 1 日,因應英國央行英倫銀行的要求,匯豐控股及渣打集團一舉停止派息及回購。

抽取結果:

示例 3:

文本:過渡政府部隊發言人說, 北約的戰機 1 6 日在蘇爾特附近擊中了一座建築,炸死大批

卡扎菲部隊士兵。

抽取結果:

示例 4:

文本:中華人民共和國證監會正式表態,對中國星巴克瑞幸咖啡財務造假行為表示強烈的譴責。

抽取結果:

任務二:事件屬性抽取
該任務旨在從文本中抽取表達事件發生狀態的屬性,包括極性、時態。極性分為:肯定、否

定、可能;時態分為:過去、現在、將來、其他。

示例 1:

文本:中國駐俄羅斯大使張漢暉 4 月 7 日向媒體回應稱,經向俄有關強力部門瞭解,目前

在俄沒有一起中國公民遭到拘留或受到俄強力部門限制的案例。

抽取結果:

示例 2:

文本:過往世衛組織曾 5 度宣佈“國際關注公共衛生緊急事件”。

抽取結果:

示例 3:

文本:英國很可能將恢復接受世界貿易組織條款的規範。

抽取結果:

示例 4:

文本:看守政府總理邁赫迪打算驅逐約 5300 名美國士兵。

抽取結果:

三、評審規則

1. 初賽數據說明:

本次比賽初賽為參賽選手提供了6958條中文句子,及其9644條提取結果( 存在一對多的情況 ):

1.1訓練集:共5758條句子,包含句子中對應的觸發詞、論元等,用於競賽模型訓練。

1.2測試集:共1200條句子。

2. 複賽數據說明:

本次比賽複賽為參賽選手提供了3335條中文句子,及其3384條提取結果( 存在一對多的情況 ):

2.1訓練集:共2456條句子,包含句子中對應的觸發詞、論元及其角色、事件屬性等,用於競賽模型訓練。

2.2測試集:共879條句子。

3. 評價指標

本模型依據提交的結果文件,採用F值進行評價。

3.1 事件觸發詞及論元抽取評價指標 對於事件觸發詞及論元抽取,使用觸發詞進行事件對齊,對於觸發詞匹配的事件,計算論元F值。最終F值包括論元與觸發詞( 將觸發詞當做一種論元計算得分 )。論元F值為嚴格F值與鬆弛F值的平均得分。

3.1.1 嚴格F值:預測論元與標註論元必須完全匹配( 類型必須正確 )

論元準確率Pspan = 預測論元和標註論元匹配的個數 / 預測論元個數

論元召回率Rspan = 預測論元和標註論元匹配的個數 / 標註論元個數

論元F值 F1span = 2 Pspan Rspan /( Pspan + Rspan )

3.1.2 鬆弛F值:預測論元與標註論元存在字符級別匹配也能得到部分分數( 類型必須正確 )

論元準確率Pchar = 預測論元和標註論元匹配的字符數 / 預測論元字符數

論元召回率Rchar = 預測論元和標註論元匹配的字符數 / 標註論元字符數

論元F值 F1char = 2 Pchar Rchar /( Pchar + Rchar )

3.1.3 最終得分:F1 = ( F1span + F1char ) / 2

3.2 事件屬性抽取評價指標

對於事件屬性抽取,使用F值進行評價。

屬性準確率P = 預測屬性和標註屬性匹配的個數/ 預測屬性個數

屬性召回率R = 預測屬性和標註屬性匹配的個數 / 標註屬性個數

屬性F值 F1= 2 P R /( P+ R )

4. 評測及排行

  1. 初賽和複賽均提供下載數據,選手在本地進行算法調試,在比賽頁面提交結果。
  2. 每支團隊每天最多提交3次。
  3. 排行按照得分從高到低排序,排行榜將選擇團隊的歷史最優成績進行排名。

四、作品提交要求

  1. 文件格式 :按照 csv 格式提交
  2. 文件大小 :無要求
  3. 提交次數限制 :每支隊伍每天最多 3 次
  1. 文件詳細說明 :1 )以 csv 格式提交, 編碼為 UTF-8, 第一行為表頭;2 )提交格式見樣例
  2. 不需要上傳其他文件

五、賽程規則

初賽 6月22日——8月21日

  1. 初賽截止成績以團隊在初賽時間段內最優成績為準( 不含測試排名 )。
  2. 初賽作品提交截止日期為8月20日17:00;初賽名次公佈日期為8月21日10:00。

複賽 8月21日——9月21日

  1. 排名前20%的團隊晉級複賽,大賽官網將公示團隊信息。選手通過大賽官網下載新增的訓練集和開發集,本地調試算法,在線提交結果。
  2. 複賽成績以參賽團隊在複賽時間段內最優成績為準。
  3. 複賽作品提交截止日期為9月20日17:00;複賽名次公佈日期為9月21日10:00。

決賽 10月24日

  1. 前三名團隊將受邀參加科大訊飛全球1024開發者節並於現場進行決賽。
  2. 決賽以答辯( 10min陳述+5min問答 )的形式進行。
  3. 根據複賽成績和答辯成績綜合評分( 複賽成績佔比70%,現場答辯分數佔比30% )。

六、獎項設置

  • 入圍複賽
    • 複賽入圍證書
    • 大賽專屬Geek禮包
    • 大賽限量文化衫
  • 入圍決賽
    • 科大訊飛1024開發者節全場通票
    • 決賽入圍證書
    • 科大訊飛創孵基地綠色入駐通道
    • A.I.服務市場入駐特權
  • 決賽勝出
    • 決賽獎金,各賽道TOP10選手將階梯獲得賽道獎金,第一名3萬元、第二名2萬元、第三名1萬元、第四-第十名分別獲得“算法菁英獎”2500元。
    • 參與1024全球開發者節頒獎盛典,現場授予獎金、證書與定製獎盃
    • A.I.全鏈創業扶持
    • 綠色就業通道&訊飛Offer

報名成功後,請添加大賽小助手微信 : iFLYTEKAI2020

關於iFLYTEK A.I.開發者大賽

“iFLYTEK A.I. 開發者大賽”是由科大訊飛發起的頂尖人工智能競賽平台,匯聚產學研各界力量,面向全球開發者發起數據算法及創新應用類挑戰,推動人工智能前沿科學研究和創新成果轉化,培育人工智能產業人才,助力人工智能生態建設。


相關連結:


iFLYTEK A.I. 開發者大賽相關競賽


您可能也會喜歡…

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料