2021數字中國創新大賽.醫療大數據賽題
大數據賽道介紹
大數據賽道將聚焦智慧海洋建設、數字金融科技、醫療大數據分析、智慧交通、快遞大數據、城市管理大數據等方向,設置若干數據算法和方案徵集賽題,旨在匯聚政產學研用多方力量,探索數據共享開放和開發利用的新模式,加快推動大數據技術創新和產業應用。
智能醫療決策,病理“金數據”賦能醫學診斷
從臨床科研角度,病理文本是醫生科研的數據基礎,然而病理文本是一種涉及多概念、多關系、多屬性的文本數據,醫生在借助病理文本時存在難以檢索到關鍵信息、費時、費力等痛點,導致醫生的工作效率不高…
賽道背景
賽題介紹
賽道組織
參賽規則
賽題說明
數據說明
大賽提供三類數據集:
1、訓練集:未標注,1000份病例,需選手自行標注,選手應結合提供的10類實體定義、“標注參考數據集”樣例和相應的醫學臨床知識完成數據標注再開展模型訓練。
2、標注參考數據集:已標注,100例,由5人醫生團隊標注而成,低年資醫生分別標注,標注結果一致則通過,不一致由高年資醫生協同判斷,再進行脫敏、脫密形成的真實標注數據集。
3、測試集:未標注,1050例,選手用於預測提交,線上評分。測試數據提供txt文本,選手預測相應實體提交tag文件。禁止對測試數據手工標注。
共定義了10類實體,具體類別定義如下:【枚舉實體類型定義】
- 1、腫瘤位置( B-Tloc ):指腫瘤所在的部位
- 2、腫瘤組織學類型( B-This ): 指肝細胞癌的組織排列方式。
- 3、分化程度( B-Tdiff ):腫瘤的分化是指腫瘤組織在形態和功能上與某種正常組織的相似之處,相似的程度稱為腫瘤的分化程度。
- 4、腫瘤數量( B-Tnum ):指腫瘤的數目。
- 5、腫瘤大小( B-Tsize ):指腫瘤的大小。
- 6、微血管癌栓( B-MVI ):指在顯微鏡下於內皮細胞襯覆的脈管腔內見到癌細胞巢團,以門靜脈分支為主( 含包膜內血管 )。根據MVI的數量和分佈情況進行風險分級。
- 7、衛星子灶( B-State ):指主瘤周邊近癌旁肝組織內出現的肉眼或顯微鏡下小癌灶。
- 8、肝硬化程度( B-LC ):各種病因引起的肝髒疾病的終末期病變,病變以慢性進行性、彌漫性的肝細胞變性壞死、肝內纖維組織增生和肝細胞結節狀再生為基本病理特徵,廣泛增生的纖維組織分割原來的肝小葉並包繞成大小不等的假小葉,引起肝小葉結構及血管的破壞和改建。
- 9、病理分期( B-TNM ):是美國癌症聯合委員會和國際抗癌聯盟建立的惡性腫瘤分期系統。T是指原發腫瘤、N為淋巴結、M為遠處轉移。
- 10、包膜( B-Caps ):指包繞在腫瘤組織外層的纖維組織。
提供的標注文件示例:
標注文件tag每行包括起始位置、結束位置、實體類別以及實體內容。其中“起始位置”、“結束位置”、“實體類別”和“實體內容”間以“#”分隔。實體邊界位置,左開右閉。
例:
樣本:【1.( 右肝腫瘤 )①肝細胞癌伴壞死】
標註:【3#5#Tloc#右肝】
格式及樣本說明:
1、提供的原始數據文件都為txt格式
2、提供的標注參考文件為tag格式,選手需提交的結果文件為tag格式
3、每單個文件包含50例病例
提交要求
測試數據為txt文本,選手需要為每一個txt文本輸出對應的tag文本,utf-8編碼。答案文件每行包括起始位置、結束位置、實體類別以及實體內容。其中“起始位置”、“結束位置”、“實體類別”和“實體內容”間以“#”分隔。實體邊界位置,左開右閉。
最終tag文件存放目錄壓縮成zip格式進行提交,命名為results.zip。
提交示例
測試數據為txt文本,對應的tag文本( utf-8編碼 )如下:
0.tag
564#567#Tnum#4個
7407#7411#MVI#M1級
……
1.tag
12226#12232#This#梁索型
16821#16826#Tsize#0.7cm
……
tag文件存放results目錄下,壓縮為results.zip文件提交,如下所示:
results( 文件夾,壓縮後上傳 )
|—- 0.tag
|—- 1.tag
|—- 2.tag
賽程賽制
時間 | 賽程階段 |
---|---|
2021年1月17日 | 賽道啟動發布 |
2021年2月20日 | 報名通道開啟 |
2021年2月20日-4月7日 | 線上A榜 |
2021年4月8日 | 線上B榜 |
2021年4月9日-4月18日 | 晉級團隊資格審核 |
2021年4月19日-4月20日 | 線上決賽答辯 |
2021年4月25日-4月26日 | 總決賽路演及系列活動 |
獎項激勵
獎項 | 數量 | 獎金( ¥ ) |
---|---|---|
一等獎 | 1 | 100000 |
二等獎 | 1 | 40000 |
三等獎 | 1 | 10000 |
優勝獎 | 2 | 5000 |
賽事評審
本任務採用嚴格F1-Measure作為評測指標,評測以Micro F1值作為最終排名依據。
記真實結果為S={s1,s2,……,sn},預測結果為G={g1,g2,……,gn}。我們採用嚴格的指標,當且僅當:
1、si.ID=gi.ID
2、si.Category=gi.Category
3、si.Pos_b=gi.Pos_b
4、si.Pos_e=gi.Pos_e
基於以上等價關系,我們定義集合S與G的嚴格交集為。由此得到嚴格評測指標:
參賽交流
大賽QQ交流群( 群名:智慧醫療賽題交流群 群ID:977092730 )
官方公眾號:一碗數據湯( 持續發布賽事相關信息 )
相關連結:
數字中國創新大賽相關競賽:
- 2021數字中國創新大賽.快遞大數據賽題2021數字中國創新大賽.快遞大數據賽題 2021年2月20日-4月8日線上方案提交。 一等獎獎金100000。 評審標准:大賽以評委綜合評審為主要依據,以技術驗證作為輔助依據,主要考核項目定位、產品和技術、落地案例、團隊競爭力、發展潛力五個維度。 探索數據共享開放和開發利用的新模式
- 2021數字中國創新大賽.金融科技賽題2021數字中國創新大賽.金融科技賽題 2021 年2月20日-4月8日 線上方案提交。 一等獎:獎金40000。 機器人流程自動化(Robotic Process Automation)是用計算機程序模擬人工在電腦上的鼠標和鍵盤操作,以一定的步驟順序操作應用程序和web的前端界面。
- 2021數字中國創新大賽.智慧海洋賽題2021數字中國創新大賽.智慧海洋賽題 2021年2月20日-4月7日線上A榜。 一等獎獎金100000。 本賽題的評價指標為平均距離誤差(mean distance error),對應預報時段內距離誤差的平均值。 旨在匯聚政產學研用多方力量,探索數據共享開放和開發利用的新模式。
- 2021數字中國創新大賽.醫療大數據賽題2021數字中國創新大賽.醫療大數據賽題 2021年2月20日-4月7日線上A榜。 一等獎:獎金100000。 從臨床科研角度,病理文本是醫生科研的數據基礎,然而病理文本是一種涉及多概念、多關系、多屬性的文本數據,醫生在借助病理文本時存在難以檢索到關鍵信息、費時、費力等痛點
- 2021數字中國創新大賽.智慧交通賽題2021數字中國創新大賽.智慧交通賽題 2021年2月20日-4月7日 線上A榜。 一等獎:獎金100000。 基於車聯網大數據的碰撞識別可以使汽車企業及時獲取用戶車輛使用安全情況,以便主機廠及時開展用戶關懷和救援,對汽車企業有非常重要的意義和應用。 旨在匯聚政產學研用多方力量。
- 2021「數聚賦能.眾智成城」數字中國創新大賽.大數據賽道城市管理大數據專題2021「數聚賦能.眾智成城」數字中國創新大賽.大數據賽道城市管理大數據專題 2021年3月24日提交截止。 徵集基於城市管理大數據領域的算法模型和創新應用解決方案。旨在通過城市管理與大數據的融合,針對當前城市管理的難點和痛點,以共享單車管理為切入點,發掘出一系列城市智能管理創新項目
- 2021數字中國創新大賽2021數字中國創新大賽 數字中國創新大賽由數字中國建設峰會組委會主辦,精心打造峰會品牌化的高端專業賽事,吸引眾多國內外優秀團隊和人才參賽。 八大賽道分別為: 數字黨建賽道、數字政府賽道、大數據賽道、智慧醫療賽道、鯤鵬賽道、網絡安全賽道、集成電路賽道、青少年AI機器人賽道。