2023年3月13日,國家自然基金委信息科學部信息二處召開了國家自然科學基金重點項目結題驗收會。我院陳松燦教授主持的國家自然科學基金重點項目“面向大數據機器學習的不确定性建模及應用研究(61732006)”順利通過驗收,并獲評“優秀”等級。
大數據機器學習在數據原料、算法設計及優化求解等不同層次存在多種不确定性,給傳統方法帶來嚴重挑戰。在該項目資助下,陳松燦課題組利用機器學習、随機優化、分布式計算等方面的最新研究成果,開展了針對不可靠數據的學習原料提煉、面向動态多變環境的學習算法設計、針對大規模複雜問題的優化求解和面向腦疾病大數據的應用等研究。在大數據機器學習不确定性建模的技術和方法上取得一系列創新成果,并基于以上研究成果顯著提升了對腦疾病的分類和預測表現。
在不确定性建模上,嘗試建立了第一個面向多标記類條件噪聲(CCMN)的通用學習框架,據此發展出了兩個具有理論保證的CCMN無偏估計器,證明了兩者與常用多标記損失函數的相容性。相關工作發表于 IEEE Trans.Pattern Analysis and Machine Intelligence (TPAMI)。而針對現實世界中廣泛存在的開集識别問題和相關解決方案進行了系統性分析和綜述,該工作涵蓋了相關定義、模型表征、數據集、評估準則、算法比較和數據集等諸多方面,提出了相對開集等新概念,給出了一系列前瞻性展望,啟發了後續研究。相關工作2021年發表于 TPAMI,谷歌他引已超430次。
在應用上,通過基于不确定性的多模态數據融合分析,探索了精神分裂症相關的大腦功能和結構共變模式,揭示了遺傳風險相關的多模态異常神經機制,并在多中心數據上驗證了該模式對相關腦疾病診斷和預測的能力。相關工作2022年發表于 《自然•通訊》(Nature Communications)雜志。另外,研發的開源主動學習系統AliPy集成了多種主動學習算法和應用設置,使用戶可方便地評估、比較和分析主動學習方法的性能。在國際開源社區GitHub名列同主題項目前茅。
從2018年1月項目啟動到2022年12月,項目組發表論文130餘篇,其中CCF A類30餘篇,在相關領域内産生了一定影響。所發表論文被廣泛引用,目前已被他引2500餘次,多個工作被評價為“state-of-the-art”團隊成員入選國家級人才3人次。張道強入選國家萬人計劃科技創新領軍人才,黃聖君入選國家優青,黃飛虎入選國家高層次青年人才。陳松燦和張道強入選 IAPR Fellow,陳松燦入選CAAI Fellow。團隊成員獲國家自然科學2等獎1項,省部級科技獎3項,MICCAI 青年科學家獎2項,全國博士後創新創業大賽銀獎1項。指導學生獲江蘇省優博學位論文2篇,江蘇省優碩學位論文4篇。