近期,我校伟德victory/人工智能學院/伟德victory軟件工程團隊的六項研究成果被軟件工程國際頂級會議ESEC/FSE 2023和ASE 2023以及國際頂級期刊ACM Transactions on Software Engineering Methodology (TOSEM) 錄用。其中,軟件科學與工程系肖冠平講師的一項研究成果被ESEC/FSE 2023錄用,楊文華副教授有兩項研究成果分别被ESEC/FSE 2023和ASE 2023錄用。此外,軟件科學與工程系宮麗娜副教授、張靜宣副教授、周宇教授則各自有一項研究成果被TOSEM錄用。
ESEC/FSE(全稱為ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering)和ASE(全稱為International Conference on Automated Software Engineering)是軟件工程領域公認的國際頂級會議(CCF A類會議),近五年的平均錄用率分别為25.1%和22.6%,年均錄用論文一百餘篇。值得一提的是,今年是ESEC/FSE會議創辦30餘年來我校首次作為第一完成單位出現在該會議的research track上,并同時有兩篇論文被接收。在期刊方面,TOSEM被國際公認為最權威、最高水平的軟件工程頂級期刊之一,是CCF軟件工程領域A類期刊。近年來,我校軟件工程學科展現出穩定的發展勢頭,相較于上一輪學科評估取得了顯著的進步。我校的軟件工程團隊始終開拓創新,堅持對軟件工程研究的高質量内涵式發展,持續取得重要的科研進展。研究成果發表或錄用的期刊和會議,覆蓋了軟件工程領域所有的CCF A類國際期刊與會議。
論文《Compatibility Issues in Deep Learning Systems: Problems and Opportunities》基于Stack Overflow開發者問答讨論數據對深度學習軟件系統中出現的兼容性問題進行了一項大規模實證研究。深度學習軟件系統是複雜的組件化系統,由核心程序(代碼實現和數據)、Python(語言和解釋器)、第三方庫、低級庫、開發工具、操作系統和硬件環境組成。組件之間的不兼容交互會導緻兼容性問題,嚴重阻礙開發和部署過程。深度學習軟件系統中經常出現哪些類型的兼容性問題?這些問題的根本原因是什麼,開發人員如何解決它們?我們距離自動檢測和修複深度學習軟件系統兼容性問題還有多遠?然而,這些問題尚未得到系統化地探索。為此,該工作從深度學習軟件系統不同組件之間交互的角度,給出了兼容性問題的類型定義及分布,并分類探讨了兼容性問題産生的根本原因、影響以及相應的解決方案。同時,通過系統性地調研當前相關兼容性問題自動檢測和修複工具的研究現狀,給出了自動檢測和修複深度學習軟件系統兼容性問題還存在的挑戰。該研究成果将有助于理解深度學習軟件系統兼容性問題的産生機理,為後續相關工具開發提供指導。該論文已被CCF A類國際會議ESEC/FSE 2023錄用,第一作者為我校2022級碩士研究生王君,指導老師及通訊作者為肖冠平講師。
論文《Understanding the Topics and Challenges of GPU Programming by Classifying and Analyzing Stack Overflow Posts》基于開發者廣泛使用的專業問答網站(Stack Overflow)開展了一項針對GPU編程問題的大規模實證研究。目前越來越多的開發者開始進行GPU編程,但由于GPU獨特的架構和持續的演化,開發者在GPU編程中面臨諸多挑戰。開發者對于遇到的各種編程問題常在問答網站上尋求幫助。然而,目前尚無研究工作系統全面地研究開發者在GPU編程中讨論的話題以及這些話題所涵蓋的主要挑戰。為了彌補這一不足,該工作開展了一項全面性的研究,以深入理解開發者在GPU編程中讨論的主要話題及其挑戰。該研究從Stack Overflow中收集了25269篇相關帖子,提出了一種新的結合自動技術和手動主題分析的方法來提取話題,并創建了一個對應的話題分類。同時,對這些話題的受歡迎程度、難度以及發展趨勢進行了深入探讨。此外,該研究還對相關帖子進行了詳細分析,以解析每個話題中所涵蓋的GPU編程中的主要挑戰,為未來的研究提供基礎。該論文已被CCF A類國際會議ESEC/FSE 2023錄用,第一作者為楊文華副教授。
論文《Understanding and Enhancing Issue Prioritization in GitHub》針對開源軟件開發中廣泛使用的GitHub平台的問題(Issue)優先級排序展開深入研究。GitHub促進了不同開發者間的協作和交流,而高效的問題跟蹤是管理GitHub項目的關鍵環節。标簽是GitHub中進行問題優先級排序的主要機制之一。然而,在大型項目中,問題優先級排序仍然是個挑戰,而且使用标簽進行優先級排序的效果尚不清楚。為此,該工作進行了一項全面的實證研究,探讨了标簽在GitHub的問題優先級排序中的作用,檢驗了各種問題特征對優先級排序的影響,評估了基于這些特征的不同排序算法的表現。該研究是基于一個包含150多萬條來自各種GitHub項目的問題數據集而開展的,為開源平台的問題處理提供了有價值的見解,并為未來這個領域的研究提供了相關指導。具體而言,這項研究揭示了标簽在問題優先級排序中的有限效用,強調了某些問題特征在優先級排序過程中的重要性,并比較了各種用于問題優先級排序的排序算法的性能,以更好地幫助問題處理者。該論文已被CCF A類國際會議ASE 2023錄用,第一作者為我校2022級碩士研究生何瑩瑩,指導老師及通訊作者為楊文華副教授。
論文《What Is the Intended Usage Context of This Model? An Exploratory Study of Pre-Trained Models on Various Model Repositories》圍繞已開源的AI預訓練模型,開創性地将軟件工程質量保障和重用核心機制引入AI軟件開發,提出了針對AI預訓練模型重用的契約,即模型重用的前置和後置條件,為AI産品(特别是計算機視覺領域任務)的高質量開發和維護提供可行性高的指導。研究人員和實踐者趨向于直接應用預訓練模型來解決他們特定的任務。例如,軟件工程領域的研究人員已經成功地利用預訓練語言模型自動生成源代碼和注釋。然而,不同基準數據集中存在領域間差距,這些模型在一個基準數據集上訓練可能無法在其他基準上順利運行。因此,重用預訓練模型會帶來大量的成本,并且需要檢查任意預訓練模型是否适合特定任務的重用。該工作提出的包括預訓練模型的前置和後置條件模型契約可以實現更好的模型重用。基于提出的模型契約,該工作進一步對六個主流模型倉庫中的1908個預訓練模型進行了探索性研究,以調查必要的前置和後置條件信息與實際規格之間的差距,得出了一系列新的發現,并基于這些發現提出了許多可行的建議。該論文已被CCF A類國際期刊TOSEM錄用,第一作者為宮麗娜副教授。
論文《An Accurate Identifier Renaming Prediction and Suggestion Approach》提出了一種新的全粒度标識符重命名預測和建議方法。标識符在幫助開發人員分析和理解源代碼方面發揮着重要作用。然而,在實際軟件項目中存在大量與相應的編程規範或語義功能不一緻的标識符。因此,标識符需要定期重命名。該方法首先從标識符中提取一系列特征,以捕獲标識符與編程規範以及相關代碼實體之間的關系等。這些标識符特征及其重命名曆史用于訓練分類器,該分類器可用于預測給定的新标識符是否需要重命名。随後,基于具有相似模式和重命名序列的相關代碼實體共同演化的原理,為這些标識符推薦一系列新标識符。實驗結果表明,該方法識别需要重命名的标識符的平均F1值接近90%。此外,該方法在建議正确标識符方面比現有最好方法高出15.75%。該論文已被CCF A類國際期刊TOSEM錄用,第一作者為張靜宣副教授。
論文《DRIVE: Dockerfile Rule Mining and Violation Detection》針對當今雲原生領域應用容器化中的核心工具Docker的配置文件質量提升問題展開深入研究。Dockerfile作為Docker構建容器實例的核心配置文件,直接影響生成的Docker鏡像的品質。然而,已有研究指出,大量Docker項目中使用的Dockerfile存在較為嚴重的質量問題。為解決這一問題,該論文提出了一種Dockerfile質量提升方法。該方法采用數據驅動的策略,能夠自動從Dockerfile數據集中挖掘潛在的語義規則模式,提煉出最佳實踐,并自動檢測現有的Dockerfile是否違反了這些最佳實踐,新發現的部分規則模式已被主流的Dockerfile檢查工具Hadolint采納。該方法可以有效地提高Dockerfile等容器配置文件的質量,從而協助開發人員構建出更小體積、更高安全性的容器鏡像。這一方法不僅适用于Dockerfile,也可用于Chef等其他DevOps領域工具的相關軟件制品,以提升其産品質量。該論文已被CCF A類國際期刊TOSEM錄用,第一作者為周宇教授。