中新網北京5月18日電 (記者 張素)“安全合規與隱私保護是開展大規模數據分析的前提。”深圳大學特聘教授、東壁科技數據創始人吳登生在受訪時說,可以通過差分隱私、同態加密等技術手段來確保研究者不泄露個人隱私,最終助力醫學數據的知識轉化。
“全球醫學頂尖科研成果高質量數據集索引(2019–2024)”17日對外發布。該數據集從海量醫學文獻中精準提取高價值科研數據,構建覆蓋基礎研究、醫療器械、生物醫藥與人工智能四個領域的多維數據框架,旨在為全球醫學研究趨勢研判、政策制定與產業創新提供權威數據支撐。
這一數據集由東壁科技數據聯合上海財經大學數字經濟學院發布。吳登生說,醫學領域存在數據集質量參差不齊、結構不清、可擴展性差等問題,一定程度上制約了醫學數據價值釋放。此次團隊創新設計了基礎研究、醫療器械、生物醫藥、人工智能四個一級分類框架,構建了兼具深度與廣度的醫學知識圖譜。
針對非結構化文本解析的挑戰,團隊開發了“數據融合—知識抽取—質量驗證”三層智能引擎,通過融合期刊影響因子、學科分類等結構化信息與論文標題、摘要等文本內容,并結合大模型技術,實現了從文獻到結構化醫學數據的高效自動提取。
吳登生介紹說,“全球醫學頂尖科研成果高質量數據集索引(2019–2024)”基于Dongbi Index(東壁指數)頂級期刊評價體系,鎖定34本醫學領域頂尖期刊。這些期刊涵蓋腫瘤學、心血管、免疫學等學科,80%以上影響因子超過10。數據顯示,2019年至2024年,34本期刊累計發表論文10.6萬余篇,為高質量數據挖掘奠定了堅實基礎。
通過對數據集的15260篇文獻深度解析,研究團隊發現,美國以9719篇核心論文位居榜首,其后依次為英國、德國和法國,中國位列第五。
進一步對中國和美國的細分領域發文以及數據集使用類型進行對比分析,吳登生說,在腫瘤發生與演進機制及防治、疾病治療和傳染病防控等研究領域,美國的研究數量均高于中國。這表明美國在基礎病理機制與臨床轉化研究上具有更為深厚的積累與投入,中國在這些領域仍有提升空間。
但在新興或高技術含量領域上,比如腦科學、放射治療設備、基因療法、醫學影像等領域,中美差距相對較小。“這意味著我國在精準醫療與先進技術應用方面有望迎頭趕上。”吳登生說。
研究團隊此番發布的報告指出,中國憑借其廣泛的國際合作網絡,在數據集使用領域迅速崛起,不僅與美、英、德等傳統科研強國保持頻繁的學術交流,也在與加拿大、意大利、荷蘭、巴西和阿根廷等新興研究伙伴的合作中持續擴大影響力。這為中國在構建覆蓋廣泛、多元互補的醫學數據庫體系、提升國際話語權與競爭力提供了寶貴經驗與合作平臺。
圍繞中國醫學數據庫建設,報告提出,一方面應構建以多組學、多中心臨床試驗及流行病學調查為基礎的復合型數據庫,保障數據的高質量與多樣性。另一方面,應在數據庫設計中預置完善的臨床干預、長期隨訪和綜合指標體系,鼓勵開放式數據共享與跨學科聯合分析等,提升數據的挖掘價值與科研轉化效率。
報告建議,要主動融入并推動多國、多機構間的數據互認與標準統一,建立符合國際慣例的元數據描述規范和數據交換標準,促進國內外資源共享與協同創新。(完)