創新科學結構圖譜對去九宮格共享空間中美基礎研究影響技術創新的揭示_中國網
中國網/中國發展門戶網訊 從20世紀開始,開展基礎研究的目的已逐步從單純滿足科學家自由探索自然現象和規律,轉向更加注重服務于人類社會發展和國力競爭的需要。但長期以來科研管理人員與科技決策者缺乏基礎研究對技術創新影響的全景分析方法與數據,難以分析基礎研究對技術創新與產業的影響。2017年,有研究提出專利對論文的直接引用為分析基礎研究對產業的影響提供了一個分析途徑,使得基礎研究對產業的影響變得有可能被量化和跟蹤。通常來說,有價值的專利是商業公司創新的基礎,而通過基礎研究突破推動的科技創新更有可能引領行業發展乃至顛覆性創新。因此,被專利引用的基礎研究論文代表著更具有轉化成實際生產力的潛力,是影響技術創新的基礎研究。
為追蹤分析基礎研究對技術創新產生的影響,發現其中對技術創新發展起到推動作用的熱點方向,本文在國內首次基于被專利引用的ESI高被引論文(以下簡稱“高被引論文”),繪制了影響技術創新的全景科學圖譜,通過可視化方法展示當今前沿基礎研究對技九宮格術創新發展的影響情況,發現其中對產業發展起到更多推動作用的前沿基礎研究熱點方向。進一步,在熱點方向上疊加作者、國家等論文信息,對比中美兩國在這些對技術創新有影響的重要熱點方向上的表現,為決策者了解中國基礎研究對技術源頭創新的貢獻具有一定的價值。
數據與方法
本文選用了科睿唯安(Clarivate Analytics)公司基本科學指標數據庫(ESI)2022年3月研究前沿中包含的前1%高被引論文,共計56 278篇(數據時間跨度2016—2021年);利用專利分析平臺中專利引用論文數據講座進行遴選,共遴選出被專利引用的高被引論文9 767篇作為分析數據。
本文參考科學結構圖譜分析原理與技術方法,首先,利用深度學習模型學習9 767篇高被引論文的同被引網絡形成的復雜關系,將網絡中的節點(論文)與關聯關系(論文兩兩之間共同被引用次數)轉換成節點的低維且稠密的特征向量形式。然后,利用流形學習可視化算法將低維空間中的節點向量投影到二維平面,從而繪制影響技術創新的科學結構圖譜。該方法能有效保持高維數據的局部結構,使得引用關系相似的論文在二維可視化平面上依然緊密聚集,有利于識別研究熱點區域。根據論文在可視化圖譜中的分布,采用核密度算法自動識別出論文高度聚集的區域,進一步判斷為熱點主題。
需要說明的是,本文構建的創新科學結構圖譜與傳統科學結構圖譜有所不同,圖譜中的節點表示被專利引用過的高被引論文,著眼于反映基礎研究對技術創新的影響。
影響技術創新的基礎研究態勢
構建創新科學結構圖譜揭示技術創新的源頭科學結構
為了深入揭示影響技術創新的基礎研究的結構和特點,本文采用深度學習技術與可視化技術,分析了9 767篇被專利引用的高被引論文之間的關系分布,構建了影響技術創新的創新科學結構圖譜(圖1),揭示影響技術創新的科學源頭結構。圖中每個節點代表1篇被專利引用過的高被引論文,論文的研究內容越相似則在圖譜中位置越接近,根據論文的相似程度在圖譜中自然匯聚成群,形成研究主題。結合地理信息分析中區域密度圖概念識別出密度較高區域,這些密度高的區域代表了在一個時間段內大量研究方向相近的影響技術創新的論文,可被視為一個正在影響技分享術創新的基礎研究熱點。
結合算法自動識別與人工判讀,本文對圖1中不同區域呈現出顯著聚集效果的研究主題進行判讀,標識了63個研究主題(表1),并按照研究主題的研究內容歸成三大領域方向。生命科學,圖中面積最大的區域為生命科學,幾乎占了整個圖譜的60%,包含了基因編輯技術、病毒疾病研究、腫瘤治療相關研究、藥物藥理研究、神經科學與細胞等多方面的研究,研究主題包含了生物信息與基因組分析、基因編輯與治療、新型冠狀病毒(以下簡稱“新冠病毒”)診斷與治療等33個。物質科學,主要包含凝聚態物理、光學、材料、能源、化學等多個學科的研究,研究主題包括量子計算、二維范德華材料、九宮格鋰電池等20個。信息科學,包含深度學習模型與應用、人工智能醫療、第五代移動通信技術(5G)網絡等10個研究主題。
研究主題
生命科學
寨卡病毒與登革熱病毒;納米藥物;新冠病毒診斷與治療;人類免疫缺陷病毒(HIV)抗體與疫苗;轉錄組功能研究;轉基因作物;生物信息與基因組分析;基因編輯與治療;呼吸機與吸氧設備;腫瘤靶向治療;神經信號傳導;腸道微生物;單細胞轉錄組測序;動物干細胞;亞細胞結構功能;惡性血液系統疾病化療與免疫治療;骨髓瘤治療;乳腺癌靶向藥;心肌細胞再生;PD-1/PD-L1免疫檢查點療法;免疫檢查點抑制劑治療副作用;癌癥體液活檢;前列腺癌檢測與治療;阿爾茲海默發病機制;血脂異常治療;細胞衰老研究;白血病治療;抑郁癥藥物;偏頭痛預防藥物;糖尿病藥物與治療;關節炎治療;肝癌靶向治療;生物乙醇
物質科學
量子計算;光譜學;超表面與超材料;自旋電子學;二維范德華材料;Mxene二維材料;鋰電池;鋅離子電池;合金材料;生物組織三維打印;鈣鈦礦電池;鈣鈦礦發光二極管;聚合物太陽能電池;柔性材料與可穿戴設備;金屬有機骨架;析氫光催化劑;析氫光催化設備;發光材料;有機合成方法;各類催化劑
信息科學
深度學習模型與應用;人工智能醫療;三維重建與三維立體成像;視頻圖像智能編碼;增強學習;人工智能故障診斷;第五代移動通信技術(5G)網絡;區塊鏈;智慧城市無線通信;無人機通信
從被專利引用的基礎研究主題分布可以發現,影響技術創新的基礎研究主要集中在3個方面:① 新生物技術與生物醫療技術方面,被專利引用的高被引論文覆蓋量最多,包括基因編輯、單細胞測序等有巨大引用前景的新生物技術,新冠病毒、寨卡病毒、人類免疫缺陷病毒(HIV)等危害人類健康的病毒治療,癌癥、糖尿病、阿爾茲海默病這類社會負擔重的疾病治療。② 能源與材料方面,包括鋰電池、鈣鈦礦電池、二維材料、柔性材料與可穿戴設備等。③ 新興信息技術方面,包括人工智能醫療、量子計算、5G網絡、區塊鏈等。這些均是可能在未來可能引領產業革新、甚至引發顛覆性技術創新的基礎研究。
影響技術創新的高被引論文的國家與機構統計分析
中國影響技術創新的高被引論文世界排名第2,增幅顯著,但與美國的差距明顯。從被專利引用的高被引論文數量的前10位國家來看(圖2),美國優勢十分明顯,被專利引用的高被引論文數超過了全部數據的50%以上,共有5 363篇,遠高于其他國家;中國世界排名第2,共有2 571篇;英國、德國、法國分列第3、4、5位。根據3期不同時間窗口ESI研究前沿統計被專利引用趨勢(圖3)來看,中國被專利引用的論文從第1期(2012—2017年)的1 563篇增長到第3期(2016—2021年)的2 571篇,增幅超過60%;美國的被專利引用論文數量基本保持平穩的態勢。在全部高被引論文中,中國論文數量是美國的81.8%。但在被專利引用的高被引論文數量上,中國論文僅為美國的47.9%,與美國的差距明顯。
中國科學院影響技術創新的高被引論文數量世界排名第2,中國排名第1。被專利引用的高被引論文數量的世界前10位機構統計結果顯示,排名前10的機構中美國有6個,中國1個,法國2個,英國1個(圖4)。美國哈佛大學表現較為亮眼,共有1 058篇論文,遠遠超過其他機構。中國科學院以598篇被專利引用高被引論文排名世界第2,中國排名第1。被專利引用高被引論文數量世界前200位機構中的中國科研機構共有10個,包括中國科學院、九校聯盟中的7所大學、香港大學、武漢大學(表2)。相比在全部高被引論文中的排名,除中國科學院、清華大學與香港大學,其他7所大學在被專利引用的高被引論文排名略有下降。
影響技術創新的熱點關鍵研究主題分析
結合核密度算法遴選熱點關鍵研究主題,如果圖譜中有超過一定數量的高被引論文出現了明顯的聚集效果,形成了“熱度高地”,代表著可能是這個時間段內有大量的研究內容相似的論文被專利引用了,則這個高地區域內的論文很可能是1個影響產業與技術創新的熱點關鍵研究主題。根據論文數量(超過50篇論文)與熱度(密度等級第3級以上),結合人工判讀,本文從63個研究主題中遴選出18個熱點關鍵研究主題(以下簡稱“熱點主題”),如圖5所示。
由圖5可以看出,生命科學領域被專利引用的高被引論文數量遠超過其他領域,遴選出的熱點主題熱度最高,數量最多,達到8個;物質科學領域遴選出7個熱點主題;信息科學領域遴選出3個熱點主題。表3為18個熱點主題中論文詳細統計。
生命科學
生命科學中遴選了8個熱點主題,這8個主題中被專利引用的高被引論文數量超過其他學科。從創新科學結構圖譜中可以清楚地觀察到,8個熱點主題主要是3個子領域方面的研究,分別為基因編輯技術、病毒治療、惡性腫瘤治療,均和人類健康息息相關,并有巨大的應用潛力。從被論文引用和被專利引用的表現上看,美國在生命科學領域優勢明顯,被專利引用的論文數量較多。除新冠病毒診斷與治療和寨卡病毒與登革熱病毒2個主題外均高于世界均值,美國的篇均被專利引用頻次在基因編輯與治療、免疫檢查點療法及副作用2個主題中也有較大的優勢(表4)。
基因編輯技術。在健康、農業等多個領域已經展現出巨大的應用潛力,本文遴選了生物信息與基因組分析、基因編輯與治療和單細胞轉錄組測序3個熱點主題,分別有70篇、150篇和116篇被專利引用的高被引論文。其中,基因編輯與治療分析熱點主題篇均被專利引用頻次高達25.7次,是所有主題中最高的。
病毒治療。病毒治療的迫切性和重要性在近年的新冠病毒大流行中顯得尤為明顯。本文遴選了新冠病毒、寨卡病毒與登革熱病毒2個熱點主題。其中,新冠病毒主題的論文數量是所有主題中最多的,共有584篇論文,新冠病毒主題篇均被專利引用頻次為8次,主要研究內容包括新冠病毒的機理研究、檢測方法研究、治療方法研究與藥物研究。中國在新冠病毒診斷與治療熱點主題表現比較亮眼,被專利引用的高被引論文數為129篇,篇均被論文和專利引用頻次均高于世界均值,而美國的篇均被論文引用次數低于世界均值。該主題中,中國有4篇論文有企業參與研究,美國則有30篇企業參與;中國在其他7個生命科學主題中,通信作者論文數均為個位數,數量較少。
惡性腫瘤治療。惡性腫瘤是全球人群發病和死亡的主要原因,近年來,腫瘤免疫治療取得巨大突破,多種類型治療藥物與療法相繼涌現。本文遴選了腫瘤靶向治療、惡性血液系統疾病的化療與免疫治療3個熱點主題,分別包含論文67篇、69篇和143篇。以上3個主題篇均被專利引用頻次也相對較高,分別為13.2次、18.3次和10次。
物質科學
物質科學領域遴選出7個熱點主題。量子計算。該主題中包含67篇研究論文,主要研究內容為超導量子計算、量子模擬、量子存儲器、量子算法等。超表面與超材料。該主題中包含121篇研究論文,主要包括超表面透鏡、基于光子芯片的頻率梳、介電超材料等研究內容。二維范德華材料。該主題中包含56篇研究論文,主要包括范德華異質結構、“魔角”石墨烯、范德華磁性材料等研究內容。鋰電池。該主題中包含81篇研究論文,主題內研究內容包括固態鋰電池、鋰電池電解液制備、鋰電池穩定性等。鈣鈦礦電池。該主題中包含105篇研究論文,研究內容包括鈣鈦礦材料結構、鈣鈦礦薄膜、電子傳輸材料、載流子壽命等。鈣鈦礦發光二極管。該主題中包含56篇研究論文,研究內容包括鈣鈦礦納米晶體、鈣鈦礦發光二極管等。柔性材料與可穿戴設備。該主題中包含40篇論文,篇均被專利引用次數為6.8次,除生命科學領域以外,僅次于深度學習模型與應用主題;該主題研究內容主要包括電化學傳感器、納米粒子傳感器、健康傳感器、汗液傳感器、聚二甲基硅氧烷(PDMS)薄膜材料等。
物質科學領域的7個熱點主題包括凝聚態物理和光學、能源與材料2方面的研究(表5)。凝聚態物理和光學。在凝聚態物理和光學的3個熱點主題中,中國通信作者論文在量子計算熱點主題論文數量(1篇)明顯不及美國(44篇),在超表面與超材料主題也不及美國的50%。在二維范德華材料熱點主題中,中國通信作者論文與美國持平(19篇),美國通信作者論文的篇均被論文引用頻次遠高于中國。在量子計算、超表面與超材料2個主題中,美國通信作者論文被專利引用頻次明顯超過中國。然而,在二維范德華材料這個主題中,中國通信作者論文的被專利引用頻次遠高于美國,達到了10.6次,而美國的篇均被專利引用頻次僅為2.3次。中國在二維材料的基礎研究上有很強的實力,二維范德華材料是一種新型的二維材料,已在電子器件、能源存儲、環境修復等領域顯示出巨大的應用潛力,可能是中國未來材料基礎研究轉化實際技術和產品的一個重點方向。美國在量子計算熱點主題中的企業參與研發比例很高,美國的44篇論文中有19篇為企業參與研發,如美國谷歌公司、美國高通公司、美國微軟公司、美國英特爾公司這樣的科技巨頭占比較高。雖然中國在量子計算領域中發表了多篇高被引論文,但只有1篇被專利引用的論文。能源與材料。在能源與材料領域的4個熱點主題中,中國在鈣鈦礦發光二極管熱點主題的論文數量(26篇)遠超美國(8篇),但在柔性材料與可穿戴設備和鋰電池2個熱點主題與美國存在較大差距,鈣鈦礦電池熱點主題論文量與美國相當。從通信作者論文的論文與專利引用情況來看,無論是被論文引用還是被專利引用,中國的頻次普遍低于美國。和世界引用均值相比,中國在鋰電池主題的論文被引用頻次高于世界均值,其他主題則低于世界均值,而美國在鋰電池主題的專利引用頻次上稍低于世界均值,但其余3個主題的被引頻次均高于世界均值。在柔性材料與可穿戴設備熱點主題中,美國的優勢十分明顯,論文數尤其是篇均被專利引用頻次,遠超過中國。美國論文中有3家生物科技公司參與其中5篇論文的研究;在鋰電池熱點主題中,中國的篇均被專利引用頻次與美國的差距較大,該主題中,美國的3篇論文有德國、韓國在美的研發公司參與。
信息科學
信息科學領域遴選出深度學習模型與應用、人工智能醫療和區塊鏈3個熱點主題,中國在這3個主題中的篇均被引頻次均低于世界均值,而美國則都高于世界均值。中國在深度學習模型與應用和區塊鏈2個主題中的論文數量遠超美國,但無論是論文引用還是專利引用,美國的影響力都顯著超過中國(表6)。通過分析這些高被引論文的作者,發現在深度學習模型與應用熱點主題中,美國的論文有更多的企業團隊參與,包括美國谷歌公司、美國互聯網公司Mate等多個互聯網科技巨頭,而中國相關論文基本都是大學與科研院所主導。
深度學習模型與應用。該主題包含185篇高被引論文,主要為深度學習模型與應用場景結合相關研究,包括自動駕駛、遙感測繪、圖像處理、人類活動檢測等。該熱點主題論文被專利引用頻次、篇均被專利引頻次除生命科學領域外最高的,高達10.7次。
人工智能醫療。該主題包含126篇研究論文,該熱點中論文多為深度學習在電子計算機斷層掃描(CT)、核磁共振成像、X線檢查等醫療成像技術上的應用,美國在人工智能醫療主題有較大的優勢。
區塊鏈。該主題包含56篇研究論文,分布于多個應用場景,包括物聯網、電網、車聯網、醫療保健數據等。中國在深度學習模型與應用主題、區塊鏈主題的研究表現亮眼,分別發表了88篇和22篇相關論文,大幅超過美國的29篇和9篇。
結論與啟示
結論
通過對影響技術創新的中美基礎研究的比較,我們發現中國被專利引用的高被引論文數量增長迅速,但與美國相比仍有不小的差距。中國在部分與技術創新密切相關的研究領域甚至超越美國,這表明中國在支持技術創新發展方面具有一定的實力和潛力。通過總結中美兩國在不同研究領域的表現、中國在這些領域的具體優勢和不足,為決策者提供有關中國基礎研究對技術創新貢獻的細致解讀與建議。
影響技術創新的基礎研究主要集中在新生物技術與生物醫療技術、新興信息技術、能源與材料這些可能引發顛覆性技術新的基礎研究。新生物技術與生物醫療技術方面,被專利引用的高被引論文覆蓋量最多,包括基因編輯、單細胞測序等有巨大引用前景的新生物技術,新冠病毒、寨卡病毒、HIV病毒等危害人類健康的病毒治療,癌癥治療、糖尿病、阿爾茲海默這類社會疾病負擔重的疾病治療;能源與材料包括鋰電池、鈣鈦礦電池、二維材料、柔性材料與可穿戴設備等;新興信息技術包括人工智能醫療、量子計算、5G網絡、區塊鏈等。這些均是可能在未來可能引領產業革新、甚至引發顛覆性技術創新的基礎研究。
中國影響技術創新的高被引論文增勢顯著,但與美國的差距依然較大。中國被專利引用的高被引論文增勢明顯,5年增長了超過60%,但數量仍不到美國的50%。相比于美國,中國具有優勢的熱點主題主要包括深度學習模型與應用、二維范德華材料、鈣鈦礦電池、鈣鈦礦發光二極管、新冠病毒診斷與治療。美國有明顯優勢的熱點主題包括人工智能醫療、區塊鏈、量子計算、鋰電池、柔性材料與可穿戴設備、生物信息與基因組分析、基因編輯與治療、免疫檢查點療法及副作用、惡性血液系統疾病化療與免疫治療。
中國影響技術創新的高被引論文產生的影響力仍然低于美國。中國在不少與技術創新關聯緊密的熱點研究主題中的高被引論文數量高于美國,被論文引用頻次也超過了美國,但被專利引用的高被引論文數量卻通常低于美國。在論文與專利引用統計中,中國在新冠病毒診斷與治療表現突出,無論論文或者專利的篇均被引頻次高于世界均值,均高于美國。其他主題中,中國在二維范德華材料的篇均被專利引用頻次與鋰電池篇均被論文引用頻次高于世界均值,美國在大部分熱點主題的篇均被專利引用頻次都高于世界均值。
美國企業在對技術創新有影響的基礎研究中有較高的參與度。值得注意的一點是,美國被專利引用頻次較高的熱點主題的論文有大量企業參與,如深度學習模型與應用、鋰電池、量子計算等主題中,多個美國互聯網科技巨頭在基礎創新初期即深度參與,這一現象表明美國企業在技術創新的基礎研究中具備強大的實力和參與度。美國企業在熱門技術領域的早期投入和深度參與,為他們在相關領域取得重要專利和技術突破提供了優勢。相比之下,中國被專利引用頻次較高的高被引論文基本完全由高校和科研院所主導完成。
建議
基于上述創新科學結構圖譜的分析結果,對我國基礎研究發展提出以下3個方面建議:
加強小樹屋現有優勢領域的發展,政府和相關機構應持續投入,鼓勵將已經對技術產生一定影響的基礎研究盡快產業化和商業化,通過技術創新帶動經濟發展。
積極布局可能引起顛覆性技術創新的領域,加大對這些領域的研發投入,培養和吸引相應研究領域的頂尖人才,引導基礎研究向技術成果的轉移和轉化。
根據美國企業在基礎創新初期即深度參與研究的經驗,中國可進一步通過稅收優惠、研發補助和政策支持等措施激勵有能力的企業參與到有可能引起顛覆性技術創新基礎研小樹屋究中。提供更多的風險投資支持,降低投資風險,吸引更多的私人資本進入科技創新領域。鼓勵風險投資和私人資本向基礎研究和高新技術企業投資,尤其是在早期研發階段,從而更好的推動創新成果的快教學速推廣和應用。
(作者:陳挺、冷伏海、李國鵬、王小梅,中國科學院科技戰略咨詢研究院。《中國科學院院刊》供稿)