官术网_书友最值得收藏!

保羅·厄爾多斯(Paul Erd?s)可以說是20世紀最多產的數學家,從各方面看,他都是一個非常怪異的人。這位匈牙利數學家(第二次世界大戰前移民美國)會將所有生活必需品都裝在一個破箱子里,他就拖著這個箱子出沒于世界各地的學術會議、大學,乃至同事的家中。這也成了他的一件逸事。他可以在未提前知會的情況下突然出現在某一位同事的家門前,欣喜地大叫:“我有靈感了!”然后與主人一道工作幾天,隨后又突然出現在另一所大學的某個同事家門口。這種經常性的輾轉最后甚至引起了美國聯邦調查局的特別關注。在數學界的同行眼中,他是一位性情古怪但討人喜歡的數學家。但對于冷戰期間的執法部門來說,他這樣隨意穿越鐵幕的行為是極其可疑的。而他也確實在1941年遭到過逮捕,原因是他在一座秘密的無線電發射塔下閑逛。“你明白嗎?我是在思考數學定理呢。”他用濃重的匈牙利口音向當局解釋。最終經過數十次跟蹤調查,聯邦調查局才相信了他,認為他的漫步閑逛純粹是為了思考數學問題。

他的一生也如此怪異。他沒有妻兒,沒有工作,甚至沒有一個穩定的居所。他用擔任各所大學客座講師所得的酬金以及各種學術獎金,來應付旅行和基本的生活開銷。他謹慎承諾,努力不讓任何因素影響到工作。1996年,他在83歲的高齡去世,生前與511位同行合作,以獨立或合作的方式共撰寫了1 475篇學術論文,令人嘆為觀止。如果用論文總體發表量來衡量產出量,那么厄爾多斯與普通科學家相比,其產出量是什么樣的水平?看起來,他確實非常出色,但究竟有多出色呢?

我們發表了多少論文

學術出版物是科學交流的主要媒介,有助于傳播知識。科學家的產出反映了他在本領域內增加知識單元的速率。在20世紀,出版物的數量呈指數級增長,其中關鍵問題在于,知識體量的增加,究竟是由于科學家數量的增多,還是因為每位科學家的平均產出高于他們過去的同行?

相關研究分析了超過5 300萬名作者和他們在科學界的所有分支學科發表的近9 000萬篇論文,結果表明,論文和科學家的數量在20世紀都呈指數級增長4。一方面,作者的增長速度比論文的發表速度略高[見圖1-1(a)],這意味著人均論文數隨著時間而降低。另一方面,對于每位科學家來說,個人的產出率在20世紀基本保持穩定。例如,在整個20世紀,科學家每年發表的論文數量一直約為2篇[見圖1-1(b),藍色],在20世紀末的15年內略有增長。到了2015年,一名普通的科學家平均每年獨自或合作撰寫2.5篇論文。個人產出率增加的原因在于合作:當更多的論文以合作方式完成時,個人產出率也得以提升[見圖1-1(b),紅色]。換言之,就一篇論文所包含的作者數量而言,其趨勢在20世紀是上升的。得益于合作研究,個人產出率在過去10年間才得以增加。

圖1-1 不斷增加的科學家數量

(a)在20世紀,科學家的數量和論文數量都呈指數級增長。

(b)每位科學家每年撰寫的論文數在過去100年約為2篇,但在1985—2000年逐漸增長。這種增長的直接原因是合作效應:科學家以共同作者身份發表的論文數量增加了。使用某一獨立研究領域內的數據進行分析也反映了相似的趨勢5。例如在物理學領域,過去100年每位物理學家每年撰寫論文的數量不足1篇,但在1985—2000年則急劇增加4,5

不同學科的產出量有何不同

但是當我們跨學科討論科學家的產出時,問題就不那么簡單了。首先,每一篇出版物可能涵蓋一個知識單元,可是不同知識單元的規模卻大相徑庭。對于一位社會學家來說,如果論文前言沒有十幾頁,他可能就覺得自己沒表達清楚。而最權威的物理學期刊之一《物理評論快報》(Physical Review Letters),卻會嚴格地把論文篇幅限制到4頁,這4頁還包括插圖、表格和參考文獻。討論個人產出量的時候,我們傾向于將某個人在科研期刊上發表的論文數量作為衡量手段。但在社會科學和人文科學的某些分支學科中,專著才是學術成果的主要表現形式。雖然一本專著也被算作一個出版物單元,但不可否認,產出這樣的單元要投入更多的時間。

另外再看看計算機科學。作為一門最年輕的學科(7),計算機科學采取了較為獨特的出版傳統。由于該領域發展迅速,計算機科學家一般選擇會議論文而不是學術期刊,作為交流學科發展的主要方式。考慮到這一領域從互聯網到人工智能所取得的一系列成就,這種方式在學科內運行得很成功,但對業外人士來說就有些難以理解了。

如果罔顧不同學科專業特點的不同出版習慣,后果可能比較嚴重。比如,針對大學、研究生院以及MBA課程的全球權威排名機構《美國新聞和世界報道》(US News and World Report,簡稱《美新周刊》),曾在2017年首次發布世界最強計算機科學院系的排名。這個排名如此荒誕,以至于美國計算研究會不得不發表一個特別聲明,稱此排名為“胡說八道”,是對讀者的“嚴重傷害”。

為何這樣一個專門從事學術機構排名且經驗豐富的組織錯得如此離譜呢?原來《美新周刊》是根據科學網(Web of Science)數據庫中記錄的期刊論文發表數量來評估排名的(8)。這一方法對其他所有學科都很有效,但是由于忽略了學術會議上發表的同行評審論文,《美新周刊》的排名完全偏離了計算機科學家對質量和影響力的認知。

不同學科之間產出量的差別,可以使用美國國家科學研究委員會針對美國博士培養所收集的數據進行量化6,7。用每個系全體教師在5年間發表論文的平均數作為指標,研究人員發現,這個數值從歷史系的1.2篇到化學系的10.5篇不等,在不同學科間差異巨大。即使在相似的專業之間,我們也能看到很大的產出量差距。比如,對于生物學科,科學家的產出量從生態學的5.1篇到藥劑學的9.5篇不等。

總而言之,這些數據至少極其清楚地表明了一項信息:無論我們如何衡量,一位普通科學家的論文產量與厄爾多斯都相差十萬八千里。厄爾多斯總共發表了1 475篇論文,這意味著在60年里,他每個月寫2篇論文,這實在令人難以置信。相比之下,一項針對1996—2011年1 500萬名科研人員的調查發現,每年能夠發表一篇論文的同行占比不足1%。8因此,只有少部分人才能保持一個穩定的發表頻率。有趣的是,這個小小的百分比還包含了許多最具影響力的研究人員。盡管他們在所有曾發表論文的科研人員中占比不足1%,但這一穩定的核心群體卻產出了41.7%的論文,并且其中87.1%的論文的總引用量超過1 000。如果某位多產科研人員的步伐慢下來,其學術貢獻的影響力也將降下來。即使只停止發表1年,他的論文的平均影響力也會大幅降低。

雖然厄爾多斯只是一個特例,但他令人驚嘆的產出量,表明了研究人員產出量之間的巨大差異。為什么會有這么大的差異呢?畢竟,每個人每天都只有24小時。為何厄爾多斯等人會比其同行的產出高出那么多呢?要回答這些問題,我們需要探訪一下全盛時期的貝爾實驗室。

產出量:你有可能會明顯超出競爭者

將硅帶入硅谷的是威廉·肖克利(William Shockley),他的職業生涯充滿爭議。20世紀五六十年代,他在將一種新型晶體管商業化的過程中,把硅谷改造成了電子學的孵化基地。但是他對優生學的鼓吹給他帶來了麻煩,最終使他與同事、朋友和家人的關系疏遠甚至形同陌路。肖克利在貝爾實驗室度過了他最多產的年代,在那里他同約翰·巴丁(John Bardeen)和沃爾特·布喇頓(Walter Brattain)合作發明了晶體管。這項發明不僅使3人共同贏得了1956年的諾貝爾物理學獎,同時也開啟了時至今日仍在繼續的數字革命時代。

在貝爾實驗室負責管理一個研究小組時,肖克利開始對這樣一個問題感到好奇9:他的同事在產出上的差異可量化嗎?帶著這個問題,他收集了洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)和布魯克海文國家實驗室(Brookhaven National Laboratory)等美國國家實驗室中雇員的論文發表統計數據。在對這些數據進行分析后,他得到了一個極為驚人的結果:曲線表明,若以N表示個人的產出量,即某研究人員發表的論文數量,那么它服從對數正態分布:

對數正態分布具有肥尾的特點,表明產出量存在巨大的差異。換句話說,肖克利意識到,大多數研究人員發表的論文數量非常少,而不可忽略的少數研究人員發表了比平均數多幾個數量級的論文。公式1-1的證據見圖1-2,其中標出了INSPECT科技文獻數據庫中列出的所有作者撰寫論文的數量分布情況以及對數正態擬合10

圖1-2 產出率分布

方塊符號表示1969—2004年,INSPECT科技文獻數據庫列出的所有作者(超過300萬)發表的論文數量。紅線對應數據的對數正態擬合(公式1-1)。

科學的真相

The Science of Science

對產出的研究具有悠久的歷史9-15

1962年,阿爾弗雷德·J.洛特卡(Alfred J. Lotka)11注意到科學家的論文產出量呈肥尾分布。換言之,他發現少數科學家完成了大部分的科研論文。洛特卡分析了1907—1916年《化學文摘》(Chemical Abstracts)上的6 891名論文作者,得出的結論是,具有N篇論文的作者數量遵循下列冪律分布:

其中,冪指數α≈2。冪律預示產出量有一個長尾,表明了個體之間的巨大差異。注意,我們需要大量的數據才能可靠地區別冪律分布與對數正態分布,而這是洛特卡在1962年時所缺少的。

肖克利很快就注意到,產出量的這種對數正態分布有些奇怪。確實,在大多數充滿競爭的領域,個人能力表現的衡量指標幾乎總是呈現一個狹窄的分布。以跑步為例,在2016年的里約奧運會上,尤塞恩·博爾特(Usain Bolt)以9.81秒完成100米決賽,賈斯廷·加特林(Justin Gatlin)和安德烈·德·格拉斯(Andre De Grasse)分列第二名和第三名,成績分別是9.89秒和9.91秒。這些數字極其接近,反映了一個眾所周知的事實,即人與人之間能力表現上的差異通常是有限的16。同樣,即使在泰格·伍茲(Tiger Woods)的巔峰時期,他也只能領先最強的對手幾桿。最快的打字員比一名普通打字員每分鐘也就多打幾個字。能力差異的有限性提醒我們,在任何領域,要以顯著優勢在競爭中獲勝,并非完全不可能,但十分困難(9)。然而,圖1-2顯示,這種有限性在學術表現上似乎說不通。顯然,就論文數量而言,你有可能會明顯超出競爭者。為什么會這樣呢?

為什么會這樣多產

肖克利提出了一個簡單的模型,解釋他觀察到的產出量的對數正態分布(見公式1-1)9。他認為,要發表一篇論文,一名科學家必須同時兼顧多個因素。比如:

· 因素1(F1),發現一個好的選題;

· 因素2(F2),就這一選題取得進展;

· 因素3(F3),找到有價值的結果;

· 因素4(F4),決定何時結束研究并開始整理記錄結果;

· 因素5(F5),充分論述;

· 因素6(F6),從批評中獲得建設性意見;

· 因素7(F7),決定向期刊提交論文;

· 因素8(F8),應刊物或審稿人要求還要對論文進行修改。

這些環節中任何一步出錯,論文發表就會泡湯。假設一個人清除障礙Fi的概率是pi,那么一位科學家的論文發表量與清除后續每項障礙的概率成正比,即Np1p2p3p4p5p6p7p8。如果這些概率的每一項都是獨立的隨機變量,那么這個過程的乘性表明,P(N)遵循公式1-1形式的對數正態分布。

要理解離群值來自何處,想象一下,科學家A與科學家B在所有這些因素上的能力都相同,僅有的差異在于A在解決問題(F2)、知道什么時候結束研究(F4)以及決心(F7)方面比B優秀1倍。那么結果就是,A的產出率將是B的8倍。換句話說,B每發表一篇論文,A將發表8篇論文。因此,科學家在障礙清除能力上的微小差別,可能導致總體產出量的巨大不同。

肖克利的模型不僅解釋了產出量為何服從對數正態分布,同時也提供了一個提高自我產出的理論框架。這個模型提醒我們,發表論文并不能依靠有一個好點子這樣的單一因素。相反,它要求科學家在多種因素上都要足夠優秀。看到某人極其高產時,我們傾向于將此歸結為單一的獨特因素,比如某個教授在構思新選題(F1)或將想法寫成文字(F5)方面確實突出。但該模型顯示,單一因素是無法解釋離群值的。一位研究人員只有在諸多因素上都出類拔萃,沒有弱項,才有可能成為最高產的科學家。

這個障礙模型表明,一項弱點就有可能扼殺某人的產出量,即使他有許多優點。這也告訴我們,厄爾多斯并不一定是我們想象中的超人,他的產出量有可能是通過對不同技能的精心打磨而實現的。的確,如果我們能夠在論文寫作的各個步驟上加以改進,即使每個步驟的改進都非常微小,綜合起來,這些進步帶來的產出率提高將是指數級的。當然,這說起來容易做起來難。但是你可以用這個模型進行自我診斷,看看到底是哪個步驟對你的產出率影響最大。

產出量上的明顯差異,會對回報產生影響。實際上,肖克利做了另外一項重要論述:雖然一位科學家的產出量是非線性的,他的薪酬——通常與能力表現掛鉤的獎勵形式,卻是線性的。收入最高的雇員,薪酬比其同事最多能高出50%~100%。這其中的原因有很多,比如,這樣肯定看起來更公平一些,也更有利于培養合作氛圍。但如果從“一篇論文對應一份薪水”的角度來看,肖克利的發現引出了一些有趣的問題,比如是否可以利用線性的薪金和非線性的產出量之間的不對等。現實情況也的確如此,一個科研機構雇用幾個明星科學家可能就賺大了,即使付給他們比同行高得多的報酬也不虧。肖克利的論點經常被當作理論依據,來解釋科研密集型機構為何會用高薪和額外待遇聘用頂尖人才,以及大學的一流院系為何能獲得高得不成比例的經費和資源。

當然,僅以論文發表數量來衡量個人的職業發展,無疑是對科學運作機制的嚴重曲解。但有研究表明,個體的產出量與科學家在各自領域的顯性貢獻以及他的知名度是緊密相關的。這樣的范例早在1954年就被韋恩·丹尼斯(Wayne Dennis)所證實1。丹尼斯調查了71名美國國家科學院院士和聲名顯赫的歐洲科學家。他發現,幾乎無一例外,高產的研究人員同時也在科學界享有崇高的聲望,他們或被列入《大英百科全書》,或其科學貢獻被記錄在重大科技發展史中。高產出率能增加獲得終身教職17以及獲得后續研究經費18的概率。在院系層面上,導師的論文發表速度不僅是學位點聲譽的可靠指標,也影響著畢業生是否能夠獲得教職19

總而言之,持續的高產出盡管稀有,但它與科學影響和聲望緊密相關。考慮到這個例證,產出量似乎是科研職業發展是否順利的關鍵指標。但正如我們將在后續章節里看到的那樣,在用于量化科研工作是否優秀的許多指標中,產出量的預測能力是最差的。原因很簡單:盡管偉大的科學家往往非常高產,但并不是所有高產科學家都能做出舉足輕重的學術貢獻。事實上,大多數科學家都沒有做到。能夠獲得高產出的途徑有很多,比如,某些領域內的實驗室技術人員的名字可能會出現在上百篇乃至上千篇的論文上。如果單看署名的論文數量,他們看起來極其多產,但他們極少被認為是該研究的知識產權人。人們發表論文的方式也在發生變化20。共同作者的數量在不斷地增加,基于同一份數據發表多篇論文的現象也越來越多。當前,關于“最小出版單元”(Least Publication Unit)20,也被稱為“香腸論文”(salami publishing)(10),科學界已有許多討論,這一現象可能進一步造成產出數量的虛高。

如果科研產出量不是職業發展的決定性因素,那什么才是呢?

科學的真相

The Science of Science

解決“誰是誰”(11)的問題

要想精確跟蹤某人的科研產出,我們需要找出他所寫的論文以及他名下的所有其他成果21,22。這看起來似乎非常容易,實際上卻根本做不到。這主要受制于4個方面21-23。第一,同一作者在論文中可能存在多個名字。原因可能在于拼寫差異及錯誤以及因婚姻狀態、宗教信仰和性別改變所導致的姓名改變,或者是使用了筆名。第二,一些常見的名字導致重名嚴重。第三,一些必要的元數據往往不完整或缺失,包括這樣一些情況:出版社和文獻目錄數據庫沒有記錄作者的姓氏、所在地理位置,或者其他有助于身份識別的信息。第四,越來越多的論文不僅作者眾多,而且也是多學科、多院系合作的產物。在這樣的情況下,確認一部分作者的信息,并不能有效幫助我們確認剩余的作者。

雖然人們現在已經開始采取多種方法來解決“誰是誰”這一問題,但我們還必須意識到本章和后續章節中的一些結論可能也會受到“誰是誰”的影響。總之,與僅僅發表少量論文的人相比,高產科學家不容易產生人名混淆問題,因為他們有一個長期的、可追蹤的論文發表記錄。因此,許多研究通常會關注具有較長職業生涯的高產學者,而不是“普通的”科學家。

主站蜘蛛池模板: 正宁县| 武夷山市| 乌兰浩特市| 于都县| 昌宁县| 信丰县| 罗源县| 德安县| 阳山县| 永修县| 南开区| 延安市| 汕尾市| 交口县| 隆子县| 勐海县| 永泰县| 大理市| 上栗县| 磴口县| 阳山县| 行唐县| 隆子县| 河北区| 句容市| 巴塘县| 城步| 进贤县| 江川县| 潍坊市| 双鸭山市| 裕民县| 利辛县| 宜昌市| 廉江市| 浦城县| 海阳市| 陆丰市| 绥化市| 察隅县| 金坛市|