亚洲无码午夜福利视频|日韩国产高清一区二区|欧美老熟妇XB水多毛多|狠狠色成人一区二区三区|在线观看国产精品露脸网站|在线观看一区二区三区视频|激情性无码视频在线观看动漫|99国产精品久久久久久久成人

您的位置:中國博士人才網(wǎng) > 新聞資訊 > 人才論點(diǎn) > 大數(shù)據(jù)人才流失:科研為何陷入困境

關(guān)注微信

大數(shù)據(jù)人才流失:科研為何陷入困境

時(shí)間:2014-05-13來1源:開源中國社區(qū) 作者:91boshi

  無論無處不在的“大數(shù)據(jù)”概念引起怎樣的聯(lián)想,逐步增長的數(shù)據(jù)規(guī)模確是改變著我們和世界的交互方式。這在工業(yè)界、政界、媒體、學(xué)術(shù)界,幾乎任何領(lǐng)域,都是事實(shí)。逐漸增強(qiáng)的對大數(shù)據(jù)進(jìn)行收集、處理、抽象化,并從中得到啟發(fā)的能力,拓寬了我們的知識(shí)面。

人才網(wǎng)

  然而近年來,科學(xué)研究領(lǐng)域加速轉(zhuǎn)變到以數(shù)據(jù)為核心,是有負(fù)面影響的?偨Y(jié)來說就是:稱職的科學(xué)研究者需要的能力,和稱職的工業(yè)界從業(yè)人員需要的能 力,越來越無法區(qū)分。具有典型惰性的學(xué)術(shù)界剛剛開始適應(yīng)這一轉(zhuǎn)變,而其他領(lǐng)域早已開始大規(guī)模鼓勵(lì)和獎(jiǎng)勵(lì)這種能力。不幸的是,這導(dǎo)致了很多有才的準(zhǔn)研究者難 以在學(xué)術(shù)界立足,只能投入財(cái)大氣粗的工業(yè)界的懷抱。

  數(shù)據(jù)的神奇效果

  20世紀(jì)60年代,物理學(xué)家Eugene Wigner發(fā)表了他的著作:數(shù)學(xué)在自然科學(xué)界的神奇效果。它論述了抽象的數(shù)學(xué)概念在上下文中的有效性,遠(yuǎn)遠(yuǎn)超過產(chǎn)生這些概念的上下文,其差距到了驚人的 地步。畢竟,誰能想到Riiemannn在20世紀(jì)研究的非歐集合會(huì)是愛因斯坦重新思考萬有引力的基礎(chǔ)?誰又能想到,抽象固體的旋轉(zhuǎn)群的編纂幾乎最終導(dǎo)致 了物理學(xué)家成功地預(yù)測希格斯玻色子的存在?

  谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以“數(shù)據(jù)的神奇效果”為題發(fā)表的文章響應(yīng)了這一觀點(diǎn)。文章展現(xiàn)其驚人的洞察力:只要有足夠的數(shù)據(jù),數(shù)學(xué)模型的斟酌選擇不再重要 —尤其是對他們所研究的自動(dòng)語言翻譯來說,“比起很少的數(shù)據(jù)及其精確模型,簡單模型和大量的數(shù)據(jù)更有勝算”。

  如果我們大膽假設(shè)這個(gè)觀點(diǎn)可以延伸(至少是部分延伸)至自然語言處理之外,那么僅僅是數(shù)據(jù)挖掘這一項(xiàng)技能都會(huì)逐步打敗領(lǐng)域知識(shí)。我相信這一預(yù)言已被證實(shí):眾多學(xué)術(shù)領(lǐng)域,有效地處理數(shù)據(jù)的能力正在取代其他更經(jīng)典的研究模式。

  我并不是說對某一領(lǐng)域的精通已經(jīng)完全過時(shí)。如果不理解粒子相互作用理論,大型強(qiáng)子對撞機(jī)(LHC)產(chǎn)生的10Gb每秒的速度將一無用處,就像只有理 解物理過程驅(qū)動(dòng)空間爆炸的理論,大型天文望遠(yuǎn)鏡(LSST)產(chǎn)生的每晚15TB的原圖像數(shù)據(jù)才能幫助我們理解宇宙學(xué)。然而,LHC和LSST反映了越來越 普遍的現(xiàn)象:科學(xué)研究結(jié)果完全依賴對大量數(shù)據(jù)的精確分析。實(shí)際上,我們發(fā)現(xiàn),即使數(shù)據(jù)量并不足夠“大”,能夠?qū)λ鼈兲幚、抽象、挖掘和從?shù)據(jù)中學(xué)習(xí)的研究 者也在逐步促進(jìn)科學(xué)進(jìn)步。

  新型科學(xué)家

  從某種意義來說,數(shù)據(jù)驅(qū)動(dòng)的研究是過去的研究趨勢的簡單延續(xù)。自16-17世紀(jì)科研分離出亞里士多德哲學(xué),科學(xué)進(jìn)步已基本依賴試驗(yàn)和觀察。要知道, 是第谷16世紀(jì)開創(chuàng)性的對天空的研究,促動(dòng)了17世紀(jì)開普勒的行星運(yùn)動(dòng)規(guī)律的研究,繼而為牛頓的萬有引力定律鋪平道路,最終形成愛因斯坦的廣義相對論。科 學(xué)家始終在努力處理數(shù)據(jù),區(qū)別只在于這一努力如今正成為科學(xué)研究過程的核心。

  不過,科學(xué)研究逐步以數(shù)據(jù)為中心已經(jīng)產(chǎn)生了解決問題的新辦法:進(jìn)入LHC、LSST時(shí)代,善于運(yùn)用高性能并行數(shù)據(jù)統(tǒng)計(jì)算法探索大量的群體性數(shù)據(jù)集的 研究者,以及新的統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)算法、高速代碼,以前所未有的規(guī)模重復(fù)進(jìn)行典型分析的應(yīng)用,推動(dòng)了振奮人心的研究。簡而言之,新型科學(xué)家一定是精通統(tǒng) 計(jì)、計(jì)算、構(gòu)建算法、軟件設(shè)計(jì)、領(lǐng)域技能(可能作事后使用)的多棲專家。在粒子物理學(xué)、生物學(xué)、化學(xué)、神經(jīng)科學(xué)、海洋科學(xué)、 大氣物理學(xué)等幾乎所有領(lǐng)域,研究越來越趨向于數(shù)據(jù)驅(qū)動(dòng),同時(shí)數(shù)據(jù)收集的速度絲毫沒有放緩的跡象。

  科學(xué)軟件的基礎(chǔ)作用

  科學(xué)軟件的共同點(diǎn),是這些工作都離不開編寫代碼。高質(zhì)量的、組織良好的公共代碼才能對科學(xué)過程極為重要的重現(xiàn)產(chǎn)生影響。諸多公共軟件都是關(guān)于當(dāng)前的非再生性科學(xué)危機(jī)、新的出版形式的需要、新的研究、代碼和數(shù)據(jù)公開訪問。此處不再詳談更多。

  此處我想詳細(xì)討論的是,優(yōu)化的專業(yè)軟件對大型數(shù)據(jù)集分析和抽象的核心作用,以及它成為現(xiàn)代科學(xué)研究的核心的演繹過程。我的合作者Gael Varoquauz以及他的同事最近發(fā)表評論證實(shí)了這一觀點(diǎn)(見Gael的簡介),并就公共的,組織良好的健壯的科學(xué)代碼對于現(xiàn)代科學(xué)研究的重現(xiàn)性和研究 本身的進(jìn)步都必不可少這一論點(diǎn)進(jìn)行了實(shí)例研究。過去的研究結(jié)果,如果只是在論文中簡單提及,而產(chǎn)生這結(jié)果的實(shí)際過程的代碼未經(jīng)組織,這樣的結(jié)果就不能作為 新的研究的基礎(chǔ)。就像是Buckheit和Donoho曾說的:

  學(xué)術(shù)期刊上的計(jì)算科學(xué)的文章并不是學(xué)術(shù),他們只是學(xué)術(shù)的幌子。真正的學(xué)術(shù)是完整的軟件開發(fā)環(huán)境,以及計(jì)算出數(shù)字的完整指令集。

  公開代碼看起來像是馬后炮,但是一般來講,僅僅發(fā)布代碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說的那樣,“一個(gè)程序運(yùn)行正常,總好過它勉強(qiáng)能正常運(yùn)行”。讓代碼對在科學(xué)研究之外的作者有用需要相當(dāng)大的投入。這種項(xiàng)目具有難以估計(jì)的價(jià)值, 就像NumPy項(xiàng)目,Scikit-learn項(xiàng)目,等等。它們?yōu)檠芯空咛峁┮粋(gè)框架,在此框架下,代碼可以共享,在github上共同審閱和發(fā)布,以此 造福研究社區(qū)。

  學(xué)術(shù)界的斷層

  這是學(xué)術(shù)界的弊。罕M管有層次的高質(zhì)量軟件正成為現(xiàn)在的科學(xué)研究模式的核心,并且這些實(shí)踐將有助于學(xué)術(shù)研究的成功,學(xué)術(shù)界卻非常成功的阻止了這一實(shí) 踐。“發(fā)表或者毀滅”的模式中,論文制約著大多數(shù)研究型高校,相當(dāng)于學(xué)術(shù)獎(jiǎng)勵(lì)框架的貨幣,而花費(fèi)在構(gòu)建和編寫軟件工具上的時(shí)間統(tǒng)統(tǒng)不算是寫論文的時(shí)間。這 就導(dǎo)致,除非是某種特殊情況,專注于可復(fù)用的開放軟件的人很難在學(xué)術(shù)界獲得晉升的機(jī)會(huì)。這些可憐的人們,期待著在科學(xué)軟件的發(fā)展而不是研究論文中獲得成 就,往往會(huì)發(fā)現(xiàn)他們已置身于學(xué)術(shù)群體的邊緣。

  某種程度上,這種斷層一直存在。學(xué)術(shù)界總獎(jiǎng)勵(lì)某些技能,而損害其他技能:教學(xué)就是一個(gè)長期被邊緣化的技能。然而這其中的兩個(gè)主要的區(qū)別使得學(xué)術(shù)界的斷層更加令人擔(dān)憂:

  前面提到的構(gòu)建和編寫軟件工具的技能,正滑向?qū)W術(shù)獎(jiǎng)勵(lì)框架邊緣,而它恰恰是現(xiàn)代的研究能否成功的關(guān)鍵

  幾乎全世界都在使用密集數(shù)據(jù)挖掘工具的同時(shí),學(xué)術(shù)界忽略的不以為然的技術(shù)正是工業(yè)界最看重最鼓勵(lì)的

  這場風(fēng)暴導(dǎo)致技術(shù)純熟的研究者漸漸滑離研究而偏向工業(yè)界。學(xué)術(shù)界盡管也存在專注于軟件的工作,但那些工作基本薪水很低,沒有地位,也沒有晉升及機(jī) 會(huì)。與之相比,工業(yè)界吸引力超高:它致力于解決有趣的緊迫的問題,提供優(yōu)越的薪水和福利,幫助博士后從工作站之間的遷徙中解脫出來,甚至鼓勵(lì)基礎(chǔ)課題的研 究和發(fā)表。這種情況下還能留在學(xué)術(shù)界簡直是奇跡。

  我所研究的天文學(xué)和天體物理領(lǐng)域尤其讓人擔(dān)心。LSST項(xiàng)目正在籌備這一個(gè)十年底的第一個(gè)目標(biāo):十年內(nèi)能夠?qū)崟r(shí)處理每晚30TB的數(shù)據(jù),這一目標(biāo)極 其激進(jìn)。要處理這樣大量的數(shù)據(jù),未來幾年,這個(gè)項(xiàng)目可能要招募數(shù)十名以數(shù)據(jù)為中心的天文學(xué)研究者?紤]到所需技術(shù)和當(dāng)前的薪酬水平,以及學(xué)術(shù)界面向工程的 工作的發(fā)展前景,我很懷疑它能夠吸引到足夠的應(yīng)聘者。

  學(xué)術(shù)界該如何適應(yīng)

  不止我一人在考慮這些問題。我和國內(nèi)外很多人們討論過文中提到的一些話題,了解到有些制定政策的人們和資助機(jī)構(gòu)也正在思考這些嚴(yán)峻的問題。但是更現(xiàn) 實(shí)的問題是怎樣解決這些問題,阻止它惡化。抱怨學(xué)術(shù)界的文化是學(xué)者們的常事,Deidre McCloskey的“學(xué)術(shù)威望法則”印證了本文的一些觀點(diǎn):越是實(shí)用的領(lǐng)域,越?jīng)]有地位。這話原是在哀嘆基本的論文像是新手的作品從而地位低下,卻很適 用于現(xiàn)在的主題。

  我認(rèn)為威望才是關(guān)鍵:學(xué)術(shù)界采取審慎的措施追趕工業(yè)界的腳步,對于數(shù)據(jù)驅(qū)動(dòng)的研究必不可少的軟件,給予其開發(fā)者更多的聲望,才是解決這些問題的辦法。研究者,資助機(jī)構(gòu)和制定政策的人們也可以采取行動(dòng)來促進(jìn)這一過程。以下是一些建議:

  學(xué)術(shù)刊物持續(xù)強(qiáng)調(diào)可重現(xiàn)的重要性?芍噩F(xiàn)性是科研過程本身必不可少的要素,而它依賴于開源的高質(zhì)量代碼。將這些代碼視作論文發(fā)表的重要組成部分,能夠提高軟件開發(fā)者在學(xué)術(shù)團(tuán)體的地位。

  推動(dòng)建立終身制教授評價(jià)的新標(biāo)準(zhǔn)。新的標(biāo)準(zhǔn)同時(shí)考量公共軟件的開發(fā)和維護(hù)以及傳統(tǒng)的論文發(fā)表和教學(xué),這樣投入到編寫整潔的公共代碼的時(shí)間就不會(huì)再被遏制。

  創(chuàng)建并資助新的學(xué)術(shù)就業(yè)體制,幫助博士畢業(yè)生、博士后研究員、研究員和終身教授的就業(yè)。就業(yè)職位應(yīng)特別看重和獎(jiǎng)勵(lì)公共的,跨學(xué)科的科研軟件的開發(fā),從而為愿意構(gòu)建和維護(hù)通用的基礎(chǔ)軟件的研究者提供可行的學(xué)術(shù)職業(yè)發(fā)展道路。

  提高博士后科研職位的薪酬。這個(gè)建議可能存在爭議,但現(xiàn)在的薪酬水平根本無法保持下去。NIH職位為應(yīng)屆畢業(yè)的博士后提供的基本工資是每年四萬刀 以下。博士后工作七年漲到每年五萬刀。若精通構(gòu)建和維護(hù)軟件工具的應(yīng)屆博士后就職于工業(yè)界,薪水會(huì)多出好幾倍,并且工業(yè)界尊重他們的計(jì)算能力,他們也可以 運(yùn)用這些能力研究自己感興趣的問題。我很擔(dān)心,學(xué)術(shù)界不及時(shí)作出這些調(diào)整的話,未來幾年的科學(xué)研究將遭遇嚴(yán)重的障礙。

  我們生活在一個(gè)振奮人心的時(shí)代,加速增長的收集、存儲(chǔ)、處理和學(xué)習(xí)海量數(shù)據(jù)的能力,使得我們對世界的科學(xué)認(rèn)識(shí)的寬度和廣度都在增加。要保持這探索新 事物的節(jié)奏,我們需要激勵(lì)研究人員安于研究團(tuán)體。這不是輕而易舉能解決的問題,但是努力才能保證科研在未來可以健康和可持續(xù)的發(fā)展。

  我衷心的感謝眾多參與討論和推動(dòng)這些想法的同事,尤其是Bill Howe以及Fernando Perez。同時(shí)也感謝我的好朋友Will Mari(@willthewordguy)的審閱和反饋。


中國-博士人才網(wǎng)發(fā)布

聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,文章內(nèi)容僅供參考。

南阳市| 贵定县| 黎平县| 安乡县| 五常市| 托克逊县| 庆云县| 大化| 织金县| 锦屏县| 九寨沟县| 顺义区| 赣榆县| 阳东县| 鹤壁市| 徐汇区| 玉环县| 五华县| 庄河市| 北票市| 绍兴市| 蚌埠市| 镶黄旗| 澄江县| 禄丰县| 莫力| 伽师县| 斗六市| 恩平市| 镇远县| 隆尧县| 出国| 泾源县| 临海市| 郴州市| 东阳市| 紫云| 田阳县| 灵寿县| 阿荣旗| 德阳市|