第2章 在成為成功的數(shù)據(jù)科學家之際
Fast Forward Labs創(chuàng)始人Hillary Mason
Hillary是機器智能研究公司Fast Forward Labs 的創(chuàng)始人,同時也是Accel公司的全職數(shù)據(jù)科學家。在此之前,她曾是Bitly公司首席科學家,她在那里領(lǐng)導著一個專注于研究因特網(wǎng)實時動向的團隊,從事研究、探索和軟件工程的復合型工作。她也是HackNY和DataGotham的聯(lián)合創(chuàng)始人,同時是NYCResistor成員。
作為一名全職的數(shù)據(jù)科學家,您的工作具體有哪些?
我的日常工作主要有3個方面。首先,我時常與合作伙伴們一同探討有趣的技術(shù)以及公司。其次,我與那些Accel注資管理的公司合作,在他們遇到有趣的或者具有挑戰(zhàn)性的數(shù)據(jù)問題的時候提供幫助。最后,我?guī)椭鶤ccel公司理清頭緒,分析出未來的下一代數(shù)據(jù)公司應該是什么樣的。
現(xiàn)在風險投資公司開始聘用全職數(shù)據(jù)科學家了,您覺得這種趨勢會越來越流行嗎?
在我們當下的這個時代,只有極少數(shù)的人有過花費多年時間來幫助公司建立數(shù)據(jù)科學團隊或者幫助公司打造數(shù)據(jù)產(chǎn)品的經(jīng)歷。所以對于公司來說,能有從事這方面工作達數(shù)年時間的專家加入并著手做這件事情,本身就已經(jīng)非常有價值了。
我并不覺得招聘數(shù)據(jù)科學家在未來會和現(xiàn)在一樣困難。因為現(xiàn)在數(shù)據(jù)科學是一個全新的東西——只有很少的人有過這方面的長期經(jīng)驗。因此對于風投公司來說,得到一位能時時刻刻協(xié)助它的多家下屬公司、解決各種數(shù)據(jù)問題的數(shù)據(jù)科學家是多有裨益的。就當下而言,數(shù)據(jù)科學專家不容易找到,但也并不是完全不可能。我覺得在未來幾年,越來越多的人會給予這類專家更高的待遇和重視。
您能向我們讀者介紹一下紐約的數(shù)據(jù)社區(qū)嗎?
紐約不是一個科技城市。這個城市的金融、出版、媒體、流行、美食以及其他一些行業(yè)更為著名。這是一個無所不有的城市,所以我們在城市的每一個角落都可以看到數(shù)據(jù)。在紐約從事數(shù)據(jù)科學的人,幾乎遍布你能想象到的所有行業(yè)領(lǐng)域。這正是這座城市的魅力所在。
你會看到公務員們在市長辦公室使用數(shù)據(jù)來談論他們的工作,科學家們在用數(shù)據(jù)展示、討論他們的科研成果,健康領(lǐng)域的人在使用數(shù)據(jù)治療癌癥,甚至于媒體界也在使用數(shù)據(jù)分析新聞。你會看到無論是初創(chuàng)公司還是大型企業(yè),他們都在熱情洋溢地坐在一起討論他們是如何運用數(shù)據(jù)的。
DataGotham是我們致力于讓更多這樣的數(shù)據(jù)分析需求得到人們重視而所做的一次嘗試。我們開始這個項目的宗旨就是:“無論你從事什么行業(yè),如果你關(guān)心數(shù)據(jù),就來我們這里,與其他志同道合的人一起探討?!蔽艺J為這個項目非常成功。紐約的數(shù)據(jù)社區(qū)就是在這樣的靈感中誕生的。
您認為數(shù)據(jù)科學未來會在其他方面有哪些改變?在您的設想中,未來5年數(shù)據(jù)科學領(lǐng)域會變成什么樣子?
5年是非常長的一段時間了。如果你回看5年以前,數(shù)據(jù)科學在那時甚至還不存在,而即使是在當下,它也尚在一個茁壯成長的萌芽過程中。未來5年,很多事情都會發(fā)生轉(zhuǎn)變。我不能具體地說出未來5年會發(fā)生什么,但是可以做一些猜測與展望。
首先的一個變化就是,當下這種野蠻生長、孤立無援的局面將不復存在。我認識很多出色的數(shù)據(jù)科學家,他們供職于計算機科學、物理學、數(shù)學、統(tǒng)計學、經(jīng)濟學、心理學、政治科學、新聞業(yè)等各種行業(yè)。他們正在興致盎然地轉(zhuǎn)向數(shù)據(jù)科學,而他們中的許多人其實都沒有學術(shù)背景。這樣的轉(zhuǎn)變正在發(fā)生著——今天,你甚至可以直接在碩士階段選擇數(shù)據(jù)科學專業(yè)。
也許在未來,越來越多來自不同領(lǐng)域背景的新鮮血液進入這個領(lǐng)域之后,他們之間的交流合作會讓數(shù)據(jù)科學的輪廓框架日漸清晰,讓我們自身也對于它有更為深入的了解,并且迸發(fā)出更多的創(chuàng)意和點子。而這可能會是一把“雙刃劍”。
我們在城市的每一個角落都可以看到數(shù)據(jù)。在紐約從事數(shù)據(jù)科學的人,幾乎遍布你能想象到的所有行業(yè)領(lǐng)域。這正是這座城市的魅力所在。
第二個變化就是,這么說吧,假如未來5年,我依然在寫Java代碼的話,我很可能要遇到難以逾越的瓶頸!我們的工具一定會變得比現(xiàn)在好用很多的,這樣的情況同樣也已經(jīng)在發(fā)生了。這簡直不能被稱為“猜想”了,因為我知道在數(shù)據(jù)科學領(lǐng)域,這樣的革命正在進行。
5年以前,大部分數(shù)據(jù)公司都著力于創(chuàng)造基礎設施,例如研發(fā)各種不同類型的數(shù)據(jù)庫。他們致力于開發(fā)的工具大多是用于管理時間序列數(shù)據(jù)的。但是現(xiàn)在,這個領(lǐng)域的基礎設施已經(jīng)非常成熟了,我們現(xiàn)在看到公司正在想辦法讓這些原本笨拙復雜的數(shù)據(jù)設備變得簡單易用。所以現(xiàn)在你可以看著一個個漂亮的儀表盤,在大屏幕上輸入你的查詢語句,然后你的命令就會轉(zhuǎn)向后臺,自動進行map-reduce運算,而不再需要像以前一樣,一邊抱怨,一邊花費40小時去絞盡腦汁地編寫并行運算算法。我認為工具的簡單易用就是一種趨勢,未來會越來越常見。
文化同樣也是一個將會發(fā)生顯著變化的方面。我認為數(shù)據(jù)文化(data culture)將會越來越流行,即使對于并不從事數(shù)據(jù)科學的人來說也一樣。這意味著在許多公司里,你將會看到很多人的頭銜并不是“數(shù)據(jù)科學家”,但是他們也做著差不多的事情。在他們需要統(tǒng)計數(shù)據(jù)庫里的一些數(shù)據(jù)的時候,他們再也不需要尋求統(tǒng)計學家的幫助——他們自己也可以搞定。我對此是非常期待的。我始終堅信數(shù)據(jù)可以賦予人們做出更好的決策的能力,所以越多的人參與這項事業(yè),對這個領(lǐng)域的發(fā)展必然越好。
如果在未來,幾乎每一個公司里都有這樣有數(shù)據(jù)意識的人,您覺得數(shù)據(jù)科學家的角色會發(fā)生什么變化嗎?
數(shù)據(jù)科學家會不斷地詢問問題。在任何時候,問對問題都很不容易,例如你在面對一個復雜的商業(yè)難題時該怎么入手?有哪些問題需要解決?這些都很不容易看出來。另外,如何解讀數(shù)據(jù)分析的結(jié)果也是一個難題。數(shù)據(jù)科學家可能會成為像教練一樣的人,在他們的領(lǐng)域內(nèi),針對他們一直以來致力解決的問題,他們慢慢會成為那方面的權(quán)威專家。
數(shù)據(jù)科學家以及數(shù)據(jù)團隊能做的事情眾多,遠遠不止上述的商業(yè)智能領(lǐng)域。他們可以做算法工程,創(chuàng)造新穎的產(chǎn)品,收集數(shù)據(jù)集,為產(chǎn)品尋找以及打開潛在的市場與生意。所以我從來不覺得數(shù)據(jù)科學家們會像明日黃花一般日暮西沉。
在談論數(shù)據(jù)科學的時候,您特意強調(diào)了溝通能力和講故事的能力,您可以更多地介紹一下嗎?
一名數(shù)據(jù)科學家就是腦子里想著問題、靜靜地坐在計算機前的人,然后他會開始收集數(shù)據(jù),用數(shù)據(jù)去解決問題、回答問題。抑或他是一個一開始擁有一批數(shù)據(jù)的人,然后他開始針對這批數(shù)據(jù)問出問題,并且嘗試去深入理解它。他會做一些數(shù)學推導、寫一些代碼、做一些分析,然后最終得到一些結(jié)論,再然后呢?
他需要把從數(shù)據(jù)中分析得到的東西告訴別人,讓更多并沒有參與這個研究過程的人也知道結(jié)論是什么。創(chuàng)造一個有信服力并且精彩的故事,同時要保證故事尊重數(shù)據(jù)事實,這可不是容易的事情。這一項技能在眾多技術(shù)行業(yè)里都被忽視了。但事實就是,如果你不僅能做出一些東西,還能很好地解釋它們,這會讓你異常出彩。但是,我不認為這是一件容易的事。
為什么它不容易?為什么用簡練的語言解釋一些東西是非常困難的?
之所以難,是因為它需要同理心。你當然必須要理解那些非常復雜以及學術(shù)性的技術(shù),但同時你需要對一些完全沒有技術(shù)背景的人講解這一切。你必須要清楚他們是怎么想的,這樣你才能用他們能夠理解的語言來講述這一切。同時,你必須要考慮到,你的聽眾只有很短的一段時間能集中精力,他們很快就會變得不耐煩,并且他們絕對不會花費大量的時間去學習這些知識或者技術(shù)。
我始終堅信數(shù)據(jù)可以賦予人們做出更好的決策的能力,所以越多的人參與這項事業(yè),對這個領(lǐng)域的發(fā)展必然越好。
所以你必須要想辦法用你的語言,或者可視化的工具方法,來讓你的聽眾理解你所做的東西,這樣才不枉你花費大量的時間去建立復雜的模型。當你這樣去看這個問題時,就會覺得能夠在自身了解清楚各種復雜技術(shù)的情況下,用精練準確的筆觸把這一切寫下來,然后與其他人進行溝通,分享數(shù)據(jù)分析背后的知識和興趣,這是一件多么讓人激動的事情。
當你像這樣去思考這個問題的時候,就會發(fā)現(xiàn)“講故事”確實是非常困難的技能,就像是藝術(shù)一樣。你需要努力將曠日持久的學習經(jīng)驗和復雜工作,以人們可以理解的一種方式娓娓道來。
您之前說過,一些初創(chuàng)公司擁有非常好的數(shù)據(jù)科學工作機會?;谀?jīng)在Bitly和咨詢初創(chuàng)公司的工作經(jīng)歷,您能不能更多地解釋一下?
我不得不說,我在最好的數(shù)據(jù)科學工作機會這個問題上是有一些個人偏好的。最好的數(shù)據(jù)科學工作機會,就是那種你有足夠的自由度去收集數(shù)據(jù)的工作機會。而你收集來的數(shù)據(jù)經(jīng)常是你一直在努力創(chuàng)造的一個產(chǎn)品的“副產(chǎn)品”。
Bitly就是一個這樣的例子——更短的URL可以讓你的公司網(wǎng)站更快、更容易地在互聯(lián)網(wǎng)上傳播復制。針對人們在互聯(lián)網(wǎng)和社交網(wǎng)站上傾向于點擊什么網(wǎng)址、分享什么網(wǎng)址,人們收集了一批非常好的數(shù)據(jù)。但是僅此而已,從來沒有人真正從頭開始、踏踏實實地做一個專門用于縮短網(wǎng)址的產(chǎn)品,然后用它來進行分析:卡戴珊(Kardashian)在采用了“Kim”的縮寫名之后,有沒有變得更受歡迎。Bitly的創(chuàng)始人John Borthwick稱這樣的“副作用”為“數(shù)據(jù)尾氣”,這實在是一個非常可愛的名字。
換言之,如果你是學術(shù)界的人,你可能沒有機會擁有一個可以不斷為你產(chǎn)生數(shù)據(jù)的產(chǎn)品。這導致在你開始做想做的事情之前,必須要做一些額外的工作(來產(chǎn)出數(shù)據(jù))。你需要想辦法自己產(chǎn)出數(shù)據(jù),或者去大公司乞求他們施舍你一些數(shù)據(jù)。這一切都是非常不容易的,因為絕大多數(shù)公司根本不愿意分享數(shù)據(jù)。實際上,他們對于數(shù)據(jù)都有非常強的獨家占有意識。所以,作為一名科研工作者,你可能會覺得自己在這個問題上進退兩難,除非你可以與公司里那些家伙把關(guān)系搞得非常好。
如果你供職于一家大企業(yè),你想要的數(shù)據(jù)可能已經(jīng)深埋在公司那堆成山的、無法運轉(zhuǎn)的數(shù)據(jù)庫里了?;蛘吣阈枰獎佑脤訉盈B疊的批準文件,才能獲得你想要的數(shù)據(jù)。
如果你所在的初創(chuàng)公司擁有一個可以產(chǎn)出數(shù)據(jù)的產(chǎn)品,那么這絕對是最完美的地方了。作為一名數(shù)據(jù)科學家,你有能力去修改產(chǎn)品的參數(shù),從而讓它產(chǎn)出其他的一些數(shù)據(jù),所以你可以問“我們可以采集一些其他數(shù)據(jù)嗎?”或者“你覺得如果我們這樣做,會不會發(fā)現(xiàn)其他一些好玩的東西?”一類的問題,這樣非常開放自由的環(huán)境正是最適合數(shù)據(jù)科學家工作的地方。
在數(shù)據(jù)中,我們總是可以發(fā)現(xiàn)很多有趣的東西。這樣的過程非常有意思,并且這也確實是工作的一個好選擇。
您可以對有志于加入數(shù)據(jù)科學初創(chuàng)公司的人給予什么建議嗎?一個新人應該如何選擇公司?
試著去了解一個初創(chuàng)公司的文化。一般來說初創(chuàng)公司的文化都很好——一個原因是初創(chuàng)公司都比較自由隨和,文化上也比較多元包容。你可能會發(fā)現(xiàn)有些公司非常適合你,但有些就不太適合。這并不代表你本人不夠優(yōu)秀,僅僅是因為這個公司不適合而已。
如果你所在的初創(chuàng)公司擁有一個可以產(chǎn)出數(shù)據(jù)的產(chǎn)品,那么這絕對是最完美的地方了。
正如我之前說的,很多公司現(xiàn)在都在招聘他們的第一位數(shù)據(jù)科學家。而大部分的數(shù)據(jù)科學家其實都對這個工作沒有任何經(jīng)驗,所以想要找到那種能迅速投入工作、完成別人力所不能及的任務的數(shù)據(jù)科學家是非常難的事情。我會弄清楚,我將需要合作的人(無論是你的COO、CTO還是CEO)對于招聘數(shù)據(jù)科學家這件事情有足夠清楚的認識。至少他們必須是那種你可以合作,一同分析探討你應該如何努力做事情的人。
對于工作的優(yōu)先級以及應該在什么項目上花時間,您有什么心得可以分享嗎?
在工作中,有一個無限長的待辦事項清單等待你去解決——你如何選擇那個能夠帶來最顯著影響的問題?如果在你的公司,CEO一直在催促你做出一些用于董事會會議的PPT,銷售主管總是在催促你給他數(shù)據(jù)……但是在這個時候,你有一個覺得非常有意思的項目——但是他們所有人都對這個項目完全不感興趣,僅僅是因為他們沒有和你一同坐下來探討分析這個問題,這個時候你又該怎么辦?
如果你正在尋找的數(shù)據(jù)科學家工作是你的第一份工作,那么你應努力確保主管上司能夠成功管理項目進度。這說起來容易,但如果你真的是一位主管,你就會發(fā)現(xiàn)這事兒不像外行看起來那么容易。這是一項你必須要磨礪的技能。如果你要成為一名主管,我建議你思考下面的一系列問題——如何同時推進幾個項目的進度?如何讓項目之間的成員有所交流?如何讓項目的進度趕得上公司其他部門的進展?
您還有其他建議可以給我們嗎?
尋找好的數(shù)據(jù)集。當我面試那些尋求數(shù)據(jù)科學職位的人的時候,他們往往已經(jīng)花了一些時間與我團隊內(nèi)的人溝通交流了。我會說:“現(xiàn)在你已經(jīng)知道我們在做什么了。如果我現(xiàn)在問你,你有沒有發(fā)現(xiàn)什么我們整個團隊一直都沒有想到的好主意或者分析方法,你腦子里第一個閃過的答案是什么?”我其實并不關(guān)心答案是什么,但是我想要知道他有沒有能力去構(gòu)思這個數(shù)據(jù)集是什么樣的,并且獨立地想出一個角度來運用這批數(shù)據(jù)。
針對上述的問題,我從面試者中收到的大部分答案都是我們已經(jīng)思考過的。我并不指望這些面試的人可以在那么短的時間內(nèi)迸發(fā)出一個絕頂聰明的點子,但是他們的答案會反映出他們內(nèi)心有沒有我們最期待看到的創(chuàng)造力。如果你一直以來都期待加入某些公司或者項目組,成為他們其中的一員,但你對于自己將要參與的事業(yè)卻沒有任何的想法,那這就有問題了。你應該要能想到一些讓你自己都為之喝彩、激情澎湃的點子。
對于在公司工作的人們來說,各種事項的優(yōu)先級應該是怎么樣的?應該如何做出對公司有重大影響力的產(chǎn)品和工作?
就以我在Bitly工作的經(jīng)歷為例吧,針對我們所面對的每一個數(shù)據(jù)項目,都有一系列的問題亟待解決。這些問題的優(yōu)先級排序不僅僅是我們個人(團隊)的問題,更是整個公司的問題,因為只有恰當?shù)呐判虿拍茏尮镜钠渌块T了解我們項目的進度。
在工作中,有一個無限長的待辦事項清單等待你去解決——你如何選擇那個能夠帶來最顯著影響的問題?
第一個問題是,我們能不能清楚地定義這個問題?我覺得一個很好的辦法就是,把這個問題用最簡潔的語言描述出來,寫在一張白紙上,讓所有人都明白我們想要做什么。
第二個問題是,我們怎么估計何時順利完成這個項目?我們應該用什么成敗指標來判斷我們針對某個問題的解決方案是不是成功的?例如,如果你項目的算法根本無法返回一個可以量化的指標,你至少應該寫清楚這個項目的量化指標不能是一個簡單的數(shù)字。
第三個問題是,假設我們最終可以完美地解決這個問題,我們應該首先從什么地方入手?我問這個問題的目的是確保每一個項目都時刻與公司的業(yè)務和產(chǎn)品相關(guān),而不能僅僅因為我們對某些東西好奇就花費大量的人力、物力去一探究竟。所以針對項目,在入手的第一步,就要有一個長期的規(guī)劃,確保我們可以通過這一階段的工作,更深入地了解數(shù)據(jù)。
對于所涉及的每一個數(shù)據(jù)項目,你需要不斷問自己以下幾個問題:我正在做什么事?我如何估計工期還有多長?這項工作會帶來什么影響?如果你不斷地問自己上述這些問題,你就會知道有沒有把自己的時間合理地投資在正確的方向上。
您有沒有例子來更好地說明如何通過詢問自己這些問題來理解項目?
例如,你手頭有一個項目:“土耳其用戶與美國用戶在日常的行為上有差異嗎?”這是一個與市場有緊密關(guān)聯(lián)的問題,對于那些在土耳其有銷售業(yè)務的美國公司來說尤其如此。
項目的遠期目標應該是著力于了解是否地緣差異會影響用戶們的生活習慣,以及如果確實有影響的話,差異具體是什么。你應該時刻注意在短期目標和遠期目標之間取舍平衡,進而根據(jù)你的數(shù)據(jù)建立一個完整的、針對這個問題的知識庫。
最后一個問題是,假設一切都進展得很順利,而且全球很多人都接納了我們的分析結(jié)論,這會對人們的行為產(chǎn)生什么影響?這個問題是非常重要的,因為我總是確保團隊成員著力于解決具有最大影響力的任務。
另外有一個我也經(jīng)常會問自己的問題就是,針對這個問題我們能做的最邪惡的事情是什么?如果我是一個居住在火山洞穴里、非常邪惡瘋狂的科學家,并且我擁有這樣的技術(shù)和知識,我會用這一批數(shù)據(jù)做什么邪惡的事情?從這樣的角度出發(fā)去想問題,你可以獲得很多非常有創(chuàng)意的答案,而實際上這其中的大部分想法都并不邪惡。但是我覺得這是一個開腦洞的好辦法。
您剛才針對數(shù)據(jù)科學家應該如何選擇初創(chuàng)公司給出了建議。我想把這個問題反過來——對于新的初創(chuàng)公司來說,他們應該如何打造自己的數(shù)據(jù)科學團隊呢?
這是非常有挑戰(zhàn)性的一件事情。在大多數(shù)時候,對于數(shù)據(jù)科學家在公司里應該扮演什么角色這個問題,人們總是見仁見智的。這就意味著,至少公司的創(chuàng)始人和經(jīng)理層需要對于這個問題有正確且透徹的認識。
也許你想要一些商業(yè)分析報告、產(chǎn)品分析報告、計算一些指標?;蛘吣阕约簩τ跀?shù)據(jù)有一個很好的點子——例如類似于推薦系統(tǒng),或者比這還要有創(chuàng)意的東西。但是想要找到一個人,幫你做出這一切東西,并且他有能力幫助你在公司里建立起一個數(shù)據(jù)團隊,這可不容易。
對于你所涉及的每一個數(shù)據(jù)項目,你需要不斷問自己以下幾個問題:我正在做什么事?我如何估計工期還有多長?這項工作會帶來什么影響?
在招聘的時候,你應該做的事情就是尋找那些能快速學習的人、有非常多創(chuàng)意的人、能夠靈活變通的人,以及能夠與你公司的軟件工程開發(fā)部門通力協(xié)作的人,因為他們最終會一起合作。他們需要有能力和運維數(shù)據(jù)庫的人成為好朋友,因為只有這樣他們才能從數(shù)據(jù)庫中獲得所需的數(shù)據(jù)。同時他們也要能和產(chǎn)品部以及市場部的同事溝通聊天,一同探討問題商量產(chǎn)品策略。
這就意味著你也許要考慮那些雖然沒有20年的漫長數(shù)據(jù)科學經(jīng)驗,但是可以快速學會新技術(shù),并且愿意與公司產(chǎn)品業(yè)務一同進步的人。你要意識到這樣的人最終會給你帶來一個出色的團隊,而他們本身也會慢慢成為公司管理層的一員,成為公司的中堅力量。
大部分初創(chuàng)公司的成功招聘案例都是在正確的時間,找到了最適合公司的正確的人。這背后并沒有可以列出來的公式和指標——簡而言之,這是一個需要雙方都能共贏的事情。
現(xiàn)在很多畢業(yè)生都在糾結(jié)去大公司工作還是小公司打拼,對此您有什么建議嗎?
我個人覺得找小公司是一個不錯的主意。準確來說,我的想法是努力找到一個在未來一年以內(nèi)可以與你共事合作,并且能給你帶來很多啟發(fā)和教導,類似于一位出色的導師的人物。但是不要僅僅因為某些小公司聽起來很酷就草率地加入他們。最好去那種你覺得“我在未來一年可以從那個公司里學到很多東西,并且我覺得在那里工作很快樂,我愿意待更久的時間”的公司。
在你加入公司一年以后,可以重新評估一下自己。我還在繼續(xù)學到東西嗎?我依然喜歡我所從事的事情嗎?如果你對于這些問題的答案都是否定的,那么你就可以考慮去尋找下一個可以學到東西的公司了。走出學校、初入職場的那幾年學到的東西,將會對你的職業(yè)生涯產(chǎn)生巨大的影響,并且實現(xiàn)你的第一次知識積累,所以最好去那些你能學到最多東西的地方。我覺得,從這個角度出發(fā)去思考去大公司還是小公司這個問題將會好很多。
對于學生選擇公司,您還有其他什么建議與忠告嗎?
我知道在你們尋找工作的時候,大部分人都會優(yōu)先考慮工資待遇和工作地點。我也很重視住在我喜歡的城市里,否則你每天的生活都不會開心,相比于工資,我更看重這一點。但是最重要的一點還是,要選擇一個對自己有挑戰(zhàn)性的工作,并且要和能教會你很多東西的人在一起。
例如,我曾經(jīng)在AT&T實驗室做研究,我非常喜歡那個地方。那個是個無與倫比的地方,擠滿了聰明絕頂?shù)娜?。但是我不喜歡住在新澤西州,每天通勤往來于城市花園大道簡直就是噩夢。對于這個問題,你必須要自己想辦法找到其中的平衡點,來確保你工作的公司是一個你喜歡的地方,并且能從中學到很多東西。
相比于你以后幾年的工資,你初入公司的年薪是10萬元還是20萬元,其實真的不重要。相比于住得舒心、吃得好、生活愉悅,我不會太重視第一份工作的工資。
對于那些有志于成為頂尖數(shù)據(jù)科學家的人,您有什么建議嗎?
大部分人都懼怕起步的階段,因為他們很怕因為初入領(lǐng)域而犯下一些愚蠢的錯誤,進而招致人們的笑話。是的,你會犯下一些愚蠢的錯誤,但是實際上人們往往比你想象的要友好很多,而且就算真的有人嘲笑你,你也不用太走心。
我的建議是,如果你確實對于數(shù)據(jù)科學有興趣,就嘗試去做它!現(xiàn)在網(wǎng)絡上有這么多可用的數(shù)據(jù)集。我有Bitly公司曾經(jīng)總結(jié)的100個開源的高質(zhì)量數(shù)據(jù)集,你可以在這個鏈接里找到:bitly.com/bundles/hmason/1。你也可以找到一大堆方便的開源API。你可以充分發(fā)揮自己的創(chuàng)造力去做任何事。
所以最好去那些你能學到最多東西的地方。
嘗試去做一個最符合你的優(yōu)勢技能的項目。總體上,我把數(shù)據(jù)科學家的工作分為3個板塊:統(tǒng)計、代碼以及講故事/可視化。這3個板塊中你最擅長的方面是哪個,你就盡量選擇最需要這方面技能的項目。然后下一步,做一個著重點在你最不擅長的板塊上的項目。這會幫助你盡快地成長,學到新的東西,并且搞清楚自己下一步的學習方向,然后順水推舟地學下去就好。
這樣做有幾點優(yōu)勢。首先,你知道數(shù)據(jù)科學是什么樣的,對于它的輪廓有了一個宏觀的概念。大部分數(shù)據(jù)科學家需要花費大量時間寫Hadoop腳本,這其中可沒有什么樂趣——但是你還是應該體驗一下這是什么感覺。
其次,你可以做出一些用于展覽的東西。你可以告訴別人你做了一個多么酷炫的工作,而人們也會興致勃勃地聽你講述。他們不會覺得你一直在做無用功或者你糟糕透了,他們將會說:“哇,這是你做的?太酷了!”而這樣的成功也將會幫助你找到一份工作。
以我的一個朋友Hillary Parker為例,她在Etsy的分析團隊工作。在找到這一份工作之前,她針對小孩的名字做了一個精彩的分析報告,揭示了“Hillary”(希拉里)這個名字在美國歷史上是如何變得流行的。本來這個名字處于正常的緩慢增長階段,但是在比爾·克林頓成功競選成為美國總統(tǒng)以后,該名字的使用數(shù)量開始激增,而最近它又開始快速地增長(希拉里·克林頓開始參選美國總統(tǒng))。我很喜歡用這個例子說明問題,因為我自己的名字就是Hillary。她把這個分析結(jié)果放在自己的博客上,而最終這個結(jié)果刊載到了New York Magazine上——我認為她做的事情對于她的求職絕對有莫大的幫助,因為這項工作充分證明了她對于數(shù)據(jù)科學有著清晰的認識。