隨著計算機存儲技術(shù)的發(fā)展,各行各業(yè)(包括金融證券保險、游戲、咨詢、醫(yī)療、能源、通信、零售、體育等)都可以從其大數(shù)據(jù)的采集、傳輸、存儲、分析等各個環(huán)節(jié)產(chǎn)生巨大的經(jīng)濟價值,如此巨大的數(shù)據(jù)需要專業(yè)的人士去發(fā)現(xiàn)以及挖掘出有用的信息,給企業(yè)各個層面提供技術(shù)支持和決策引導(dǎo),數(shù)據(jù)分析師應(yīng)運而生。目前市場上合格的
大數(shù)據(jù)分析人才稀缺,所以
大數(shù)據(jù)分析師的薪資非常高,進入行業(yè)越早的
大數(shù)據(jù)分析師,隨著實踐經(jīng)驗的增加,身價越來越高。
職業(yè)發(fā)展與薪資
數(shù)據(jù)分析師的發(fā)展方向概括下來有兩個:一個方向是業(yè)務(wù)分析師(偏業(yè)務(wù)分析),另一個方向則是數(shù)據(jù)挖掘工程師(偏數(shù)據(jù)挖掘建模)。
業(yè)務(wù)分析師
業(yè)務(wù)分析師一般從業(yè)務(wù)的角度出發(fā),為公司的其他部門(比如:運營、產(chǎn)品等)提供業(yè)務(wù)方面的數(shù)據(jù)服務(wù),具體內(nèi)容如下:
報表開發(fā):其他業(yè)務(wù)部門(如運營部、產(chǎn)品部等)會提一些需求過來,需要數(shù)據(jù)分析師幫他們做一下常規(guī)的日報、周報、月報等;
數(shù)據(jù)監(jiān)控:數(shù)據(jù)部門經(jīng)常會根據(jù)業(yè)務(wù)需求,對關(guān)鍵性的指標(biāo)進行監(jiān)控(如活躍度指標(biāo)、轉(zhuǎn)化率指標(biāo)、留存率等指標(biāo)),監(jiān)控不是問題,問題是數(shù)據(jù)出現(xiàn)波動后的查因及解決方案;
數(shù)據(jù)化運營:說白了就是讓數(shù)據(jù)指導(dǎo)運營決策、驅(qū)動業(yè)務(wù)增長。需要將數(shù)據(jù)分析師與一線運營者的各自優(yōu)勢進行搭配,實現(xiàn)數(shù)據(jù)功效的最大化;
輸出分析報告:需要數(shù)據(jù)分析師根據(jù)目標(biāo)項目,整理出一系列相關(guān)的分析報告,包括可視化的數(shù)據(jù)展現(xiàn)、問題的原因、可執(zhí)行的行動方案、預(yù)期的效果等等。
對于數(shù)據(jù)分析師而言,以上的工作絕大多數(shù)通過Excel和SQL查詢語句就能搞定了。最關(guān)鍵的是數(shù)據(jù)分析思維和業(yè)務(wù)的理解,每個人所展現(xiàn)出來的能力都會有所區(qū)別和高低,關(guān)于這方面的培養(yǎng)可以多跟公司的運營部門同事交流、查看運營相關(guān)的書籍或者與有經(jīng)驗的數(shù)據(jù)分析師進行探討等。
數(shù)據(jù)挖掘工程師
對于數(shù)據(jù)挖掘工程師而言,更多的則是根據(jù)不同的技術(shù)性項目(如何實現(xiàn)動態(tài)定價、如何預(yù)判某個事件的好壞、如何識別出不同價值的客戶等)來完成挖掘相關(guān)工作,甚至有時并不需要對數(shù)據(jù)業(yè)務(wù)非常的熟悉。對于數(shù)據(jù)挖掘來說,具體有以下這些流程步驟:
明確問題:在進行一項數(shù)據(jù)挖掘項目之前,首先需要明確待解決的問題是什么?這個問題是否可以通過挖掘技術(shù)(預(yù)測、分類、聚類、關(guān)聯(lián)、推薦等)解決;
數(shù)據(jù)抽?。阂坏┟鞔_了問題需求,就需要查找跟問題相關(guān)的數(shù)據(jù),即從數(shù)據(jù)庫中抽取出解決問題的支撐數(shù)據(jù)、甚至是結(jié)合第三方數(shù)據(jù)(數(shù)據(jù)共享、爬蟲、合作等);
數(shù)據(jù)清洗:由于現(xiàn)實中的數(shù)據(jù)存在異常、缺失、量綱不一致、口徑不一致等問題,需要提高數(shù)據(jù)質(zhì)量,否則算法再優(yōu)秀,結(jié)果也是有問題的;
特征工程:在干凈的數(shù)據(jù)基礎(chǔ)上還需進一步完成特征的提取,目的是降低模型復(fù)雜度的同時下找到影響問題的核心變量(因素);
建模:根據(jù)問題類型(預(yù)測型、分類型等)選擇合適的模型(同類問題不同模型的試算對比)進行擬合;
模型驗證:模型建好后,接下來就是要驗證模型在樣本外的表現(xiàn)如何了,一定要避免模型出現(xiàn)過擬合或欠擬合的狀態(tài);
迭代及部署:整個步驟都是一個迭代的過程,因為數(shù)據(jù)在變動,模型也會跟著變動,通過不斷迭代找到最理想的模型然后實現(xiàn)線上的部署工作;
在這些過程當(dāng)中,絕大多數(shù)時間都會花費在數(shù)據(jù)抽取、清洗和特征提取上,而后面的建模、驗證和部署則是水到渠成的事了。再一次強調(diào),如果選擇數(shù)據(jù)挖掘這個方向的話,必須具備強悍的數(shù)學(xué)功底和編程技術(shù)。
技能要求
入行數(shù)據(jù)分析師還是需要一些基本技能的,例如Excel技能、數(shù)據(jù)庫操作(MySQL/SQL Server/Oracle/Hive等)、Tableau可視化、R或Python的編程能力等。下圖是一家互聯(lián)網(wǎng)企業(yè)發(fā)布的數(shù)據(jù)分析師的任職要求,可以看得出數(shù)據(jù)分析師崗位對于分析軟件有著有多樣性要求,單純熟練某一種軟件在工作選擇時可能會受到限制。
這些都是企業(yè)在招聘數(shù)據(jù)分析師時提到最多的“任職資格”,其實這也都是技能門檻。如果這些你還沒有接觸過,可以在準(zhǔn)備入行前花1~6個月去充充電,可以選擇閉關(guān)修煉、或觀看學(xué)習(xí)視頻、或挑選口碑比較好的全日制班、周末培訓(xùn)班。