干貨分享:數(shù)據(jù)分析師應(yīng)掌握的核心技能和思維
大數(shù)據(jù)
發(fā)表時間:2018/12/5 10:30:40??作者:sjfx??
大數(shù)據(jù)
發(fā)表時間:2018/12/5 10:30:40??作者:sjfx??
對于很多剛開始學習數(shù)據(jù)分析的人來說,最常被問道的問題就是:我感覺自己掌握了很多數(shù)據(jù)分析技術(shù)啊,但好像又什么也做不了。
拿到一堆數(shù)據(jù),根本不知如何下手,從哪里開始分析?
統(tǒng)計分析、建模一頓騷操作,得出的結(jié)論竟然只是常識?
簡單、規(guī)整的數(shù)據(jù)能夠下手,遇到雜亂、多文件數(shù)據(jù)就懵逼?
………
這些問題看似簡單,但是確實是大部分的人在學習過程中都會遇到的問題。真正去學習數(shù)據(jù)分析的人,都會有這樣的感覺:數(shù)據(jù)分析本身并不困難,難的是真正獲得能夠支撐決策的結(jié)論。
就好像,即便你熟讀Python各種語法,依然不能寫出自己的程序一樣。就是算你有一把鋒利無比的劍,你不懂得招式方法,不懂馭劍之術(shù),那就是一把廢鐵。
所以真實的數(shù)據(jù)分析應(yīng)用,應(yīng)該是工具與方法、邏輯、思維的結(jié)合,你僅掌握了工具(而且深入不夠),自然不能得心應(yīng)手。
那么到底應(yīng)該掌握哪些技能,掌握到什么程度,才能夠勝任真正的商業(yè)分析和職位需求呢?我們分別從技術(shù)、方法和業(yè)務(wù)三個方面來說明。
關(guān)于技術(shù)
技術(shù)應(yīng)該是最能夠直觀感受的層面,請別人推薦書單、尋求專業(yè)人士的指導(dǎo),搜索系統(tǒng)的教程,幾乎都是去解決技術(shù)層面的問題。
通常我們?nèi)ヌ嵘夹g(shù),無非是找一個資源,然后開始啃。比如要偶然聽說要學Python,就哼哧哼哧開始數(shù)據(jù)結(jié)構(gòu)、語句、函數(shù)、面向?qū)ο蟆?;?shù)據(jù)庫要學習,就找來《十日精通mySQL》《MongoDB速成指南》……
這樣毫無目的的學習,是一件收益極低的事情,且不說這樣系統(tǒng)地啃大塊頭,很容易從入門到放棄,即便真正學習了一些東西,沒有真正的輸出,知識很快就不是你的了。
所以對于沒有什么數(shù)據(jù)分析經(jīng)驗的人,更建議明確數(shù)據(jù)分析的流程,針對每個流程做針對性的學習,并在每個部分做實際的訓練和內(nèi)容輸出。
我們通常把一個數(shù)據(jù)分析項目的技術(shù)流程分為“數(shù)據(jù)預(yù)處理、統(tǒng)計分析、探索性分析、預(yù)測性分析、可視化及報告”,那么我們就需要針對每個流程進行針對性的訓練。
01 數(shù)據(jù)預(yù)處理
數(shù)據(jù)清洗雖然是“臟活”,但卻是后續(xù)分析的重要保證。比如企業(yè)用戶的數(shù)據(jù),大量的缺失、異常、錯誤,要怎樣將數(shù)據(jù)標準化?
這里面就涉及到數(shù)據(jù)的切片、拼接、過濾、排序以及基本的索引與運算,很多時候,數(shù)據(jù)清洗能夠幫助我們掌握數(shù)據(jù)分布的基本特征,獲得對整體數(shù)據(jù)的初步感覺。
02 統(tǒng)計分析
基礎(chǔ)統(tǒng)計分析可以讓我們直觀地對數(shù)據(jù)進行描述,比如基本的統(tǒng)計量(極值、均值、中位數(shù)、眾數(shù)、方差等),其實就可以為我們提供基礎(chǔ)的描述性分析結(jié)論。
常見的排行榜、中位數(shù)對比、平均水平、相關(guān)性、影響因素等等結(jié)果,都可以從基本統(tǒng)計分析中得出,需要你要掌握基本的科學計算工具。
03 探索性分析
相對于有目的的統(tǒng)計分析(當然統(tǒng)計也可理解為探索),探索性分析適用于我們對數(shù)據(jù)中的信息缺乏經(jīng)驗的場景。通過數(shù)據(jù)可視化的方式,對數(shù)據(jù)進行更直觀的展示,很多直接觀察得不到的結(jié)論,通過圖形卻能夠很好地掌握。
比如數(shù)據(jù)的分布規(guī)律、數(shù)據(jù)的變化趨勢……這就要求你能夠針對不同類型的數(shù)據(jù),輸出適合的圖形(常見的條形圖、箱線圖、散點圖、熱力圖、地圖等),從中獲得信息。
04 預(yù)測性分析
對未來數(shù)據(jù)進行預(yù)測,往往能夠獲得比較有指導(dǎo)意義的結(jié)論。這就要涉及基本的建模知識,像基本的線性回歸、邏輯回歸、決策樹等模型,一般就可以建立不錯的預(yù)測模型了。
做數(shù)據(jù)預(yù)測往往能直接提升我們的技術(shù)深度,往往一個優(yōu)秀的數(shù)據(jù)分析師,也算是初級的數(shù)據(jù)挖掘工程師了。
關(guān)于方法論
為什么我們要說方法論呢?因為這在某種程度上,為我們做具體的數(shù)據(jù)分析項目提供了方向。
很多時候,我們拿到一個數(shù)據(jù)集、或者遇到一個分析問題,無從下手,很大的可能不是技術(shù)不足,而是缺少分析方法。
比如即便是最簡單的統(tǒng)計分析,統(tǒng)計量的理解要非常深刻。哪些字段應(yīng)該求和;哪些字段應(yīng)該取均值;哪些字段應(yīng)該進行方差分析;哪些應(yīng)該進行頻率統(tǒng)計……這些都是建立在你對統(tǒng)計分析理解的基礎(chǔ)上。而僅僅是這些分析,就足夠得出有價值的結(jié)論。
而對于剛上手數(shù)據(jù)分析的小白來說,探索性分析則是彌補方法論不足的重要方式。所以可視化的技能就顯得尤為重要,有人認為可視化是單純做最后的結(jié)論展示的,但事實上,可視化是進行數(shù)據(jù)分析的重要步驟。所以,盡可能多地用圖形去觀看探索數(shù)據(jù)內(nèi)部的規(guī)律,是獲得數(shù)據(jù)中隱藏信息的關(guān)鍵步驟。
這些比較通用的方法,只要你多做幾個項目,你就會有一些初步的感覺:哪些統(tǒng)計信息是有用的,哪些字段的信息是相對重要的,這就是我們常說的數(shù)據(jù)思維。
當然涉及到具體的領(lǐng)域,還有一些比較常用的方法論,比如對比分析(數(shù)據(jù)變化、同比環(huán)比等指標)、比如用戶增長的AARRR模型、生命周期模型、漏斗分析法……
當然,對于新手來說更重要的是,去熟悉更多的項目,嘗試更多的實踐,找到基本的分析感覺。我們遇到的大多是二維數(shù)據(jù)、時間序列、網(wǎng)絡(luò)數(shù)據(jù),了解不同數(shù)據(jù)類型的分析方法,就能掌握不同領(lǐng)域的數(shù)據(jù)分析。
經(jīng)過實際訓練,不用多久,你就會發(fā)現(xiàn),對于數(shù)據(jù)分析豁然開朗,那么你就真正上道了。
關(guān)于業(yè)務(wù)思維
優(yōu)秀的數(shù)據(jù)分析師一定是對業(yè)務(wù)非常了解的,這是輸出價值結(jié)論、做出優(yōu)秀決策的必要條件。在做數(shù)據(jù)分析時一定切記,對于你要分析的問題,你要有明確的輸出:要得到什么結(jié)論,想弄明白的事情是什么。
很多人一開始只學習具體的技術(shù),沉迷于炫技,勢要寫大段的代碼,做炫酷的圖表。當然提升技術(shù)深度固然沒錯,但很可能實際在分析思維和能力上的提升并不明顯,也很難輸出有價值的內(nèi)容。
這是很多人都會走入的誤區(qū),認為努力彌補技術(shù)上的差距,就縮短了數(shù)據(jù)分析能力的差距,但很多時候,你和專業(yè)分析師差的是提出問題、梳理邏輯和解決問題的能力。
這種能力就源于對業(yè)務(wù)知識的理解。
對于一個具體的分析項目,你在拿到數(shù)據(jù)之后,知道具體要去解決什么問題?需要根據(jù)分析結(jié)論去做哪些決策?現(xiàn)有的數(shù)據(jù)能夠去解決哪些方面的問題?
對于具體的業(yè)務(wù)來說,哪些指標是重要的?哪些字段之間通常會有很強的相關(guān)性?探索哪些數(shù)據(jù)之間的關(guān)系會大概率獲得有價值的結(jié)果?
通過這些問題,你就有了一條非常清晰的分析邏輯,分析的先后順序是什么,大概會得出哪些結(jié)論,甚至最終的報告如何呈現(xiàn),就都不是問題了。
所以,在尋求技術(shù)突破的同時,更建議去找具體的數(shù)據(jù)集,或明確一個分析目標,做實際的分析項目,通過這種基于問題、結(jié)論的思考,獲得數(shù)據(jù)分析的一般方法,這才是你的個人核心競爭力。
當然在具體的項目中,遇到技術(shù)上的空缺或不足,有針對性地彌補,效率也會更高。(來源:微信公眾號ecshujufenxi)