搜索
 找回密碼
 立即注冊

QQ鐧誨綍

鍙渶涓姝ワ紝蹇熷紑濮?/p>

掃一掃,訪問微社區

實操:如何用Excel做一次完整的數據分析

查看: 3114| 評論: 19| 發布者: 淺唱seo

??? ??С
簡介:此文是《10周入門數據分析》系列的第4篇。想了解學習路線,可以先行閱讀“10周計劃”公中號上已更新到第11篇,詳情可見文末。前一篇分享了《Excel數據分析必掌握的43個公式》,今天這篇講實操,教大家用Excel做一次 ...

此文是《10周入門數據分析》系列的第4篇。

想了解學習路線,可以先行閱讀“10周計劃”

公中號上已更新到第11篇,詳情可見文末。



前一篇分享了Excel數據分析必掌握的43個公式,今天這篇講實操,教大家用Excel做一次簡單的分析。一是讓大家了解數據分析是一個怎樣的流程;其次熟練Excel的操作(學的知識要用起來),包括公式,數據透視表等。

這里我用Python在智聯招聘上爬取了約1800條的BI工程師的職位信息,并且將崗位名稱、公司名稱、薪水、所在城市、所屬行業、學歷要求、工作年限這些關鍵信息用CSV文件保存下來。

實操:如何用Excel做一次完整的數據分析

爬的過程就不贅述了,源數據附給大家,公眾號(數據分析不是個事兒)回復“數據”可獲得

操作版本:Excel 2016 ,WIN 10

一個完整的數據分析都需要經歷這樣幾個步驟:

  • 數據獲取——這里我已經用Python爬好了;
  • 明確分析目的——你拿這數據要得到什么信息,解決什么問題;
  • 觀察數據——各個數據字段的含義,中英文釋義;
  • 數據清洗——無效值、缺失值、重復值處理,數據結構是否一致等;
  • 分析過程——圍繞目的展開分析;
  • 制作可視化——做圖表做可視化報告。

一、明確目的

數據分析的大忌是不知道分析的方向和目的,拿著一堆數據不知所措。數據用來解決什么問題?

是進行匯總統計制作成報表?

是進行數據可視化,作為一張信息圖?

是驗證某一類業務假設?

是希望提高某一個指標的KPI?

要知道一切數據分析都是以業務為核心目的,所以要找到業務問題的思考點。關于找到問題的切入點,之前數據分析思維篇講過。永遠不要妄圖在一堆數據中找結論,目標在前,數據在后,哪怕是把數據做個平均值比較,也比沒有方向好。每一步嘗試都會引發進一步思考,比如為什么這個值這么低,原因在哪里,這個差異波動有何規律……

所以,分析前不妨先來看一下我們爬的數據:

實操:如何用Excel做一次完整的數據分析

假設我是一個BI工程師,我想知道:

目前BI工程師的平均薪資水平如何,薪資的區間分布如何

各地區對BI工程師的需求量是多少,哪些地區設崗最多。

不同年限的BI工程師薪資差異如何,3年后我差不多是什么樣的價位?

薪水較高的公司有哪些?

帶著這樣的問題,那我們的分析就有了方向,后續則是將目標拆解為實際分析展示的過程。


二、了解數據概況

實操:如何用Excel做一次完整的數據分析

拿到數據肯定是要先看一下的,你想要的數據全不全,拿到的數據有哪些可分析之處。主要就是看數據字段,要了解數據字段的含義:

JobName——崗位名稱

Company——公司名

Salary——薪水

City——城市

Jobtype——崗位領域

Edulevel——學歷要求

WorkingExp——工作年限要求


三、數據清洗

接下來進行數據清洗。數據清洗一般包括無效值、缺失值、重復值處理;數據是否有亂碼,錯位現象;數據口徑問題,兩張表的關聯ID名是否一致;還有是否有統一的標準或命名,如公司名全寫或縮寫的區分。數據轉換則是將數據規整為統一格式處理。因為這是只是Excel級別的數據分析,且就一張簡單的數據表,不會有太多復雜的操作。這里簡單總結下。

1、有無缺失值

數據的缺失會很大程度影響分析結果。數據缺失的原因很多,比如數據采集的時候,因為技術的原因,爬蟲沒有完全抓去。但工作上更多的原因是數據入庫的時候就沒有收集全,有沒填有遺漏,這又是數據規范數據治理的話題了。一般來說,如果某一字段數據缺失超過40%~50%,就沒有分析意義了,考慮刪除或作其他措施。

看數據有沒有缺失,只要在Excel中選中該列看計數。

這里,eduLevel有缺失(1759/1800)但不多,不影響實際分析。

2、臟數據處理

發現jobName列里面有一些類似BIM工程師的崗位信息,這些應該都是土木行業的工程師,爬去時沒做過濾,還有包含“bim”“BIOS””BIW”等字段。

因為包含多重過濾,這里我建立輔助列,設立判斷條件,然后進行篩選過濾。

實操:如何用Excel做一次完整的數據分析

=IF(OR(COUNTIF(A5,"*"&{"bim","BIM","BIOS","BIW"}&"*")),1,"0")

公式的意思是,如果含有這些字段中的任何一個則為1,否則為0。這里我們需要篩選出結果為0的數據,總計篩選下來600多條,數據還是很臟的。

多重篩選,還可以用數據選項卡里的高級篩選功能,就不掩飾了。

3、重復數據

重復數據一般對唯一標識字段來處理,比如用戶ID,訂單ID,公司ID這些,這些字段都代表這一行數據是唯一存在的。嚴格來講,這里的表應該存在公司ID這一字段,爬取數據的問題,我這就懶得再重爬了,就對Company字段做重復值處理。

這里有一個快速竅門,使用Excel的刪除重復項功能,快速定位是否有重復數據。對company列進行重復項刪除操作:

實操:如何用Excel做一次完整的數據分析

只剩下562個值了。到此,一些臟數據基本清理的差不多了。

最后,salary有一些數據是“薪資面議”,“校招”的,這里也一并過濾掉。Jobtype過濾掉汽車、電子等行業,只留包含IT互聯網行業,最后剩下不到500條數據。

4、數據再加工

一者是salary薪水用了幾K表示,這是文本,不能直接用于計算。而且還是一個范圍,后續得按照最高薪水和最低薪水拆成兩列。

二者由于城市字段存儲有的數據為“城市-區域”格式,例如“上海-徐匯區”,為了方便分析每個城市的數據,最后新增列“城市”,截取“-”前面的真實城市數據。

為了方便整理,和原數據區分,也防止原數據丟失,這里把之前處理的數據復制粘貼到另一張表里。

① 薪水處理

將salary拆成最高薪水和最低薪水有三種辦法。

一是直接分列,以"-"為拆分符,得到兩列數據,然后利用替換功能刪除 k這個字符串。得到結果。

二是自動填充功能,填寫已填寫的內容自動計算填充所有列。

三是利用文本查找,重點講一下這個。

寫公式的思路是,先查找第一個K出現的位置,然后再-1,去除掉K。所以公式是:

=LEFT(C2,FIND("K",C2,1)-1)

實操:如何用Excel做一次完整的數據分析

同樣的思路,最高薪水需要利用find查找"-"位置,然后截取 從"-" 到最后第二個位置的字符串。

=MID(C2,FIND("-",C2,1)+1,LEN(C2)-FIND("-",C2,1)-1)

這里,在新增數據列,平均薪水,來近似代表實際的準確薪資。平均薪水=(薪水下限+薪水上限)/2,即可得到每個崗位的平均薪水。

實操:如何用Excel做一次完整的數據分析

②真實城市截取

由于城市字段存儲有的數據為“城市-區域”格式,例如“上海-徐匯區”,為了方便分析每個城市的數據,最后新增列“城市”,截取“-”前面的真實城市數據。

=IF(COUNTIF(G2,"*-*")=0,G2,LEFT(G2,FIND("-",G2,1)-1))

至此,所有數據清洗加工完畢,食材已經全部準備好,下面可以正式開始數據可視化的美食下鍋烹飪了。


四、分析過程

分析過程有很多玩法,因為這里主要數據均是文本格式,數據又很簡單,所以偏向匯總統計的計算。如果數值型的數據比較多,就會涉及到統計、比例等概念。如果有時間類數據,那么還會有趨勢、變化的概念。

整體分析使用數據透視表完成,先利用數據透視表獲得匯總型統計。

1、BI工程師需求概況分析

實操:如何用Excel做一次完整的數據分析

這里我簡單加了一下增材區分,增加數據大小的辨識度。(條件格式——色階)

看來北上廣深的BI工程師崗位遠多于其他城市,成都杭州武漢梯隊次之。1~3年以及3~5年經驗的缺口相當。

2、BI工程薪資情況分析

實操:如何用Excel做一次完整的數據分析

各經驗年齡的平均薪資狀況,差距梯度還是很明顯的。

實操:如何用Excel做一次完整的數據分析

目前市面上BI工程的薪資主要分許在7~17K左右區間。23~26K,應該是5~10年左右經驗的崗位也相當。

3、薪資變化隨著經驗的增長,學歷影響力的大小

實操:如何用Excel做一次完整的數據分析


整體來說,BI工程師大專和本科的薪資差異并不是很大,3~5年經驗,本科稍占優勢。到5~10年,基本拉平,也就是說學歷因素影響比重更弱,這時候更看重經驗。

其他的分析過程就不多做贅述了,主要是使用數據透視表和數據透視圖進行多維度(城市,學歷,工作經驗)的分析,沒有其他復雜的技巧。

關于數據透視圖和數據透視表。選中所要分析的數據列,2013版以上的Excel基本上都很智能的幫你推薦圖標,生成透視界面,只要分清楚拖拽的字段事到列,到值還是到行即可。然后視情況多數據做一定篩選,因為數據清洗得不一定很徹底,我在制作的過程中就忽略了一些字段的空缺值,又回過頭做了過濾。

實操:如何用Excel做一次完整的數據分析

最后

到此,一個簡單的數據分析基本結束了。因為數據簡單,并沒有涉及過多的數據整合,表合并,專業數據統計回歸等操作。

整個數據分析過程最費時間的數據清理,大約占據70%,只要明確了目的,可視化分析師很簡單的。

其次,也可以看到,用Excel做分析,更多的優勢是數據的簡單處理。隨便過濾、查詢、定位救你呢了解數據的概況。但在可視化方面比較雞肋,行列值選擇,以及復雜的圖表制作都有一些難度,一句話總結Excel可視化要想做的好看還是要費點時間的。

所以我在分析的時候,基本上就是用Excel看看數據全貌,簡單處理下。分析、可視化什么的還是會交給BI。后面,我會再出一篇用BI制作的教程。


關于學習計劃


本文是《10周入門數據分析》系列的第4篇,公中號上已更新到第11篇。

可以戳下“了解更多”關注。


【免責聲明】本文僅代表作者或發布者個人觀點,不代表SEO研究協會網(www.jlcwzn.icu)及其所屬公司官方發聲,對文章觀點有疑義請先聯系作者或發布者本人修改,若內容涉及侵權或違法信息,請先聯系發布者或作者刪除,若需我們協助請聯系平臺管理員,郵箱[email protected](本平臺不支持其他投訴反饋渠道,謝謝合作)。若需要學習以上相關知識請到巨推學院觀看視頻教程,網址www.jutuiedu.com。

暈倒

感動

大哭

驚呆

口水
已有 19 人參與

會員評論

查看全部評論>>

推薦閱讀

    2019-10-12 01:23
  • 作者:木木seo

    央視網評丨讓真相跑贏謠言是輿情應對的基本要求

    ——無錫高架橋側翻事件系列觀察之二無錫高架橋側翻事件,奪去3個無辜者寶貴的生命。自10日傍晚6時許,距離事發已經過去24個小時了。現場進展情況如何?橋面為何側翻?道路超載車輛的根源在哪?一連串的疑問,公眾在

  • 2019-10-12 01:20
  • 作者:小勾

    日系品牌逆勢增長的市場邏輯

    “出水才看兩腿泥”,用這句俗語來形容當前中國新車市場的分化現象十分貼切。在市場高速增長時期,絕大部分汽車品牌都過著逍遙快活的日子,起碼可以做到衣食無憂。不過,隨著市場開始進入下滑調整期,不少汽車品牌的

  • 2019-10-12 00:50
  • 作者:張有為

    企業如何做好網絡營銷方案?七招學會制作網絡營銷方案

    如今正是一個"虛擬擴張的時代",網絡營銷帶來企業營銷革命性的變化,眾多國內外學者及專家從不同角度、不同層面對其進行了深入的研究。其中大部分作品都是結合營銷的4P理論模型進行展開闡述的,大中專院校使用的

  • 2019-10-12 00:46
  • 作者:cherise

    看了世界500強公司做的PPT,終于知道我的PPT差在哪了!

    不知道你們有沒有遇到過這樣的情況,領導甩給你大量的信息文字讓你做成PPT,這時候雜亂的信息往往不知道怎么處理,做出來的東西也很容易讓人找不到重點。就像下面這樣的:相信看了這篇文章,你會有所啟發。經常關注P

  • 2019-10-12 00:39
  • 作者:seoere

    怎么將Excel電子表格轉換成PDF文檔

    怎么實現文檔格式轉換呢?怎么將Excel電子表格轉換成PDF文檔呢?由于PDF文檔是一種更安全、更常用的文檔類型。因此我們可能需要將Excel電子表格轉換成PDF文檔進行共享或傳輸。接下來就與大家分享一下有關文檔格式轉

  • 2019-10-12 00:28
  • 作者:炫奇

    遏制“網絡黑公關”需要“四手聯彈”

    日前,美團聯動江蘇、山東等地公安機關,打擊多起捏造事實惡意抹黑美團的“網絡黑公關”刑事案件,共抓獲犯罪嫌疑人10余人。相關人員涉嫌非法經營罪,已被移送檢察機關審查起訴。不光美團,記者經過調查,騰訊、阿里

  • 2019-10-12 00:26
  • 作者:yiyuwowo

    EXCEL助力口算——媽媽再也不用擔心我的數學了

    口算,一直是小學生必須熟練掌握的技能,口算練習一直得貫穿小學六年學習階段的始終。但是令家長頭疼的是一張口算試題,孩子分分鐘就做完了,每天做幾張,哪來那么多試題啊。我利用EXCEL的隨機函數設計了一張口算試

  • 2019-10-12 00:10
  • 作者:勵志小施

    這些Word表格技巧,你了解幾個?

    1、表格的拆分和合并若是想將一個完整的表格拆分兩部分,可以將光標放在需要拆分的位置,然后按Ctrl+Shift+Enter組合鍵即可拆分。如果想將兩個表格合并,可以直接選中空白處,然后剪切或者刪除即可。2、表格的左右拆

  • 2019-10-12 00:03
  • 作者:低調無語

    在谷歌搜索打廣告越來越貴,歐美企業怨聲載道

    10月11日消息,據國外媒體報道,不少歐美公司抱怨稱谷歌搜索廣告價格在不斷攀升,業務依賴于谷歌搜索的公司因而苦不堪言。當然,谷歌的搜索市場主導地位也正受到監管機構越來越多的關注。以下是翻譯內容:“藏尸體最

  • 2019-10-12 00:02
  • 作者:小三也是技術活

    用移動硬盤做好日常備份,才是數據永久保存的辦法

    每個人都有屬于自己珍貴的記憶,以前我們通過相冊來保存,每每翻開都是在重溫那段回憶。如今那些點點滴滴的記憶都以數據的方式被保存著,孩子成長的照片,喜愛的歌曲和記錄美好時光的視頻等等,這些都是不可替代的珍

文章排行

TOP ARTICLES

返回頂部
网赌输了5万可以报警不