資料分析三大流程 (實戰導向)

KevinLuo
12 min readOct 8, 2021

第一: 培養發掘問題的能力

即使是身經百戰的Data Scientist 也需要花大量的時間了解需求,閱讀學術論文,蒐集相關研究分析方法與定義問題等,在這個過程中也經常會發生方向錯誤或定義錯誤的困境。個人認為在這個階段中,要同時兼顧天馬行空的創意發想和縝密的定義問題是最大的挑戰。因此對剛入門的人來說,這個階段可能是最需要抽象思考的階段,但不用太擔心,我們依然可以從生活中的例子中著手,試著練習找尋和定義問題。

我們需要定義的目標分為:1.商業目標, 2.資料分析目標,我們先從如何發掘問題出發,接者再分享一些網路上實用的開放資源。幫助入門者在發掘問題->定義商業目標,資料分析目標的過程中能更有方向,直至探索目標核心。

問題發掘:

從行銷, 管理學的角度出發

問題發掘最需要的是創意的階段,此階段試資料分析流程的起點,不過卻也是最沒有一套SOP標準流程可以走的階段。

一位著名的管理學大師大前研一先生,剛進入麥肯錫工作時,經常利用搭電車通勤的時間觀察電車上一則又一則的平面廣告訓練思考,他從電車上選一則廣告並思考倘若自己在這家公司,要如何讓這個產品大受歡迎?

例如一家手機公司,就可以思考要如何增加手機的通路,可以採取什麼行銷活動等。 有了問題之後,就可以著手思考如何利用數據解決問題,例如從客戶資料做客戶樣貌分析協助行銷活動進行,深入瞭解手機的實體通路和線上通路的銷售情形,並藉由分析銷售狀況了解銷售主力客群與消費習慣。

我們也可以協助公司分析生產線的參數和環境參數了解生產狀況,及早預期可能出狀況的機台。

思考的過程應盡量可能的以多種面向切入,如果熟悉一些管理學知識也可以從企業內部和企業外部等構面來思考。企業內部包括:生產,銷售,人力資源,研發,財會…等面向。

至於企業外部就如商業五力分析中所提到包括:新進入者, 購買者, 替代品, 供應商與現存競爭者…等,可以從這些角度思考如何透過數據來解決問題。

下圖為"商業五力分析圖"。

五力分析 Ref: 中信管理學院

此外,甚至可以思考傳統的理論基礎在大數據時代是否有被顛覆的可能性。

例如知名顧問公司Gartner的 vice president Kimberly Collins就認為行銷領域奉行數十餘載的4P理論: Product、Price、Promotion、Place在大數據時代下應該有不同的可能,因此她創出一個新4P理論:People、Performance、Process、Prediction.

新4P理論是因應現代顧客意識抬頭而生的理論基礎,傳統產品導向的削價競爭思維已經不再適用新形態大數據商業模式,反而是以人為本以人為核心的服務導向更適合大數據的商業型態,ex:重視客戶體驗、回購率、滿意度…等等。尋找問題、定義問題的過程中不多思考這些角度。

定義商業目標參考資源:

定義商業目標需要先思考問題,思考要解決的是甚麼樣的問題,而此問題在現實社會中是否真的有需求。需要特別強調的是,商業目標不一定代表商業領域的目標,可以是醫療、社會、音樂、體育等任何領域,在這裡指的商業泛指想像能把這個目標實際商業化成為一套服務或應用原則

涉及科技新知的資源:

我推薦幾個網路上的可以涉及很多科技新知的地方,這些網站Daily的更新各種科技消息,各位可以常上去看看,或許能夠對您正在思考的議題有突破性的進展! 以下都有網站連結。

  1. 經理人
  2. 科技報橘
  3. 數位時代
  4. 科技新報
  5. 天下雜誌
  6. 商業週刊
  7. 36氪

定義資料分析目標參考資料:

定義資料分析的網站以下

  1. 機器之心
  2. 數據分析網

值得關注的 10 個資料科學部落格:

1.Data Science Central

Data Science Central 的作用正如其名稱所示,而且做為資料科學和大數據所有相關內容的線上資源中心。該網站涵蓋有關分析、技術、工具、資料視覺化、程式碼和工作機會的各種資料科學主題。業界專家提供有關關鍵主題的討論和見解。

該網站經常更新,每天有將近兩篇由撰稿人投稿的部落格文章,而且也提供可供討論或提出問題的社群論壇。

2.SmartData Collective

SmartData Collective 是著重於商業智慧和資料管理趨勢的社群網站。與 Data Science Central 類似,這也可以透過業界專家的投稿來提供資料科學的見解。Data Science Central 直接關注整體資料科學,SmartData Collective 則著眼於更廣闊的領域,並探究資料科學如何與業務交互作用。

3.What’s The Big Data?

What’s The Big Data? 在資料科學層面採取不同的方法,而且著重研究大數據成長對現今數位龐然大物的影響。該部落格的創辦人 Gil Press 相當熟悉大數據和資料科學,並從事資料研究的工作,目前擔任顧問職務。

Press 在本身的部落格中探討大數據如何與我們的生活交互作用,並影響從技術到企業到政府和政策的一切層面。他提供有關資料領域的消息和評論來源。

4.沒有不勞而獲的預感

此部落格與其他部落格略有不同,可以直接檢視資料科學家的思想、教學課程和消息。這是資料科學網站 Kaggle 的部落格,此網站主辦資料科學專案和競賽,對資料科學家提出挑戰,要求資料科學家為專題資料集產生最佳模型。組織可以張貼這些人的資料問題並提供獎勵金額,鼓勵資料專家提出解決之道。眾包可確保實驗具有創新性和趣味性,而且提供許多可供學習的觀點。

已經進行的競賽超過 200 場,其中包括一些引人注目的競賽,例如改善 Microsoft Kinect 手勢識別、改善 CERN 尋找希格斯玻色子的做法,以及為了改善對於哪些患者需要住院的預測而提供的 Heritage Health 獎金 300 萬美元。Kaggle 的官方部落格更深入介紹這些競賽,對獲勝者進行專訪,並討論獲勝者解決資料科學問題的方法。該部落格也為各種程度的資料科學愛好者提供專題新聞和教學課程。

5. insideBIGDATA

InsideBIGDATA 著重於資料科學的機器學習層面。這其中涵蓋 IT 和業務、機器學習、深度學習和人工智慧中的大數據。來賓功能提供對產業觀點的見解,而新聞和編輯精選文章則突顯該領域的重要事件。所有文章都按照主題清楚分類,尤其針對任何課題進行分類。該部落格也提供事件、工作和研究報告等等適用的大量資源。對於想要瞭解機器學習最新知識的任何人而言,這是不錯的資源。

6.Simply Statistics

如果您無法獲得足夠的統計資訊,請使用下列部落格。這個網站由三位生物統計學教授經營,這些教授在部落格中談論大數據中的大量統計資料,以及資料科學家如何在各個領域 (包括這些教授本身的領域) 中使用這些統計資料。對於希望進入該產業的任何新統計學家而言,這些教授也採訪資料科學家,介紹這些資料科學家在業界的職涯和角色。

7.Datafloq

Datafloq 是由《Think Bigger: Developing a Successful Big Data Strategy for Your Business》的作者 Mark Van Rijmenam 經營,這是資料科學大數據的重要資源。該部落格著重於大數據的業務層面,以及如何促使資料科學為組織所用。這其中也提供有關趨勢技術主題的資訊,例如區塊鍊和人工智慧。雖然 Datafloq 主要提供文章和見解的資源,不過也試圖透過職位發佈、供應商、事件和訓練來聯絡專業人員。

8.Data Science 101

對於希望進入資料科學領域的任何人而言,這都是很好的起點 (雖然相當密集)。Ryan Swanstrom 曾經為 Microsoft、Wells Fargo 和政府國防承包商從事資料科學工作。他目前擔任 Unify Consulting 的資料科學總監。在此部落格中,他分享如何成為成功資料科學家的寶貴經驗、技巧和建議。該部落格可以回溯到 2012 年,其中擁有大量存檔資料,相當值得一讀,可供瞭解資料科學討論中最近幾年的實務歷史。

9.Dataconomy

是期望成為資料科學家的人士相當適合的另一種資源。這其中提供一般的大數據新聞和技術趨勢,以及業界專家的社論。不過,與其他資料科學中心不同之處在於建立資料科學事業的資源。該網站提供免費的 IT 研究庫和入門指南。對於已經進入產業而且希望進一步發展的人士而言,這也提供工作委員會和候選人資料庫。

10.Data Science Report

對於深入的資源,Data Science Report 整理出各種格式的資源,能夠將資料科學帶入您的腦海之中。該網站收集免費課程、文章、書籍、視訊和 TED 演講,協助任何層級的資料科學家。您可以篩選主題,找到如何入門、薪資談判、面試、技術、社交媒體、行銷和「相當有趣」的主題有關的精選資訊。這是在職涯任何階段的資料科學家以及有心學習資料的任何人士適用的資源中心。

第二:資料到哪裡蒐集資料:

  1. Kaggle
  2. DataCastle
  3. data.world
Wanna try to do some demos? :)

4. OODATA

是一個台灣本土的資料分析網站

5.政府資料開放平台(台灣政府)

第三: 資料探勘與視覺化(extraction & visualization)

資料探勘:

資料探勘之所以在整個資料分析流程中佔舉足輕重的位置,因為我們必須盡可能的了解我們手中可應用的資料。

資料探勘是在較大量的資料中尋找模式的過程,使用一系列跨領域的方法包括統計學、機器學習和資料庫。他是一個跨領域的學科,目的是透過一系列的方法,在資料庫中發掘有價值的資訊,轉化成可以理解的結構,提供未來決策使用。資料探勘不是一個單一的動作,而是一個系統性的「資料庫知識發現」的流程,包含原始資料分析、資料預處理、建模、推論、解釋、視覺化 ,資料探勘的實務工作是以半自動化、或自動化分析大規模的資料,以提取未知的、有價值的潛在資訊。

資料探勘的重要性?

隨著電腦科技的發展,在現在這個資訊爆炸的時代,如何有效率的處理資料並獲得有用的資訊和知識是很重要的事情。資料探勘可以幫助公司「篩選資料中混亂和重複的雜訊」、「了解什麼是重要的並利用這些資訊來預測結果」和「加速決策」。

資料探勘的應用?

  • 詐欺的偵測
  • 供應鏈的優化
  • 新客戶的開發

資料探勘的方法?

根據分析目的的不同,資料的狀態和特性,背後的理論假設(例如經濟的供需理論),選取適合的分析方法。在選擇方法前可以想想看以下的因素:

  • 資料的大小?
  • 資料中存在什麼樣的模式?
  • 資料中是否有一些潛在的假設?
  • 資料有多少的雜訊?
  • 分析的目標是什麼?

不同的統計模型和演算模型會給出很不同的結果,預測的表現也會不同,所以需要資料分析師、資料科學家根據不同的問題和目標選取最有用的方法。以下是常見的資料探勘的方法:

Ref: 什麼是資料探勘(Data Mining)? | Huasa’s Blog (huasadata.com)

資料探勘的流程?

  1. 了解目的
  2. 得到資料
  3. 探索、清理、預處理資料
  4. 變數縮減
  5. 決定任務(翻譯實際問題成分析的問題)
  6. 資料分隔(若使用監督學習)
  7. 選擇方法
  8. 跑模型
  9. 解釋和比較模型的結果
  10. 使用模型
IBM的CRISP-DM流程和SAS的SEMMA流程也有相似的步驟。

Donald Knuth說過: 過早的最佳化是萬惡的根源(他是圖靈獎得主之一)

Donald E. Knuth個人網站:Don Knuth’s Home Page (stanford.edu)

太早的收斂資料或是根本沒有進行資料探勘,在大數據分析中是很致命的。本來就已經是瞎子摸象了,現在又直接跳過給你摸細節的部份,要怎麼猜出是大象我也不知所云。

所以資料探勘非常的重要。

清楚了解資料的所有特性除了幫助我們修正資料本身的問題, 移除不需要的內容外,也能幫助我們驗證還有哪些不足需要回過頭重新設定的地方,才能夠對症下藥,找到合適的方法進行下一步的建模。

資料視覺化:

資料視覺化(Data Visualization),指的是利用圖形化工具(如:各式統計圖表、立體模型等)從龐大繁雜的數據庫中萃取有用的資料,使其成為易於閱讀、理解的資訊。

資料視覺化有必須考量的三個要點:

  • 資料的正確性:在簡化資料時保有數據的正確性
  • 讀者的閱讀動機:讀者能否突破心理障礙,去理解不熟悉的領域資訊
  • 傳遞資訊的效率:讀者理解圖表所耗費的時間、能否留下印象等

因此,在處理視覺化資料時必須斟酌這三個要點的比重。對此學者間抱持不同的看法,概略來說可分為兩派:

  • 研究型視覺化:強調資訊呈現的正確性,以呈現「最詳盡資訊」為目的
  • 敘事型視覺化:強調圖表的設計感,以讓「閱聽者印象深刻」為目的

研究型學者認為成功的視覺化作品,應在「最少的油墨下呈現最豐富的資訊」(Data-Ink-Ratio)。圖表外的插畫、設計都是冗餘的,讓讀者自行發掘資料意涵。而敘事型的學者則強調圖表背後的故事連結性,是否能讓讀者「覺得有趣」,並一眼就明瞭圖表所要傳達的意涵。如下圖,讀者一眼就可解讀美國各州農產分布:

Ref : 【硬塞科技字典】什麼是資料視覺化(Data Visualization )? — INSIDE

下面我也蒐藏了一個資料視覺化工具整理的網站:

21款酷炫資料視覺化工具,拿走不謝!. 辛辛苦苦分析一堆大數據,竟然沒人看!如果你正著手於從數據中洞察出有用資訊,那你所… | by 數據分析那些事 | Medium

好的,今天的資訊先到這兒~

I,m Kevin

See you guys, have a nice day.

--

--

KevinLuo

知曉很多種資料處理,可BI或AI化的軟體和工具。主要用的程式語言是python和R 偶爾用C++ Ig:(可在上面找到我) AIA第九屆經理人班 立志當個厲害的podcaster!