【好文分享】產品經理如何學會數據分析?談數據思維與分析的基本功
數據分析、大數據、數據導向決策這些名詞在這個時代隨處可聽到,人人都在談;
這也透露出如何利用「數據」來提升競爭力是現今不可或缺的能力了,
這裡的競爭力可能是幫助公司決策、營運、產品方向、行銷運營等等。
本文分享擔任產品經理時所累積的數據分析經驗包含產品數據與商業數據,分享數據分析的思維以及實務面,幫助產品決策/行動推展;
不會深入探討各個分析理論與技術細節。
本篇文章分享內容:
1. 為什麼要懂的數據分析?產品經理要懂什麼?
2. 如何開始數據分析?個人數據分析思維與流程
3. 總結
為什麼要懂得數據分析?產品經理要懂什麼?
數據就好像是情報,我們把情報用在對的地方,事半功倍,情報用錯地方賠了夫人又折兵。
情報有真假,透過人為操作製造出假情報,導致走到錯誤的方向;數據也是可以被操弄,
例如,之前網路傳的口罩愈領愈少圖與瑞幸咖啡財報問題。
前者數學概念簡單,多數人都可以掐指一算,一秒內識破;
而後者,涉及數據量多,計算繁瑣,
平常人如果沒有去深入研究,難以察覺異狀。
「數據」既然這麼重要,而產品經理(Product Manager)又是負責產品/商業成敗的角色,能培養「數據分析」的能力絕對是加分。
「數據分析」範疇很廣,包含數據採集、數據清洗、數據探勘、分析結果等等;
不同量級的資料,處理起來的方法也不同,所以專業數據分析師的價碼水漲船高不是沒道理。
至於產品經理要懂什麼呢?
個人認為如果具備基礎統計學跟數據分析思維,與數據團隊溝通會比較順暢、明確,幫助自己做出正確的判斷。
數據分析師有優秀的處理數據能力與專業方法論,但要分析的標的是什麼、場景是什麼、限制是什麼與預期產出是什麼,
這些定義是需要產品經理一同梳理;另一方面,通常簡易、量級小、即時性的數據,會由產品經理自己透過工具來處理,
省去跨部門的溝通成本與流程。
如何開始數據分析?
數據分析的知識範疇很廣,我將大致分為
(1)確認數據需求
(2)定義與了解指標
(3)數據收集與規劃
(4)數據清洗與處理
(5)數據驗證與可視化以及最後產出
(6)數據洞察與下一步行動方案/策略。
擁有較多資源的公司或許會有數據分析團隊協助處理步驟(4)~(5),然而在沒有太多資源情況下,產品經理就需要自己從頭開始執行;
縱然有數據團隊的專業分工,仍建議產品經理要積極培養數據分析的能力,使得與數據團隊會更有效率的合作。
1. 數據需求來源
為什麼要這些數據?
想要做什麼?
這也是一開始要回答的問題。
釐清我們是為了達成什麼目標。
這個目標會在公司、產品策略下產生,進而透過數據來驗證或是找出可能存在的問題,進行優化改善。
例如產品為獲取新客,採取功能上的調整,這樣的調整最終效益如何?
又例如產品使用者對功能的偏好與分群狀況,如何強化產品運營等問題?
軟體產品數據有幾個常用類別如下:
- 商業、財務
- 產品、功能
- 行銷、運營
💡Tip:數據會告訴我們資訊,但需要什麼樣的資訊方向必須先定義好,避免瞎子摸象。
2. 定義與了解指標(Metrics)
該採用什麼指標?
如何定義指標?
選擇可以指引你的明燈。
有了明確目標與問題後,接著要思考什麼樣的數據指標可以用來解決這個問題或是衡量成效,以及該指標的定義是什麼。
「數據資料」是維度(觀察的面向)與度量(量測的單位)所組成,並透過統計運算得出指標,
指標有其代表的物理意義,了解他們是相當重要。
另外需要注意該指標的限制條件/邊界條件是什麼?
什麼情況下該指標是具有「有效性」。
選擇指標時,可以僅用單一個指標,也可能是多指標,端看場景與衡量項目。
例如,產品新增一個功能,而該功能開啟率 90%;
乍看之下,這個功能非常成功,用戶都有使用;
然而如果再看卸載率同步提高 20%,
這時候該功能是成功還是失敗呢?
再看另外一個例子,
優化一個體驗流程,使用率單日從 10% 提高到 20%,乍看之下這個流程優化結果是好的,
但如果把時間維度考慮進去,動態平衡後又如以往回到 10%,此時此刻結論是否會有不同呢?
在選擇指標數量時,要謹慎思考場景相依性、時間與空間的影響,除了採用直接影響的指標也需列出間接影響的部分。
下面僅列幾個 App 常見指標,更多指標可網路查詢或自行定義
(通常除非商業模式或是產品是非常創新,大多數代表指標都可以在市場上找到)。
- App 產品指標:New Install、Uninstall Rate、Retention、DAU、MAU、PV、UV、CTR 等等。
- App 商業指標:Revenue、Paid Rate、Cost、ARPU、LTV 、ROI 等等。
- 廣吿指標:Bid Rate、Win Rate、Show Rate、CTR、CVR、ROAS 等等。
💡Tip:
1. 透過公式了解每個參數的定義、計算方式與限制條件,避免使用錯誤指標來衡量。
2. 選擇單一指標或多指標時,需考量場景相依、時間、空間,列出直接指標與間接指標。
3. 相同指標名詞,在不同公司、產業仍可能會有其不同,使用前要確認與釐清。
3. 數據收集與路徑規劃
數據哪裡來?
會不會有偏差、缺漏?
思考並建立一條取經之路。
有了具體數據目標後,要如何收集數據便成為下個要思考的題目。
如果這個數據項目是已經有類似收集的流程,便可以試著套用、修改或增加參數,並確保可以符合目前需求;
如果沒有,就從打地基開始吧!
必須從頭設計與規劃路徑。在規劃收集數據的路徑部分,大致有幾個思考點,
如數據型態、觸發時間、頻次、場景流程、事件、收集對象等,
以下舉幾個項目說明:
- 數據型態:整數、浮點數、文字以及不同位元大小等。影響儲存的正確性、資料量大小與後處理方式等等。
- 觸發時間、次數:觸發事件回傳、排程時間回傳、間隔時間與回傳次數等。例如使用者觸發事件,中途因他方網路不穩定而導致數據偶發遺失,看到的結果便是該用戶無觸發,反而給錯了方向;此時若適當增加回傳次數,可降低這部分影響。
- 場景流程:具有前後因果或流程型的項目通常需要多個數據收集點,後續進行漏斗分析。基於這樣的情況,要去拆解場景的關鍵點是什麼?預期流出口是什麼?可以想像主流與分流的脈絡是什麼,這部分通常與項目的流程節點會有相關性,可以互相對照。
在產品小、用戶數少的情況下,無窮無盡的收集數據或許感受不到太大問題,
但是當用戶量增長時,連帶數據量倍增,後續數據處理上會遇到的問題也就增多了,同時也加速資源的浪費(金錢),
且回頭修改流程也會面臨工程龐大的困境,更可能造成新、舊資料匹配不上的情況。
公司或許有自己的系統,也或許是用第三方系統,不論是哪個,
如何收集到有效的數據並考量客戶端與服務端資源都是必須謹慎規劃與思考,
建議不要過於匆忙。
💡Tip:以終為始,考量數據樣本、取得方式、延展性並列出應用場景,需要實務經驗累積與工程團隊討論。
4.資料清洗與數據處理
藏污納垢,不掃除,結果也是髒的。
數據好比是源源不斷的水流,在飲用河水之前必須將其淨化,透過過濾、滅菌、煮沸等過程,確保水是純淨無害,
進行數據分析之前,也必須將原始資料經過「清洗」,後續才能得到正確的資訊。
常見的基本髒污情況有重複值、極大極小值、缺值、亂數、空白字串等等;
去除雜訊,留下需要的有效數據量是分析前的第一步,
通常會考慮下面幾個面向:
- 數據是否重複或缺漏
- 數據是否具有一致性
- 數據是否存在衝突
- 數據是否真實有效
數據乾淨了,接下來是「處理」,處理的方式取決與要看什麼樣的資訊,
可能有匯總、平均、趨勢、變異、估計等等,因此需要些統計學觀念。
例如「平均值」是常見計算方式之一,但「平均值」什麼時候可以使用就關聯到母群體的大小與物理意義,
並不是任何一組數據簡單取平均,就可以代表什麼含義。
例如,在薪資貧富不均的地區取「平均薪資」一數字來代表這區域的薪資水準,
代表性就會非常薄弱且失真,也可能帶來錯誤的決策方向(例如補貼、津貼額度等);
這部分會建議學習統計學中幾個常見項目的概念,
掌握其應用場景、物理意義與限制條件。
- 集中趨勢:平均數、中位數、眾數。
- 離散程度:標準差、變異數、四分位數、四分差、百分位數等。
- 假設檢定:抽樣、信賴區間、卡方檢驗、T檢定。
- 回歸分析:線性回歸、非線性回歸 。
在計算方面,最簡單就是透過強大的 Excel,進階一點就是用統計專業軟體如SPSS、SAS、Statistica 或是其他第三方工具來協助。
以目前擔任產品經理且需經手的數據,Excel 已經足以應付九成以上的使用情境了。
💡Tip:資訊分析前,透過清洗確保原始資料乾淨,透過正確的統計學概念,了解其物理意義,而選擇適當的處理方法。
5. 數據驗證與可視化展示
資訊對不對?
該如何展示資訊?
雙重驗證與圖表使用。
處理完的數據(data)即產出資訊(information),在進行分析之前,記得先進行檢驗資訊是否合理,以及是否有符合限制條件。
這步驟會偏向以邏輯合理性、物理意義、統計標準、以及過往數據經驗來做確認,例如可以從維度、量值大小搭配經驗進行評估。
舉一個生活的例子,
依照台北市物價、學生收入、學生常態用餐習慣等,平均學生一天三餐費用合計可能大概是 250~300 元左右,
然而基於你收集的資料並經過計算,結果是 2,000 元,這時候可能就需要回頭檢視原始數據以及計算過程是否有問題。
另一種情形,使用 A/B testing 進行測驗時,要去探討可信度與樣本數是否足夠、不偏頗具有統計意義,
這類型就有明確的統計標準與方法論。
前面數據清洗與處理若沒出現什麼問題,常態到這裡出現問題的機率就會極低;
但是總是會有失誤的時刻,這步就是在做雙重驗證,在花費腦力進行分析之前,先將前置作業完善,
也可以確保分析後的輸出結果是有憑有據。
可視化(視覺化)展示部分可以區分成文字表格類型與圖表兩大方向,
展示目的是在於能夠清楚傳遞正確資訊給閱讀者,
做出正確策略與結論。
- 文字表格:數值、比例(%)
使用百分比時表示時要確認基數大小是否適合,例如「花費行銷費用 1 萬,共提高客單數成長 50%」,
乍看起來這筆預算花費結果是非常有力,下一步分析時可能就會做出價碼投入等等決策,
但如果知道基數(原客單數)是 10 人時,結論還會是加碼投入嗎?
比例可以看出影響程度,但是必須搭配基數來看,
避免過度高估或是低估。 - 圖表:折線圖、直條圖、橫條圖、瀑布圖、長條圖、漏斗圖、圓形圖等等
圖表類型非常多,觀察連續時間趨勢的折線圖、類別差異的柱狀圖、群體分佈的圓餅圖等等,
了解每個圖表的使用場景,而不是靠感覺或是美感去選擇圖表。
💡Tip:以邏輯合理性、物理意義、統計標準、以及過往數據經驗來做檢驗,並了解圖表應用場景,傳達正確的意涵。
6. 數據洞察與行動方案
資訊在手,然後呢?
希望無窮。
找出關鍵點,做出行動/策略方案。
回到一開始,數據需求來自於策略;
利用數據來驗證策略或是從數據中開展新策略。
我們可以透過比較差異、關聯性、趨勢分佈等方式,找到特徵點與關係佐證;這部分有時候會一次到位,但更多時候必須反覆推敲、深挖以及再次回到數據處理階段,透過不同處理的統計方式,而獲得需要的資訊。在進行資訊分析時,可以透過以下四點進行:
- 設立比較基準點。
- 盤點外部因素、環境因子。
- 統合資訊進行分析。
- 產出下一步行動/策略。
step 1 設立基準點
藉由定義的指標來評估項目的狀況,
何謂效果?
效益如何?
要如何回答這些呢?
好與壞是相對,而不是絕對,因此我們需要一個比較基準點。
– 時間基準:
-環比(本次統計段與相連的上次統計段之間的比較)
-同比(即同期相比,表示某個特定統計段今年與去年之間的比較)常用的有WoW、MoM、QoQ、YoY等數據比較方式。
- 業界基準:來自於理論值與經驗值,如區域類別 App 的黏滯力、LT、CTR、CVR 等。
- 內部基準:公司內同類產品組合或產品本身的歷史數據,可透過交叉比對來進行分析。
step 2 盤點內外部因子
除了基準點外,也需要盤點會影響項目的外部因素,
列出這些資訊,如行銷活動、節慶、法規變動、競爭對手造勢等,分析數據時要確保對照組與實驗組的參數組成,
或許很難做到單一變因與控制環境因子影響,但盡可能的降低或排除其比例,
得到的結果也可以走在正確的方向。
step 3 資訊分析方法
得到許多資訊,卻遲遲不知道如何下手分析或是找不到一個可以依據的邏輯方法?
我們可以透過選擇適合的分析框架幫助我們找出資訊關鍵點與切入點,
常見的框架方法列舉如下:
- 矩陣分析法
- 漏斗分析法
- 畫像分群分類
- 趨勢維度
- 行為軌跡
- 留存分析
- A/B測試
step 4 行動方案/策略
分析完成後會得洞察(insight),也就是足以回答起初設定的目標的答案;
若只是停留在「答案」而沒有後續動作,則對我們未來一點幫助也沒有,我們必須產出下一步行動方案/策略。
這部分範疇小至產品單一事件,如功能優化,大至公司跨部門協作與公司運營,
然而重點是在於我們要藉由數據分析知道預期與實際的「差異」,再次擬定改善方案或是開展新方向;
隨之而來會是依照新目標再次進入新的數據分析過程,
產生所謂的數據策略迭代,數據驅動的飛輪。
💡Tip:設立基準點、盤點內外資訊,選擇適當的分析框架,邏輯思考出下一步行動/策略。
總結:如何靠數據驅動策略?
透過「數據分析」輔助我們盡量以「科學客觀」而非「感覺」、「直覺」的方式做出適合的決策、行動以及驗證假設。
在進行分析之前要確保「輸入」是正確的,也就是數據收集與處理這部分,隨後的「輸出」即合理可信。
以產品經理而言,具備基礎統計學與產業知識等硬實力,對於進行數據分析會強而有力,同時培養數據思考與邏輯能力,
構建自己的見解,有助於策略/行動的開展。
另外,現今火紅的 AI、機器學習領域則是著重在「預測」,協助企業決策,
這部分也是值得產品經理探討與學習的部分。
(本文經授權轉載自Ian Wu的Medium,原文請點此。)
本文轉自經理人網站文章:產品經理如何學會數據分析?我分 6 階段,談數據思維與分析的基本功