【好文分享】別讓報表騙了你!數據分析的基本功:弄懂每個數字從何而來
身為主管,經常會收到來自各部門的報表,像是服務滿意度調查、客戶拜訪次數、業績達成率,
各部門也會依據市場調查結果、銷售量,提出下季的產品開發建議。
在閱讀報表時,你可曾想過這些資料從何而來?
它們是擬定策略、衡量績效的可靠證據嗎?
就像公司在雙 11 活動創下營業佳績,卻忽略風光數字背後,退貨與訂單取消的金額。
事實上,根據媒體資料,阿里巴巴雙 11 活動的退貨率曾高達 30%,對電商來說是不小的負擔。
藉由客戶拜訪頻率選出超級業務員,但實際上他需要 10 次拜訪才能簽約,另一位 3 次拜訪就成功了,
輔以其他說明後,超級業務員可能要換人。
在經營管理上,我們常說要重視數字,但必須運用批判性思考,
釐清資料的來源、可信度、有效性,才不會掉入陷阱,做出錯誤決策。
證據指的是,根據某一個值得探討的意見,有系統地蒐集相關事實。
例如:數位內容部今年表現卓越、小明是年度銷售員,就需要證據來佐證與說服。
判別證據是否可靠的第一步,就是評估證據提供者是否可信。
從其他來源交叉比對證據,判斷數據是否可靠
證據分為原始資料與二手資料。
客戶訪談紀錄、實驗數據與監視器影像屬於原始資料,因為這些資料比較難偽造,人們也傾向信任它的真實性。
為了確認原始資料是否有缺漏或隱瞞的事實,像是監視器未拍到的死角等,可採交叉比對法,
透過訪談紀錄搭配錄音檔,或請第三方重複模擬實驗過程,檢視數據是否在誤差範圍內。
在二手資料的檢視上,《批判性思考》提到,公認專家撰寫或推薦、權威單位的研究報告,
及具有嚴謹審稿機制的期刊等,是比較可信的來源。
引用二手資料時,也要確認作者或贊助者與報告結果沒有利害關係。
若客戶滿意度調查是業務部自行製作的,或是反核能的調查報告是由太陽能板公司贊助執行,
就必須對調查的獨立性打上問號,建議了解證據取得的過程,再思考是否採納。
此外,原則上愈近期的研究與資料,愈具有參考價值,
但若是經典理論、歷史紀錄或領域知識等不太容易隨時間更動的內容,未必要參考時效性。
從樣本代表性、資料取得過程,評估證據有效性
評估證據來源是否可靠後,還必須確認證據的效力,如果證據的取得方式與推論過程有瑕疵,就不該作為支持論點的依據。
常見例子包括:被告受到強迫而撰寫的自白,在法律上無法作為強力證據;
五星評論餐廳若是透過贈送餐點邀請顧客評分,就不能當作佐證美食或服務水準的根據。
在引用問卷的調查結果時,《看穿假象、理智發聲,從問對問題開始》提醒應檢查它的樣本代表性:
「研究抽樣的事件或人有多少?樣本廣度多大?樣本隨機性如何?」
樣本數大小取決誤差值和母體數,常見的民意調查會以「95% 信心水準下,抽樣誤差為 ±3.0%」來計算抽樣的樣本數。
引用調查類型的數據時,可檢視它是否提供樣本計算過程,確認它的樣本數是否足夠。
樣本廣度代表抽樣的多樣性,當我們要調查全國顧客對保養品的滿意度,僅抽樣台北門市的客戶就缺乏廣度。
樣本隨機性表示每個樣本被抽到的機率應盡量相同,若以自願受訪的民眾、網購客戶來作為化妝品改版意見的參考,隨機性就不足。
抽樣過程會影響研究的結果,當樣本特質出現偏差,調查結果就有以偏概全的風險。
除了從樣本取得方式確認證據的品質,還需留意調查過程是否得宜。
舉例來說,看到「有 70% 勞工認為勞基法無法縮短工時」的說法時,可檢視原本的訪談問題,
若是透過誘導問答,像是「多數公司根本不害怕勞動檢查,你認為勞基法能縮減工時嗎?」,有效性就有待商榷。
調查的情境也會影響答案結果,如果該調查是主管發布,並要求員工具名填答,員工可能擔憂填答會引來關切,就會傾向迎合上頭的意見,而非真實心聲。另外,冗長的調查與問卷也會讓受訪者不耐,降低答題品質。建議先了解證據的取得方式與調查程序,再考慮該證據是否適合支持立論。
留意遺漏值、參照框架,解讀數字才有意義
「去年聯名商品的平均營收達 300 萬,今年公司要持續推出新聯名商品。」
引用數據增加說服力,是常見的報告方式,然而數字本身也有局限,
必須留心它能不能支撐作者的論點,有沒有被過度解釋。
《看穿假象、理智發聲,從問對問題開始》指出,常見的平均數(即算術平均數:一組數據之和/這組數據個數)
計算會涵蓋極端值,以此作為判斷依據未必反映真實。
以聯名商品平均年營收達 300 萬來看,假使 A 商品的營收就 200 萬元,其餘商品的營收不到 100 萬元,
代表只有某項產品表現優異,恐怕無法支持「繼續推新聯名商品」的論述。
由於平均數不能代表全體狀況,建議看到平均數時,可回頭確認原始資料的「全距」(一組資料中,資料的最大數值−資料的最小數值),
了解數值的分布狀況,全距越大代表資料變異狀況愈高,平均數的代表性愈低。
例如 A、B 兩公司的職員平均年齡都是 35 歲,但 A 的年齡全距是 40、B 是 5。
從全距來推測,A 公司可能有資深的工作者帶領團隊;
B 公司的職員年齡相近,較沒有跨代溝通的情形。
檢視數據資料時,也要注意遺漏的數值。
舉例來說,某企業某一季營收 300 萬好不好,就需要對照的數字,比如前一季、去年同期或是跟市場相比。
有時百分比看似很高,但換成絕對數字其實還好,像是某知名商圈的牛肉麵店倒閉 75%,聽起來很多,
但從絕對數字來看,由 7 家變成 4 家,似乎又沒那麼嚴重。
透過絕對數字與百分比的多種比較框架,讓判斷更有根據。
數據過度類推也是引用資料常犯的錯。
「研究報告指出,明年行動裝置的複合成長率達70%,顯見智慧手機的銷售動能強勁」就有過度類推的問題,
因為該資料僅支持行動裝置的成長,而行動電子裝置包括平板、智慧手錶、藍牙耳機等裝置,非單指智慧手機,
因此無法支持智慧手機銷售表現傑出的預測。
除了透過證據來源、證據推論過程、檢視數據漏洞來判斷證據的優劣,還能從研究調查的誠信度來看。
若研究附上訪談逐字稿、未統計過的數據等原始資料,詳盡說明統計數字的生成過程,加註完整的參考來源,
並主動揭示數據資料的解釋限制,甚至評析同類研究的結果,那麼該研究就會是比較可信的證據。
選擇具備批判性思考的研究作為證據,不僅讓自己的論點更扎實,對批判性思考的實踐也會有幫助。
本文轉自經理人網站文章:別讓報表騙了你!數據分析的基本功:弄懂每個數字從何而來