【好文分享】淺談大數據分析應用,掌握先機的關鍵鑰匙
「大數據big data」或許不是陌生的名詞,但是,您知道它的原理和運用方法嗎?
您是否聽說過「大數據的5V原則」?
還有,您是否熟悉「做好大數據的三個基礎步驟」?
大數據(big data)在現今的數位科技界早已不是陌生詞彙,卻依然擁有極高的討論度,
只因其伴隨而來的分析以及後續應用,正持續打破人們對於數位資訊的固有想像。
從商業決策到行為預判、從資訊科技基礎建設到日常生活每一個環節,
到處都有大數據的蹤影,大數據儼然已成為一種指標。
然而,
大數據究竟是什麼?
對您有什麼影響?
能為企業帶來哪些優勢?
分析數據會碰到什麼困難?
技嘉科技為高性能伺服器產品的知名品牌,發表本篇《科技指南》,為各位探究大數據背後的玄機,
協助各位解決使用上的問題。
大數據是什麼?集「5V」於一體的巨量資料
顧名思義,「大數據」可簡單理解為龐大資料的集合體,又稱為巨量資料。
每當有人使用電腦或是與網路連線,都是在添加更多的新資料,
而隨著科技發展,數據的產生速度正以爆炸性的幅度增長。
如YouTube的觀看次數、電商的顧客購買資料、每日金融交易資訊、甚至是社群媒體的互動紀錄、或是單一網頁的停留秒數等,
這類龐大又複雜的資料,都可視為大數據的一部分。
看過以上的定義,您可能覺得「大數據」和「數據」之間沒有任何差異,所有的數據都是某種「大數據」。
事實並非如此,「大數據」除了擁有更複雜且更龐大的資料量,讓傳統的資料處理技術無力負荷,
往往也需要更多台電腦同時處理,才能進行相關的分析與應用,
導致公部門與私部門紛紛建立資料中心、或是伺服器農場。
針對大數據的具體描述,以2001年高德納諮詢公司(Gartner)分析員萊尼(Doug Laney)所提出的「3V原則」最廣為人知,
分別為:
● 數據量(Volume)
大數據最顯著的特點,就是需要處理的資料量十分可觀,
單一網站的瀏覽紀錄等,所構成的資料量隨著時間尺度而不同,可能達TB(terabyte)、PB(petabyte),甚至EB(exabyte)的程度。
● 多樣性(Variety)
大數據不只是「大」,還有「雜」,存有多種型態不一的資料類型,除了結構化資料以外,隨著技術演進、資料定義的改變,
非結構化資料也與日俱增,不同型態的資料都需經過分析處理,才能夠有效應用。
● 速度(Velocity)
儘管大數據的資料量龐大,數據產生、接收與處理的速度,也不同於傳統數據處理效率,
亦可理解為數據處理的即時性。
數位資訊快速膨脹,所產生的資料量只會更大、更瑣碎,且型態更為多元;
因此,資料可信度與分析後的可用性,已成為大數據逐漸重視的特點,
以至於大數據的定義新增了真實性(Veracity)與價值性(Value)兩個新「V」,統稱為「5V原則」。
而依照目前科技推進的速度,相信不久後將有更多特性催生而出,再次刷新大數據的定義。
大數據分析為何重要?藏在數據中的無限寶藏
不久之前,假設我們想要了解某族群對某件事將如何反應(例如,中年婦女對洗髮精廣告的反應),
較為科學性的研究方法,就是透過量化研究及統計分析。
大數據分析不同於統計學的抽樣方式,而是拿「所有的數據」來做觀察與追蹤,並針對使用者的需求提出最佳解法。
在這個生活行為逐漸「連線」的時代,隨著物聯網(IoT)發達、電子消費蓬勃發展,網頁搜尋與閱覽紀錄等數據資料皆有跡可循,
線上世界有如模擬真實世界的「數位分身」──您是否已察覺大數據分析的價值所在?
舉例來說,對電商而言,使用者的瀏覽紀錄和消費模式息息相關,藉由大數據分析,可針對行為進行預測,
讓客戶還未開始搜尋之前,就已將購物資訊即時奉上。
精準行銷和客製廣告投放不僅提升客人的使用者體驗、刺激消費行為,
也有助於避免無效的行銷模式,進而控管營運成本,
而這不過是大數據分析的其中一項應用而已!
除此之外,大數據分析能給予更完整的資訊,直接協助企業降低決策風險及誤判的可能性。
因此,我們必須討論應用大數據時自然產生的問題:
為了讓其發揮最大功效,首先要了解如何使用大數據,又可能遇到什麼難題?
如何做好大數據?三個基本步驟,教您彙整、整合及應用
大數據分析聲勢如日中天,從知名企業、電商到政府機構和學術組織,
幾乎都在使用大數據來協助解決難題,或是希望從中發現新的洞見。
但是,要有效地利用大數據,就得從資料的蒐集彙整、到數據的整合運用,到後續的應用與微調,
以上這三個大方向來進行探討。
大數據彙整:蒐集、存儲管理、篩選來源
大數據每年以驚人的速度成長,在IDC國際數據資訊有限公司的預測下,
2025年全球大數據資料量將達驚人的175 ZB(等於175兆 GB),相較2018年全球資料量僅33ZB,2016年甚至未突破20ZB。
面對以排山倒海之勢席捲全球的大數據,IT工作者要如何準備足夠的存儲空間、如何規劃與時俱進的篩選機制,
將是許多人必須克服的第一道關卡。
許多企業選擇利用雲端存儲(這是雲端運算的一個環節)及分散式運算系統,來解決記憶儲存量過小的困境。
但是,這並沒有解決資料「真實性」與「價值性」的問題,
唯有洞察大數據的資料來源,才能確保您所彙整的大數據真正有用:
● 第一方數據:
此為大數據使用者直接與目標群(可能是企業客戶)互動時所獲取的資料,
如顧客會員資料、購物頁面瀏覽紀錄等,此類數據直接反應客戶行為,
通常具有高度利用價值,是精準行銷層面的參考來源。
● 第二方數據:
透過和其他單位合作、買賣等方式,藉以得到對方的第一方數據,突破自己在第一方數據的侷限與不足。
好比說,您在社群平台點擊某些商品連結之後,該品牌就會陸續向您投放廣告,
這就屬於第二方數據的應用。
● 第三方數據:
當資料來源是與目標群無直接關係的單位,此類型數據即為第三方數據,
如瀏覽器的瀏覽紀錄,最耳熟能詳的便是瀏覽器cookie技術,用來追蹤、記錄用戶的瀏覽網站資訊。
其特性在於無差別性地廣泛蒐集資料,藉以幫助企業發現潛在客戶,常用來當作市場開發的評估等面向,
但也因此常伴隨著隱私疑慮,在使用上須格外謹慎,
確保符合法律規範的要求,不得侵犯他人隱私。
大數據整合:分析、整理與轉化
經過彙整的大數據,必須和企業經營策略、或是公家機關的公共政策、或是研究機構的學術理論做結合,
才算是發揮價值,透過大數據找到問題解方。
但資料庫中多半是未經清理的原始資料,且資料型態多元,除了能清楚定義的結構化資料之外,
還有大量的文字、圖像、影音等無法明確定義的非結構化資料或半結構化資料。
利用大數據之前,資料要做整理、分析和運算,轉化成有價值、可使用的資料,
且有別於傳統分析方式,大數據分析需要具有即時性,
在蒐集資料的同時,就能快速產出分析結果。
因此,運算資源和處理效能是整合大數據的關鍵。
先進的大數據整合工作,大多不會使用單一電腦或伺服器進行,
而是使用多台伺服器合力運作,組成所謂的運算叢集,進行平行運算或高效能運算(HPC),
並透過視覺化軟體,將生冷的數據轉變成清楚易懂的圖表,用來發現問題的痛點及對應解法。
上述所需的分析技術,是大數據應用於經營策略的第二項考驗;
挑選正確的軟硬體工具,可使您的大數據體驗變得事半功倍。
但在處理和執行大數據分析時,需留意個資安全問題,許多原始資料除了型態不一之外,
內容可能也混雜著客戶姓名、身分證字號、手機號碼等個人資料。在逐漸重視資訊安全與個資問題的今日,
許多大數據資料都要經過去識別化(de-identification)的整理程序,才能開始與經營策略結合,
以避免後續可能發生的法律問題。
大數據應用:多方領域的成功案例分享
大數據之所以有價值,因為它能真實反映現實狀況;
因此,儘管經營策略(或是公共政策等)已經陸續導入大數據的分析與應用,
還是要仔細觀察現實世界的使用狀況,持續針對大數據做微調與修正。
大數據的應用範疇十分廣泛,企業、政府機關和學術單位都仰賴大數據,
以下僅是幾種較為顯著的大數據實用案例:
● 機器學習與人工智慧
人類因為掌握大數據的海量資料,進而延伸出機器學習、人工智慧等不同的應用方式。
無論是仰賴電腦視覺的自駕車,或是協助電腦了解人類溝通的「自然語言處理」(NLP),
最終都需要以數據資料作為養分,讓電腦有自我學習、預測未來、自動執行的能力,
跳脫以往只能循著固定程式運作的舊有模式。
透過大數據的分析應用,甚至能讓設備達到預測性維護、搜尋引擎提供自動推薦等先進功能。
● 預測性商業模式
大數據應用於行銷及商業模式的實際案例,想必大家都略有耳聞,
從陌生客群開發、消費行為追蹤,及預判客戶的消費行為,在人人搶客戶的商業戰場,
從使用者的搜索記錄、瀏覽網頁,進一步預判潛在的購物動機,
為其提供客製化的消費套餐,都是鮮明的實例。
更創新的應用方式之一,就是亞馬遜(Amazon)開發的「預測配送模型」,
它透過大數據預判消費者的購物行為,並提前將貨物運送到附近配送點,
只要等買家按下購物鍵,即可安排出貨,縮短整個運送過程,
不僅降低配送成本,也大大提升顧客體驗。
這是很好的啟發,我們每個人都能想想,
該如何使用大數據來創造空前未有的價值。
● 協助學術研究執行、促進公共政策成形
學術研究往往需要數據支撐其論點,也經常仰賴高效能運算技術。
有了大數據的輔助,以往運算困難的巨量資料將得以解套,並能得到更即時且準確的預測分析結果,
如氣象模擬、社會學研究、行為狀態分析等,都是其應用範疇。
有價值的學術研究成果,也有助於公共政策落地,
例如西班牙跨學科物理和複雜系統研究所(IFISC),2021年參與「DISTANCIA-COVID計畫」,
透過大數據的應用,分析行動裝置的資訊流量,研究與新冠肺炎疫情擴散之間的關聯,
並分析「社交距離」措施的效益。IFISC購買技嘉科技R282-Z91、R272-Z32兩款R系列機架式伺服器,
伺服器提供的低延遲資料傳輸、高穩定資料儲存功能,都是處理大數據時非常需要的伺服器特性。
● 量身打造的精準化推薦,加深您的娛樂體驗
藉由記錄使用者進入品牌網站或是平台後的行為模式,可得知其瀏覽習慣與行為變化,
並透過大數據分析,做到精準化的產品推薦,有效提升顧客回購率。
像是購物網站上常見的「猜你喜歡」購物列表,這些「猜」的行為,
背後都有大數據作為推薦依據。
此外,知名影音串流平台網飛Netflix,也是運用精準化推薦的佼佼者。
您是否留意到?每次瀏覽影片清單時,片單上所推薦的影片順序、種類都不盡相同,
這便是藉由大數據分析,針對不同瀏覽行為所做出的客製化清單,
以此讓使用者投注更多關注力與時間在平台上!
希望經由本篇文章介紹,能幫助各位進一步認識大數據的定義、分析應用與面臨的挑戰。
本文轉自技嘉科技官網-技嘉觀點網站文章:淺談大數據分析應用,掌握先機的關鍵鑰匙