【好文分享】為什麼不刪任何數據,反而更危險?
在這大數據時代,數據可說是企業最寶貴的資產。
隨著雲端架構的快速發展,許多企業也導入了相關技術以便管理越來越多的數據,
並秉持著「一筆數據都不能刪」的原則。
根據 TechOrange 《雲端 AI 應用大調查》報告指出,約 37% 企業認為,
數據管理和分析自動化是企業 2023 年最優先關注的重點 IT 投資項目。
然而,過多的數據不僅可能會額外耗費大量成本,甚至還可能成為資安漏洞。
把數據通通存下來不好嗎?
這些瑣碎的數據大多難以確定價值,但大多數企業總會有個迷思,
認為數據存著總是比較心安,也許哪一天會用上。
而有些企業雖制定了內部政策,規定組織定期銷毀前僱員數據、財務數據等內容,
但仍會擔心,萬一在過程中誤刪了重要數據該怎麼辦?
根據估計,組織儲存的數據中,約有 30% 屬於多餘、過時或瑣碎的資料,
而 Splunk 的一項研究更發現,有高達 60% 的組織認為自己有一半以上的數據都屬於「暗數據」,根本無法確定它們的價值。
然而,這些數據其實就像是駭客眼中的肥羊,很容易成為資安漏洞。
另一方面,大量的過時數據也容易讓操作變得混亂,進而降低生產力。
想要妥善管理資訊,IT 管理者應該有效地創建出屬於自己的一套流程,
來識別、搜尋並刪除無用資訊。
創立明確的數據管理策略,可以這樣做
想要知道何時刪除數據,首先,要正確分析相關數據,並深入了解這些數據的使用情況,
分別根據「數據類型」(長期 or 短期)以及「數據使用狀況」來確認究竟要刪除哪些數據。
透過這樣的客觀分析方法,未來在與客戶溝通時,或許也能更容易獲得支持。
怎樣的數據才能算得上是有意義、高質量的數據?
數據公司 techtarget 提出了一個建議,認為企業須考量到數據的準確性、完備性、一致性、從眾性、完整性、可適時存取性,
再搭配使用的時機、相關預算等方面去調整。
在規劃路徑時,也務必考慮法規、數據長期價值和每階段轉移的成本。
例如,當初步分類數據後,就可以往下制定數據的移動流程。
最一開始資料會放在主要儲存區,接著是存放較少使用的資料區域(cold data),
其它更少使用的數據就可以進入封存區、用戶空間之外的隱藏位置,
或是就刪除資料。
建立顧客溝通管道,妥善取得共識
當內部建立了相關策略後,需要進一步確認這些決定是經過所有利益相關者同意的。
身為數據管理者,有責任向使用者和關係人說明數據使用和刪除的策略,
確保他們了解數據的期限、寬限期、刪除方式等等內容。
大部分企業在得知有寬限期時,
會更容易同意這樣的工作流程。
如果企業堅持要保留長期數據,也要讓公司決策者充分了解存取這些數據的額外步驟及成本。
例如,放到 AWS Glacier Deep Archive 的數據可能需要幾個小時才能存取,
而且還需額外收取程序費。
另一方面,刪除數據並非零成本的事情,除了要考慮讀取/寫入速度之外,
也要注意刪除時所消耗的系統性能。
以主題公園的拍照服務舉例,假設每天客人的照片容量為 100k,最多保留 30 天,
那麼,在第 30 天時,系統便須同時處理 100k 的新照片並刪除 100k 的容量。
換言之,假設系統刪除數據的速度跟加入新數據的速度一樣快,可能會需要額外添購儲存設備來保存過期數據。
相反的,如果能做好管理、層層移動,就能更容易減少負載問題。
文章 by Peggy Sha
本文轉自科技報橘網站文章:報告:有 30% 儲存數據是多餘或過時資料!但為什麼不刪任何數據,反而更危險?