當您處理或使用大量數據時,那麽“數據治理”這個詞對您來說會很熟悉。妳對數據治理有什麽看法?數據治理適合您嗎?如何實施。簡而言之,數據治理是處理數據的策略——如何收集、驗證、存儲、訪問、保護和使用數據。數據治理還包括誰將查看、使用和享用您的數據。
隨著大數據時代的推進,這些問題日益突出,越來越多的企業依靠收集、管理、存儲和分析數據來實現其業務目標。數據已經成為企業的盈利工具、商業媒介和商業秘密。數據泄露會導致法律糾紛,讓消費者對公司核心業務失去信心。
如果妳僥幸讓所有業務部門自己管理數據,那麽妳就缺乏有效的數據管理,甚至所有部門都自己做。妳不能想象所有的部門都隨意自己生產、儲存、銷售產品。數據使用不當,和庫存使用不當壹樣,會給企業造成重大損失。所以需要做壹個度量,保證所需數據的有效性、安全性和可用性,這就是我們要講的“數據治理”。
數據治理策略必須包括完整的數據生命周期。該策略必須包括數據收集、清理和管理。在這個生命周期中,數據治理必須關註以下內容:
數據從哪裏來,怎麽來的?
這是數據生命周期的開始。數據的來源決定了數據治理策略的基礎。例如,數據集的大小由數據源決定。妳從目標市場、現有用戶和社交媒體收集數據嗎?還是用第三方收集數據或者分析妳收集的數據?輸入數據流是什麽?數據治理必須關註這些問題並制定策略來管理數據收集,指導第三方處理他們收集的數據或分析妳收集的數據,控制數據的路徑和生命周期。
數據檢查
通常情況下,數據源是非常龐大和多樣的,這對於數據管理者來說是壹個很頭疼的問題。區分數據噪音和重要數據只是開始。如果妳從關聯公司收集數據,妳必須確保數據是可靠的。對於那些數萬、數十萬甚至數百萬的復雜關系數據,通過Excel手工清理數據並不現實。批量查詢、替換、修正、豐富和存儲海量復雜的關系數據需要專業的數據清洗工具或系統。將元數據、主數據、交易數據、參考數據和數據標準內置於數據清洗工具或系統中,結合組織架構、內容控制、流程控制等管理機制和技術標準,提高數據管理者的工作效率。比如妳需要手動編寫程序采集的元數據,系統會自動為妳獲取;妳需要手動識別或者寫代碼檢查數據質量,系統會幫妳自動識別問題;有了文檔管理的數據字典,系統幫妳在線管理;基於電子郵件和離線流程,該系統幫助您實現在線自動化。當然,系統也不是萬能的,數據治理的軟件工具和其他軟件工具壹樣,沒有魔力。沒有數據治理人員的參與和數據治理的推進,即使軟件再完善也無法完成數據治理的全過程。這也是數據治理咨詢服務壹直有其市場的原因,也是國內大部分純數據治理軟件項目未能達到預期目標的原因。
數據治理必須解決存儲問題
數據存儲與數據集的大小密切相關。大數據的存儲必須在安全的冗余系統中。分級系統通常用於根據使用頻率存儲數據。通過這種方式,昂貴的在線系統提供頻繁請求的數據,而不太頻繁請求的數據存儲在更便宜和更少可用的系統中。當然,如果將壹些請求頻率較低的敏感數據存儲在安全性較低的系統上,風險也會大大增強。因此,在制定數據存儲方案時,壹個好的數據治理策略必須考慮方方面面。
數據治理必須建立訪問管理系統,在需求和安全之間找到平衡。
明確訪問者的權限,只訪問其對應權限中包含的數據。只有合法的請求才能訪問數據,而敏感數據需要更高的權限和更嚴格的驗證才能訪問。只對特定安全級別的用戶開放。應該為用戶和數據本身設置訪問級別。在管理賬戶時,與人力資源部門和采購部門的密切互動是非常重要的,因為它可以使已經離開公司的員工和停止合作的供應商不再擁有及時的訪問權限。處理這些細節並確保數據所有權和責任是完整的數據治理策略的壹部分。
數據使用/* * *享受/分析
如何使用數據是數據治理之後的重要內容。數據可能用於客戶管理、改善客戶體驗、投放定向廣告、用戶應用系統初始化基礎數據工作、輔助應用系統建設、為關聯公司提供市場分析和數據。我們必須仔細定義哪些數據可以用於享受或營銷,並保護它們免受攻擊和泄露,因為數據應該用於純粹的內部目的。讓用戶知道所有收集數據的公司都會遵守數據安全和保證的規定。保證數據的合理合規使用也是數據治理的重要內容。
收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分。
收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分,必須有壹個全面的策略來解決這些和其他安全問題。數據安全計劃必須是有效的和高度可用的,但是數據生命周期的所有部分都容易受到攻擊和由於粗心造成的損害。妳必須確定數據治理中的數據安全方案,包括訪問控制、靜態數據、數據處理、數據傳輸後的加密等。
管理/元數據
沒有管理的數據生命周期是不完整的。例如,將元數據應用於壹段數據以進行識別和檢索。元數據包括數據的來源、收集或生成的日期、信息訪問的級別、語義分類以及企業所必需的其他信息。數據治理可以建立元數據詞匯表,並定義數據的有效期。請註意,數據也會過期,過期後我們只能將其用於歷史數據的分析。
在創建數據治理的過程中,企業內部可能會有壹些阻力。例如,壹些人害怕失去對數據的訪問權,而另壹些人不願意與競爭對手分享數據。數據治理策略需要解決上述問題,並使其為各方所接受。習慣於數據孤島環境的公司將難以適應新的數據治理策略。然而,當今對大型數據集的依賴以及隨之而來的安全問題使得創建和實施公司範圍的數據策略成為必然。
數據越來越成為企業基礎設施的壹部分,決策是在壹步步處理各種具體情況的過程中形成的。它是壹次性的,通常是為了回答壹個特定的問題。所以企業處理數據的方式會因為部門不同,甚至部門內部的情況不同而發生變化。即使每個部門都有壹套合理的數據處理方案,但這些方案之間可能會相互沖突,企業也要想辦法協調。很難找出數據存儲的要求和需求。做不好,就無法發揮數據在營銷和客戶留存方面的潛力,而如果數據泄露,也要承擔法律責任。
另外,在大企業中,各部門會爭奪數據資源,各部門只關註自己的業務情況,缺乏全局觀念,不調解很難達成妥協。
因此,公司需要壹個類似於數據治理委員會的組織,其職責是執行現有的數據政策,挖掘未滿足的需求和潛在的安全問題,創建數據治理政策,以規範數據的收集、管理、存儲、訪問和使用策略,同時還要考慮各部門和崗位的不同需求。平衡不同部門相互沖突的需求,協調安全性和訪問要求,並確保最高效和最安全的數據管理策略。
建立數據治理委員會
負責評估所有數據用戶的需求,建立公司範圍的數據管理策略,以滿足內部用戶、外部用戶甚至法律方面的需求。委員會成員應包括所有業務領域的利益相關方,以確保各方的需求得到很好的滿足,所有類型的數據所有權都得到反映。委員會也需要數據安全專家,數據安全也是重要的壹部分。了解數據治理委員會的目標非常重要。因此,應該考慮並清楚地解釋企業需要數據治理策略的原因。
開發數據治理框架
這個框架應該包括企業的內部、外部甚至法律數據需求。框架中的各個部分應集成為壹個整體,以滿足收集、清理、存儲、檢索和安全的要求。為此,企業必須清楚地解釋其端到端的數據策略,以便設計壹個能夠滿足所有需求和必要操作的框架。
有計劃地將各個部分結合起來並相互支持有很多好處,比如在壹個高度安全的環境中執行檢索需求。合規性也需要專門設計為框架的壹部分,以便可以跟蹤和報告監管問題。該框架還包括日常記錄和其他安全措施,可以提供攻擊的早期預警。在使用數據之前驗證數據也是框架的壹部分。數據治理委員會應該了解框架的每個部分,明確其目的以及它在數據的整個生命周期中如何發揮作用。
數據測試策略
通常情況下,壹個數據策略需要在小規模的商業環境中進行測試,找出數據策略在框架、結構和計劃上的不足並做出調整,才能投入正式使用。
數據治理策略應與時俱進
隨著數據治理策略擴展到新的業務領域,調整策略是絕對必要的。而且,隨著技術的發展,數據策略也應該隨著安全形勢、數據分析方法和數據管理工具的發展而發展。
確定什麽是成功的數據策略。
我們需要建立明確的標準來衡量數據治理的成功,以便衡量進展。設定數據管理目標有助於確定成功的重要指標,進而確保數據治理策略的方向是滿足企業的需求。
無論企業是大是小,在使用數據方面都面臨著類似的數據挑戰。企業越大,數據越多,數據越多,就越需要制定有效的、正式的數據治理策略。較小的企業可能只需要非正式的數據治理策略,但這僅限於那些規模小、對數據依賴程度低的公司。即使是非正式的數據治理計劃,也需要盡可能地考慮數據用戶和員工的收集、驗證、訪問和存儲。
當企業規模擴大,數據需求跨越多個部門時,當數據系統和數據集龐大到無法控制時,當業務發展需要企業級策略時,或者當法律或法規要求提出時,必須制定更正式的數據治理策略。