與今天相比,10年前建立數據戰略要相對容易一些。那時,數據庫專家們爭論著甲骨文、微軟和IBM關系數據庫的功能和性能,還針對是否使用MySQL和PostgresSQL等開源數據庫展開了辯論。少數企業研究了NoSQL數據庫,這包括來自MarkLogic、MongoDB和Apache Cassandra等公司的文檔存儲、鍵值數據庫和列式數據庫等技術。在企業系統之間移動大量數據的企業投資于ETL(提取、轉換和加載)平臺,而少數企業則投資于數據質量或者主數據管理解決方案。
而發展到今天,首席信息官認識到數據和信息是21世紀的真正寶庫。擁有多樣化的數據管理選擇、可靠的數據操作實踐、主動數據治理、高級分析、公民數據科學計劃和成熟的機器學習能力等,都是實現具有競爭力和差異化的業務能力所必需的。
前不久,我參加了在紐約舉行的Strata數據大會,想要了解一下首席信息官們在制定和執行全面數據戰略時所面臨的新機遇、趨勢和挑戰。
在開幕式的主題演講中,Cloudera公司的首席營銷官Mark Hollison引用了《哈佛商業評論》最近進行的一項研究,非常清楚地證明了這些挑戰。這項研究的一個關鍵發現是,“69%的受訪者說,他們的企業需要全面的數據戰略,以便在未來3年內實現其戰略目標,而只有35%的受訪者說,他們企業的分析和數據管理能力正在朝著這些目標前進。”
這說明了對數據和分析的業務期望越來越高,而底層實現卻越來越復雜,這其間有很大的差距。首席信息官們如果想縮小這些差距,那就應該在他們的數據戰略中考慮Strata數據大會重點介紹的以下5種技術能力。
1、管理多個云上的數據平臺
據同一項調查,51%的受訪者計劃在其數據戰略中使用多個云,只有12%的受訪者將75%以上的數據放在公有云上。將數據整合到集中式數據倉庫或者數據湖的策略似乎已經過時了,而新現實是,首席信息官必須能夠管理、集成和共享存儲在多個公有云和私有云中的數據。
好消息是,Cloudera數據平臺、SAP數據匯集和InfoWorks DataFoundry等平臺能夠幫助數據部門管理、集成和治理對存儲在不同大數據引擎和不同云上的數據存儲庫的訪問。
我曾與InfoWorks首席執行官Buno Pati討論過怎樣在多云環境中處理數據。他告訴我,“為企業數據處理和編排打好健壯而又靈活的基礎是任何現代企業數據戰略成功的關鍵所在。這些系統必須能夠幫助企業快速啟動新的分析應用實例,最大限度地減少對非常專業化人才的依賴,并無縫地穿越具有各種執行引擎和存儲系統(例如,Hadoop、Spark和云基礎設施)的混合云和多云環境。”
2、在多個大數據平臺上要有成熟的功能
首席信息官們可以使用袖珍字典來幫助定義越來越流行的所有大數據平臺。盡管大數據平臺早期大多使用了Hadoop,而當今的企業則采用了多種平臺,包括Apache Spark、Apache Hive、Snowflake,以及AWS、Azure和谷歌云平臺支持的多個數據庫,等等。
使用多個大數據平臺給首席信息官們帶來了巨大的挑戰,這是因為很難找到擅長數據和分析的技術人員,而且管理多個平臺也增加了操作和安全的復雜性。
雖然很多企業會整合到較少的數據平臺上,并將其作為一種戰略,但他們也必須考慮服務、工具、合作伙伴關系和培訓,以便在多個數據平臺之間提供更好的支持。
3、投資于數據目錄
由于大型企業不太可能把數據集中在一個數據倉庫或者數據湖中,因此建立數據目錄的必要性在戰略上就變得更加重要了。
數據目錄有助于最終用戶搜索、識別和了解更多可用于分析、機器學習實驗和應用程序開發的數據存儲庫。數據目錄還提供了一個中心點,用于管理訪問策略、發布數據源的狀態,還支持最終用戶與領域專家之間的協作。
Cloudera、SAP和Infoworks都具有數據目錄功能,作為其產品的一部分。
4、為作業選擇合適的數據集成平臺
10年前,爭論的焦點在于是否投資ETL平臺,然后是投資于哪一個,而今天的問題則是更廣泛和更具戰略性的。這是因為今天的數據集成涵蓋了比ETL支持的批處理功能更廣泛的應用情形。當今的很多企業有:
?物聯網和其他實時數據處理的數據流需求,通過Apache Kafka、Apache Spark等平臺和VantIQ等事件驅動的架構來滿足。
?文檔和其他非結構化數據處理需求,通過MarkLogic數據匯集平臺或者文檔存儲(例如,Apache Lucene、Apache Solr和MongoDB)來滿足。
?數據科學家和業務分析人員的數據準備需求,使用Tableau Prep、Alteryx Designer和Trifacta Wrangler等工具來滿足。
?API與SaaS平臺和企業數據源的集成需求,通過Boomi和MuleSoft等平臺進行優化。
?提高數據質量和創建主數據源的需求,這些主數據源是使用Informatica、Talend、IBM、Reltio、Tamr等其他平臺創建的。
然而,沒有一個通用的平臺可以支持所有這些應用情形。此外,通過為作業選擇合適的工具,可以更有效地實現數據集成,并提供更可靠的支持。這可能意味著,希望能滿足多種數據集成需求的企業將不得不通過幾個數據集成平臺才能獲得成熟的功能。
5、利用每一項新功能主動進行數據治理
雖然首席信息官、首席信息安全官和首席數據官更希望在采用新業務功能之前先進行數據治理,但這是一種不現實的戰略。需要進行分析以實現數據驅動決策,并獲得更多競爭優勢的企業必須快速行動,把治理做為先決條件,但在進行這方面的嘗試時會遇到阻礙。
對于那些負責保護企業數據資產、隱私政策和機密信息的高管來說,這確實是個棘手的問題。
然而,首席信息官和首席數據官有可能在采用新工具、功能和數據源的同時實施數據治理。這要求引進人才,以了解接受投資平臺的數據治理能力,并建立引入和管理數據源更改的程序。
如果沒有這些規則,首席信息官們將會面臨數據債務,類似于技術債務企業隨著時間的推移積累起來的債務。
好消息是,首席信息官們將在面向企業的成熟數據平臺上獲得數據治理能力。然而,擁有技術能力只是一個開始,首席信息官還需要技術人才、培訓計劃和變革管理實踐,以使業務部門理解并遵守數據治理。
我不太喜歡“數據就是新油田”這種比喻,但不妨先這樣想。石油公司不僅購買鉆機,還神奇地擁有端到端的機制,可以高效地找到油田,并將石油運往煉油廠。這不是那么簡單,同樣的,數據管理、分析和機器學習也不是那么簡單。
然而,只要企業負責任地投資于滿足其應用情形的平臺,投資于人才,并在數據集成、管理和治理方面完善其實踐,這一切也并非難事。
作者:Isaac Sacolick是《數字化驅動:通過技術進行業務轉型的領導者指南》一書的作者,該書涵蓋了很多實踐,例如敏捷、開發運維和數據科學等,這些都是成功實施數字化轉型計劃的關鍵。