數據存儲、數據分析、數據安全......如今,圍繞“數據”的話題越來越多,離人們的生活也越來越近。
從陌生到熟悉,數據不僅“出圈”,甚至已然站在了C位。去年,中央發布的《關於構建更加完善的要素市場化配置體制機制的意見》中明確表示,繼土地、勞動力、資本、技術後,數據成為第五大生產要素。
步入信息化時代後,數據庫、操作系統與中間件作為計算機最基礎的三大軟件,支撐著企業的正常運行。
當數據成為生產要素後,必然會迎來爆發式增長,企業的數據存儲和處理需求將進壹步釋放。更重要的是,疫情加快了數字化轉型的腳步,更加速了企業的上雲速度。
從信息化到數字化,時代的變革,總會帶來商業世界的變化。如何在雲原生架構下使用數據庫,成為企業的痛點和雲廠商的機會,亞馬遜AWS的CTO Werner Vogels曾多次強調:“數據庫是雲計算的終極之戰。”
在數智化時代,雲原生到底意味著什麽?雲原生數據庫和傳統數據庫相比,核心優勢是什麽?是否把數據庫搬上雲就是雲原生?基於這些問題,雷鋒網與阿裏巴巴集團副總裁、阿裏雲數據庫產品事業部負責人李飛飛展開壹場對話。
國產雲原生數據庫,擺脫「切膚之痛」
如今,數據庫的商業世界,因為雲的出現與發展,分成了兩大派系。
壹派是以Oracle為代表的傳統商用數據庫,壹派是以國外AWS、國內阿裏雲為代表的雲原生數據庫,去“IOE革命”下的產物。
其實,早期較為火熱的數據庫種類有三種,層次式數據庫、網絡式數據庫和關系型數據庫。
在《浪潮之巔》壹書中,作者吳軍寫下了這樣的觀點:“Oracle 的興起很大程度上靠的是它最早看到關系型數據庫的市場前景,並且在商業模式上優於 IBM。”
因此,在雲原生數據庫“入世”之前,數據庫的天下壹直是Oracle的,國內大部分互聯網公司都不得不采用Oracle+IBM小型機+EMC的模式來維持正常運營。
高昂的費用,使得對於數據庫需求較大的互聯網巨頭“忍無可忍”。
2009年,阿裏巴巴的Oracle RAC 集群節點數達到了創記錄的20個。可由於Oracle並沒有彈性擴展的功能,只能按照峰值流量購買小型機和數據庫,導致阿裏將業務上漲帶來的大部分利潤,都支付給了Oracle。
第二年,阿裏便開始走上了去“IOE”之路,根據開源MySQL搭建了AliSQL,並順利經過了淘寶雙11的考驗,國產雲原生數據庫算是正式擺脫了“切膚之痛”,逐漸受到市場的真正認可。
另壹邊,國外的AWS在2015年公布了基於雲計算的自研數據庫Amazon Aurora。Aurora是壹個關系型數據庫,可以跨3個可用區域復制6份數據,其最大的特性就是高性能和高可用性。
雲計算巨頭的入局,讓雲原生數據庫在國內外壹步步成為主流。據Gartner預測,到了2021年,雲數據庫在整個數據庫市場中的占比將首次達到50%,到2023年,75%的數據庫都要跑在雲平臺之上。
關於雲原生數據庫,隨著逐步的出圈,也讓人們關心的焦點從“是啥?”轉變為“還能解決哪些問題?”
但雲原生數據庫存在著數據孤島的問題,無法打通多個數據系統的情況下,企業在數據加工和數據管理上就會“壓力較大”,甚至在數據安全方面還存在隱患。
傳統數據倉庫壹般基於T+1數據集成構建離線數倉,以支撐企業各項分析與服務。傳統方案不但會影響線上業務穩定性,且難以支持企業的實時需求。
因此,在李飛飛看來,雲原生數據庫已經走到2.0階段。這個階段要解決的問題,就是上述存在的痛點。
9月26日,在阿裏雲數據庫創新上雲峰會上,阿裏雲發布了首個壹站式敏捷數據倉庫解決方案。該方案結合壹站式數據管理平臺DMS及雲原生數據倉庫AnalyticDB(簡稱:ADB),實現了庫倉壹體的技術架構,提供在線數據實時入倉、T+1周期性快照、按需建倉等能力,數據延時低至秒級,持續賦能業務在線化,使企業的在線數據可以釋放出更大的價值。
相較於傳統方案,阿裏雲壹站式敏捷數據倉庫解決方案有4大核心優勢:
1、對業務側影響小,不會因為數據匯聚集中和實時加工影響業務側正常運行,CPU、內存占用低於5%;
2、事務順序和數據準確性有保障,且處理鏈路短,支持在線數據實時處理落倉,效率更高。數據傳輸效率100m/s,數據延時在10秒內;
3、支持復雜實時數據加工、計算邏輯;
4、低代碼操作,能夠大大降低實時數倉的構建難度,提升構建效率的同時,支撐企業數字化轉型過程中的各類實時場景。
除了實時統計分析場景外,企業為滿足周期性數據分析需求,需建設周期性全量快照。
傳統數倉的周期性全量集成方案會對生產業務造成穩定性影響、全量集成時效性差、且無法滿足客戶針對任意時間點進行數據回溯的業務訴求。
針對T+1周期性集成場景,壹站式敏捷數據倉庫解決方案支持基於拉鏈表的T+1全量數據快照,用戶通過簡單幾個步驟,即可按需生成各種周期的全量或增量快照。
此外,業務還可按需進行任意時間點的數據回溯,以快速解決數據異常問題。
談起未來數據庫的發展趨勢,李飛飛提到以下五點:
1、雲原生+分布式壹定是數據庫的標配,分布式已經是必選項。分布式數據庫由多個相互連接的數據庫組合而成,面向用戶則是以單個數據庫的形態出現。雲原生分布式數據庫具備易用性、高擴展性、快速叠代、節約成本等特征,從資源池化到彈性擴展,再到智能運維,再到離在線壹體化,解決企業用戶的核心訴求。
2、AI for DB(database,指數據庫)和 DB for AI 將是主流趨勢。用AI將數據庫運維管控智能化,尤其在雲原生+分布式這個前提下更重要,因為數據庫不僅是內核的能力彈性高可用、可拓展性,更重要的是部署後應用和運維的復雜度要大大降低。在數據庫裏,面對越來越多非結構化的數據,分析能力十分重要。
3、數據的安全可信,在今天這個大環境下變得愈發重要,如何確保整個數據庫系統,在處理數據全鏈路過程中提供加密能力、多方安全計算能力、隱私保護的能力,也是很重要的趨勢。
4、多模數據處理能力將越來越重要。比如,新型數據庫多模態的處理能力,在新能源 汽車 企業打標簽、智能電池化預測等應用場景中,將發揮越來越重要的作用。
5、壹份數據,多個數據處理引擎:實現倉庫壹體、倉庫聯動、倉庫打通,數據之間無縫流轉。
以上判斷,也從側面反映出阿裏雲數據庫的走向,這點毋庸置疑。但除此之外,業界最關心的,還有開源。
近半年,國內很多廠商相繼提出開源戰略,背後緣由顯而易見,為了打造生態。就在今年的阿裏雲峰會上,阿裏雲智能總裁、達摩院院長張建鋒(花名行癲)將2021年阿裏雲的發展關鍵詞歸納為:做好服務、做深基礎、做厚中臺、做強生態。
做好服務與生態,成為如今廠商們不約而同的目標,而開源,就是最好的選擇。
當雷鋒網問到:“未來,阿裏雲數據庫會不會把所有能力都開源?”這壹問題時,李飛飛給到的回答是:“不會。”
之所以有這樣的回答,是因為對於開源,他有著壹些判斷和看法。
李飛飛表示,這些部分,本就是阿裏雲數據庫的商業化版本。
事實上,業界大多數的數據庫廠商都不會針對自身的核心能力開源,如TiDB的核心管控組件、TiFlash。
與像MongoDB,、Cassandra、CouchDB這些以開源起家的數據庫廠商不同,開源只是阿裏雲數據庫的戰略,不是阿裏雲數據庫的命脈。
前幾年,有業內人士表示,在面向開源時,國產數據庫首先需要解決信任以及開源知識產權等問題。“開源會讓廠商更加認真思考版權還有專利的問題,事實上,選擇開源後,對於數據庫廠商提出了更高的要求。”
李飛飛認為,開源只是壹種選擇,數據庫開源成功並不代表著商業化就能夠成功,不開源也不能代表廠商不先進。
更準確的說,開源只是壹種有效手段。
最終,阿裏雲數據庫希望客戶能夠通過開源版本把阿裏雲數據庫產品技術快速用起來,並能夠參與到技術產品的叠代過程中,在壹些高階能力上,借鑒團隊專業能力和阿裏雲的服務能力,成為良好的商業合作夥伴,這是李飛飛以及阿裏雲數據庫對於開源的壹些基本思考。雷鋒網雷鋒網雷鋒網