神秘嘉賓,巨杉數(shù)據(jù)庫聯(lián)合創(chuàng)始人CTO。神秘嘉賓表示大數(shù)據(jù)本身的概念涵蓋了從IT基礎(chǔ)架構(gòu)到上面的業(yè)務(wù)有很多的層面。從技術(shù)的層面來看,數(shù)據(jù)湖是一個比較好的詞匯。 數(shù)據(jù)湖到底代表什么,很多企業(yè)都有數(shù)據(jù)倉庫,把這些數(shù)據(jù)匯總在一塊。它跟傳統(tǒng)的數(shù)據(jù)倉最大的區(qū)別就是,傳統(tǒng)的數(shù)據(jù)倉是把有限的數(shù)據(jù)匯總起來。大數(shù)據(jù)并不是對傳統(tǒng)數(shù)據(jù)倉的取代,而是一個補充,是把所有大數(shù)據(jù)匯聚到一個湖里,它強調(diào)的是對全量數(shù)據(jù)所有屬性的一個存儲,而不單單對于某一些維度的存儲。 在數(shù)據(jù)湖里如果再細看,實際上有兩類方式,一類叫做分析類,然后在這個數(shù)據(jù)里分析出一些報表來。比如說要看整個市民的圖,有一些地方要統(tǒng)計一年以來的交易額,另外有一個區(qū)域叫做交互區(qū)。 在這個區(qū)域里面主要做一些實時交互式的查詢和檢索,除了領(lǐng)導(dǎo)整天要看的統(tǒng)計報表里面,要看一些明細數(shù)據(jù),當(dāng)前什么人在什么地方做什么事的時候,這兩個數(shù)據(jù)加在一起統(tǒng)計跟交互構(gòu)成一個完整的大數(shù)據(jù)的平臺。 整個的近線數(shù)據(jù)平臺的定位,實際上我們把它放在這個位置,是溫數(shù)據(jù)和冷數(shù)據(jù)的群,實際上說到數(shù)據(jù)治理,任何一個地方一般把數(shù)據(jù)分成三種類型,一種叫熱數(shù)據(jù),可能也是在線的數(shù)據(jù)倉庫比如說所有在線交易的情況。另外有一些ODS或者數(shù)倉,這種類型的數(shù)據(jù)是保存在近線的數(shù)據(jù)平臺,再往前可能兩三年前的數(shù)據(jù),大家會把它放到一個庫里面進行離線的存儲叫做冷數(shù)據(jù)。 我們今天強調(diào)的主要是近線平臺,數(shù)據(jù)針對的并不是在線數(shù)據(jù),而是溫數(shù)據(jù)和冷數(shù)據(jù)。它的好處有幾個,第一個好處就是這種系統(tǒng)在上線的時候非常的安全,比如說領(lǐng)導(dǎo)決定做一個項目的時候,可能第一個考慮這個東西會不會對已有的業(yè)務(wù)產(chǎn)生影響,這些系統(tǒng)已有的業(yè)務(wù)是在熱數(shù)據(jù)區(qū),而我們新的近線數(shù)據(jù)平臺是在一個溫數(shù)據(jù)和冷數(shù)據(jù)區(qū),它對于熱數(shù)據(jù)沒有影響。 其次大家關(guān)心的是這個東西的投入成本,一般一個項目一上來投入幾千萬做這個事,大家都會比較擔(dān)心。但是我們的經(jīng)驗里面類似于這種類型,針對于近線數(shù)據(jù)和離線數(shù)據(jù)的系統(tǒng)投入相對比較少,并且它的見效非??臁K男Ч覀儼阉殖蓛蓚€類型,第一個類型我們把它叫做離線數(shù)據(jù)的近線化,離線數(shù)據(jù)就是說原本的數(shù)據(jù)存到代庫里面,我們想查的時候很麻煩,這些數(shù)據(jù)我們通過大數(shù)據(jù)把它進行在線化。 第二個叫做近線數(shù)據(jù)的瘦身,可能很多企業(yè)都在用數(shù)據(jù)倉庫,每年擴容需要付這些廠商一大筆錢,是不是使用大數(shù)據(jù),相對比較低廉的成本進行運算呢,這個就是第二個近線數(shù)據(jù)做瘦身。