吳曉丹Phi5星評(píng)價(jià)
2020-09-11 10:13:14
區(qū)塊鏈和大數(shù)據(jù)兩者屬于不同的時(shí)代,區(qū)塊鏈?zhǔn)抢^大數(shù)據(jù)之后的又一次技術(shù)革命。大數(shù)據(jù)通常用來描述數(shù)據(jù)集足夠大,足夠復(fù)雜,以致很難用傳統(tǒng)的方式來處理。而區(qū)塊鏈能承載的信息數(shù)據(jù)是有限的,離大數(shù)據(jù)”標(biāo)準(zhǔn)還差得很遠(yuǎn)。
大數(shù)據(jù),需要應(yīng)對(duì)海量化和快增長(zhǎng)的存儲(chǔ),這要求底層硬件架構(gòu)和文件系統(tǒng)在性價(jià)比上要大大高于傳統(tǒng)技術(shù),能夠彈性擴(kuò)張存儲(chǔ)容量。谷歌的GFS和Hadoop的HDFS奠定了大數(shù)據(jù)存儲(chǔ)技術(shù)的基礎(chǔ)。另外,大數(shù)據(jù)對(duì)存儲(chǔ)技術(shù)提出的另一個(gè)挑戰(zhàn)是多種數(shù)據(jù)格式的適應(yīng)能力,因此現(xiàn)在大數(shù)據(jù)底層的存儲(chǔ)層不只是HDFS,還有HBase和Kudu等存儲(chǔ)架構(gòu)。
區(qū)塊鏈,是比特幣的底層技術(shù)架構(gòu),它在本質(zhì)上是一種去中心化的分布式賬本。區(qū)塊鏈技術(shù)作為一種持續(xù)增長(zhǎng)的、按序整理成區(qū)塊的鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),通過網(wǎng)絡(luò)中多個(gè)節(jié)點(diǎn)共同參與數(shù)據(jù)的計(jì)算和記錄,并且互相驗(yàn)證其信息的有效性。從這一點(diǎn)來說,區(qū)塊鏈技術(shù)也是一種特定的數(shù)據(jù)持久化技術(shù)。
區(qū)塊鏈?zhǔn)且环N不可篡改的、全歷史的分布式數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù),巨大的區(qū)塊鏈數(shù)據(jù)集合包含著每一筆交易的全部歷史,隨著區(qū)塊鏈技術(shù)的應(yīng)用迅速發(fā)展,數(shù)據(jù)規(guī)模會(huì)越來越大,不同業(yè)務(wù)場(chǎng)景區(qū)塊鏈的數(shù)據(jù)融合會(huì)進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模和豐富性。
熊貓不喝酒8星評(píng)價(jià)
2020-09-07 10:14:39
區(qū)塊鏈和大數(shù)據(jù)是兩個(gè)在過去幾年中都得到飛速發(fā)展的技術(shù)。2016年第46屆世界經(jīng)濟(jì)論壇達(dá)沃斯年會(huì)論壇的主題為“掌控第四次工業(yè)革命”,包括人工智能、無(wú)人駕駛、區(qū)塊鏈、量子計(jì)算等在內(nèi)的科技前沿領(lǐng)域在會(huì)議中被反復(fù)提及。
在今天,區(qū)塊鏈能夠承載的信息數(shù)量是有限的,離我們要用“大數(shù)據(jù)”的標(biāo)準(zhǔn)來衡量的地步還差得很遠(yuǎn),不過,干里之行,始于足下,我們要一步步地來。如果要讓區(qū)塊鏈承載大數(shù)據(jù),那么目前我們所看到的這些區(qū)塊鏈系統(tǒng)都還不具備這個(gè)能力。
下面是區(qū)塊鏈系統(tǒng)的三個(gè)和大數(shù)據(jù)有矛盾,需要改進(jìn)的特點(diǎn):分布式的、有隱私的、安全的。
區(qū)塊鏈系統(tǒng)是分布式的,而大數(shù)據(jù)講究的是可規(guī)?;⒖闪炕臄?shù)據(jù);區(qū)塊鏈系統(tǒng)是匿名的、有隱私的,而大數(shù)據(jù)在意的是個(gè)性化;區(qū)塊鏈系統(tǒng)是安全的,信息是相對(duì)獨(dú)立的,而大數(shù)據(jù)在意的是信息的整合分析。
區(qū)塊鏈系統(tǒng)本身就是一個(gè)數(shù)據(jù)庫(kù),而我們所說的大數(shù)據(jù)指的是對(duì)數(shù)據(jù)的深度分析和挖掘,也就是說,數(shù)據(jù)分析和數(shù)據(jù)挖掘需要構(gòu)建在區(qū)塊鏈系統(tǒng)之上,把數(shù)據(jù)的價(jià)值發(fā)揮出來。如果要做到以數(shù)據(jù)為基礎(chǔ)來做決策,那么大數(shù)據(jù)的應(yīng)用是區(qū)塊鏈系統(tǒng)必須要完成的個(gè)步驟。
大數(shù)據(jù)領(lǐng)域的同學(xué)們?cè)缇完P(guān)注了區(qū)塊鏈系統(tǒng)的發(fā)展。R語(yǔ)言是大數(shù)據(jù)領(lǐng)域中一種重要的編程語(yǔ)言。早在2014年9月, Jan gorecki就編寫了一個(gè)可以用來分析比特幣區(qū)塊鏈的程序庫(kù), Bitcoin。在htts:/cran.r- project. org/web/ packages/Bitcoin中可以查看這個(gè)庫(kù)的細(xì)節(jié),研究大數(shù)據(jù)的同學(xué)可以引用這個(gè)庫(kù)來對(duì)比特幣區(qū)塊鏈中的交易數(shù)據(jù)歷史記錄進(jìn)行分析。
從區(qū)塊鏈技術(shù)生態(tài)圈示意圖中我們可以看到,如果我們想要把區(qū)塊鏈上的大數(shù)據(jù)做好,則需要的不只是對(duì)區(qū)塊鏈平臺(tái)技術(shù)的改進(jìn),還需要在平臺(tái)之上的大數(shù)據(jù)公司為區(qū)塊鏈系統(tǒng)做數(shù)據(jù)分析和數(shù)據(jù)挖掘,以及提供最好的商業(yè)智能解決方案。
大數(shù)據(jù)是一個(gè)通用的詞,我們通常用它來描述數(shù)據(jù)集足夠大,足夠復(fù)雜,以致我們大數(shù)據(jù)的區(qū)塊鏈化Oracle甲骨文的副總裁 Neil Mendelson曾經(jīng)對(duì)于大數(shù)據(jù)的安全性表示過深切的關(guān)很難用傳統(tǒng)的方式來做處理。他認(rèn)為大家都在拼命提高數(shù)據(jù)存儲(chǔ)的量和數(shù)據(jù)處理的能力,卻鮮有人關(guān)注大數(shù)據(jù)本身的安全性。
區(qū)塊鏈?zhǔn)且粋€(gè)誕生不久的分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)。它不同于以往數(shù)據(jù)存儲(chǔ)系統(tǒng)的一個(gè)有趣特點(diǎn)在于,你無(wú)法對(duì)系統(tǒng)上的數(shù)據(jù)做隨意的修改,而這個(gè)特點(diǎn)是之前其他數(shù)據(jù)系統(tǒng)所不具有的當(dāng)區(qū)塊鏈技術(shù)出現(xiàn)之后,筆者就在想這個(gè)問題:能否在大數(shù)據(jù)的系統(tǒng)上添加“區(qū)塊鏈”的原理,從而使得原有大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)不能被隨意添加、修改和刪除呢?
如果我們考慮的是數(shù)據(jù)的全部?jī)?nèi)容,那么把所有的數(shù)據(jù)都放到區(qū)塊鏈系統(tǒng)上是不現(xiàn)實(shí)的,也是不可能做到的。筆者認(rèn)為這里可能有兩種做法:
對(duì)于存放進(jìn)來的歷史數(shù)據(jù)源,因?yàn)樗鼈兪遣荒鼙恍薷牡?,我們可以?duì)大塊的數(shù)據(jù)做Hash處理,并加上時(shí)間戳,存進(jìn)區(qū)塊鏈中。在未來某一時(shí)刻,當(dāng)我們需要驗(yàn)證原始數(shù)據(jù)的真實(shí)性時(shí),可以對(duì)對(duì)應(yīng)的數(shù)據(jù)做同樣的Hash處理,如果得出的答案是相同的,則說明數(shù)據(jù)是沒有被篡改過的。
只對(duì)匯總數(shù)據(jù)和結(jié)果做處理。這樣,我們就只需要處理增量數(shù)據(jù),那么應(yīng)對(duì)的數(shù)據(jù)量級(jí)和吞吐量級(jí)可能是今天的區(qū)塊鏈或者改善過的系統(tǒng)可以處理的。