大數(shù)據(jù)更需要強(qiáng)調(diào)數(shù)據(jù)挖掘利用,而針對(duì)目前存在的技術(shù)應(yīng)用、人才、安全與隱私等問(wèn)題,最關(guān)鍵的是要有國(guó)家大數(shù)據(jù)戰(zhàn)略,使其成為轉(zhuǎn)變經(jīng)濟(jì)增長(zhǎng)方式的有效抓手。
不要被大數(shù)據(jù)(Big Data)的“Big”誤導(dǎo),大數(shù)據(jù)更強(qiáng)調(diào)的不是數(shù)據(jù)之多,而是數(shù)據(jù)挖掘。數(shù)據(jù)大與價(jià)值大未必成正比,例如將一個(gè)人每分鐘的身體數(shù)據(jù)記錄下來(lái),對(duì)了解該人的身體狀況是有用的,但如果將他每毫秒的身體數(shù)據(jù)都記錄下來(lái),數(shù)據(jù)量將較前者高6萬(wàn)倍,與按每分鐘記錄的數(shù)據(jù)相比,其價(jià)值并不能增加。大數(shù)據(jù)的價(jià)值在于樣本數(shù)的普遍性。統(tǒng)計(jì)一個(gè)人每分鐘的身體狀況數(shù)據(jù)與統(tǒng)計(jì)60個(gè)人每小時(shí)的身體狀況數(shù)據(jù)相比,可能后者在統(tǒng)計(jì)上更有意義。大數(shù)據(jù)往往是低價(jià)值密度。大數(shù)據(jù)中的多數(shù)數(shù)據(jù)可能是重復(fù)的,忽略其中一些數(shù)據(jù)并不影響對(duì)其挖掘的效果。因此可以說(shuō)大數(shù)據(jù)的價(jià)值好似沙里淘金和海底撈針。
大數(shù)據(jù)的量越大處理難度就越大,就需要更多的服務(wù)器或更高速的服務(wù)器。實(shí)時(shí)性是大數(shù)據(jù)挖掘面臨的挑戰(zhàn),而非結(jié)構(gòu)化是大數(shù)據(jù)挖掘的主要挑戰(zhàn)。目前國(guó)際上大數(shù)據(jù)處理技術(shù)主要集中在結(jié)構(gòu)性數(shù)據(jù),但是大數(shù)據(jù)中80%以上都是非結(jié)構(gòu)性數(shù)據(jù)。目前國(guó)內(nèi)外都有很多大數(shù)據(jù)應(yīng)用成功的例子,但基本上還是結(jié)構(gòu)性數(shù)據(jù),對(duì)結(jié)構(gòu)性數(shù)據(jù)的挖掘是大數(shù)據(jù)應(yīng)用的切入點(diǎn)。