6月2日上午,“2018數(shù)字政府與政務大數(shù)據建設高層研討會”在北京國際展覽中心召開,本次論壇由國脈數(shù)據研究院主辦,北京國脈互聯(lián)信息顧問有限公司、浙江蟠桃會網絡技術有限公司承辦,國脈海洋信息發(fā)展有限公司支持,來自國內政務大數(shù)據領域的管理者、研究者、實踐者等數(shù)百人到場參會。
▲2018數(shù)字政府與政務大數(shù)據建設高層研討會召開
會上,北京神州云聯(lián)科技有限公司咨詢顧問張瑞飛以“大緩存、大交換、大共享”為題發(fā)表演講。他從政務大數(shù)據建設趨勢出發(fā),深入分析我國大數(shù)據發(fā)展戰(zhàn)略在電子政務上的重點方向,并提出數(shù)字中國建設的核心能力是數(shù)據交換與共享;又從大數(shù)據業(yè)務應用的變化出發(fā),闡述了傳統(tǒng)大數(shù)據平臺忽略的大數(shù)據交換共享問題以及現(xiàn)有ETL數(shù)據處理不適應數(shù)據分析業(yè)務的缺陷問題,他表示,現(xiàn)有業(yè)務需求的變化要求數(shù)據實時響應需求,因此必須采取新一代流數(shù)據處理架構。
以下是會議現(xiàn)場發(fā)言要點實錄(根據現(xiàn)場速記和錄音整理,未經本人審核):
一、電子政務大數(shù)據建設趨勢分析
從國家一些政策來看,2015年開始,國務院發(fā)布了《促進大數(shù)據發(fā)展行動綱要》,提出了開放和共享做大數(shù)據治理的思路。2016、2017年,國務院、國家發(fā)改委做了互聯(lián)網、人工智能的強化活動,將人工智能和行業(yè)大數(shù)據進行結合。去年11月10日,中央政治局在進行第二次集中學習時,提出讓信息多跑路,讓民眾少跑腿,實施數(shù)字中國戰(zhàn)略。
關于數(shù)字中國的建設,今年網信辦和發(fā)改委評出30個最佳實踐案例,在最佳實踐里的項目名稱中有10個項目提到交換和共享,剩下的項目在內容里也絕對產生了交換和共享思路。我們現(xiàn)在處在一個大數(shù)據交換和共享時代,在這個時代,我們如何去實現(xiàn)數(shù)據匯聚?如何從數(shù)據匯聚走到數(shù)據共享、數(shù)據交換和使用?我認為這個過程在未來五年會不斷地出現(xiàn),不斷通過數(shù)據交換、共享釋放我們的生產力,通過大數(shù)據釋放整個工作效率??梢钥吹浇粨Q和共享的威力,從一天時間辦一個業(yè)務,現(xiàn)在可以縮短到10分鐘。
二、大數(shù)據業(yè)務應用正在發(fā)生變化
傳統(tǒng)的大數(shù)據業(yè)務面臨著比較大的挑戰(zhàn),第一個是傳統(tǒng)大數(shù)據的數(shù)據源很多。過去我們曾做過一個實驗,大數(shù)據要服務很多商業(yè)、企業(yè)和政府的辦公系統(tǒng),我們逐漸建立了一些數(shù)據倉庫,希望把數(shù)據從普通交易數(shù)據庫放到數(shù)據倉進行統(tǒng)一保存和存儲,但這一愿景和目標到今天還是沒有實現(xiàn),很多數(shù)據還是割裂的,數(shù)據倉庫能夠覆蓋的范圍很有限。隨著大數(shù)據平臺的出現(xiàn),我們會看到越來越多的這類問題,更多的系統(tǒng)變得更加分散。大數(shù)據平臺本身有幾十個讓我們去熟悉、使用,在傳統(tǒng)的數(shù)據倉里我們又維護了一套數(shù)據系統(tǒng),數(shù)據倉和大數(shù)據是很難打通的,在今天也沒能實現(xiàn)。90年代提出用一個統(tǒng)一的方法來統(tǒng)計數(shù)據,這個目標目前是沒辦法達成的。
這里面有個核心問題:做數(shù)據忽略了數(shù)據交換和共享。這個問題以前很少被提到,第一次是Google在2014年提出的,2015年亞馬遜提出一個設計理念,支持幾十萬個數(shù)據源不限量。舉一個公安的技偵例子,要通過技術偵查手段把互聯(lián)網信息、現(xiàn)場勘察信息、指紋信息、DNA信息進行技術分析,可以想象公安的數(shù)據量在互聯(lián)網時代面臨的數(shù)據壓力。當出現(xiàn)這個壓力時,最難的是如何解決卡口、網監(jiān)、信令、法制、反恐、事件、接處警、詢問、檔案等服務問題。
Google在2014年提到一個觀點,當時報道世界杯時需要一個新方法,被命名為數(shù)據流水線,Google正在給世界貢獻一個全新的生態(tài),這個生態(tài)不同于早期的Hadoop開源的生態(tài)。
2015年,亞馬遜看到Google的動作后,跟進了一個策略,提了三個方向,既支持批量又支持實時,這一點很難,目前絕大部分中國企業(yè)完全不支持。在2011年的時候提到一個架構,現(xiàn)在國內95%左右的數(shù)據普遍采用的一個技術架構,可能很多數(shù)據是放在HDM,有些數(shù)據放在一個流水線上,前面做了一個緩存和Hadoop數(shù)據進行交互,大量的系統(tǒng)是這樣的架構,但它有一個非常大的弱點,不能同時支持實時和批量,實時和批量是兩套系統(tǒng)、兩套數(shù)據庫。2011年全球提出這個方向,那是中國大數(shù)據興起的時候,第一基于開源系統(tǒng),第二基于云服務的生態(tài),第三是靈活擴展,指數(shù)據不限量,可以處理PB或更大,都需要一個橫向擴展能力,對數(shù)據源也不限量,可以是幾十個,甚至是幾百,但在亞馬遜看來是不夠的,希望是幾十萬個數(shù)據源。
基于這樣的架構,我們在國內的發(fā)展態(tài)勢要彌補過去大數(shù)據的不足,我們也沒辦法顛覆原來的大數(shù)據架構,重新構造一套可能不現(xiàn)實,希望有一個新方法來解決它的問題,我們就提出了一個大數(shù)據前置的部分,希望建立一個大緩存,這個緩存可以基于內存。緩存的意思好理解,把它處理到PB級,達到這樣的技術手段,實現(xiàn)特別大的緩存,在這個緩存上實現(xiàn)數(shù)據交換和共享的能力,來支撐和彌補我們以前在大數(shù)據架構上的不足。
我們借鑒Google和亞馬遜的方式,建設了大數(shù)據共享平臺,支持各種數(shù)據源實時和批量的數(shù)據交換。在數(shù)據源支持上,可以看到,不只支持數(shù)據庫,數(shù)據源本身不等于數(shù)據庫?,F(xiàn)在這個時代,數(shù)據源也包括網絡協(xié)議,從互聯(lián)網分裝下來的協(xié)議,包括中間件或者是各種文件,互聯(lián)網和公共設備所傳遞的一些設備,所以數(shù)據源不能簡單看是支撐多種數(shù)據庫。實施數(shù)據管理,數(shù)據同步、對比驗證、數(shù)據傳輸、數(shù)據交換、數(shù)據質量管理,將歷史數(shù)據和決策數(shù)據放到一個平臺,所有人都可以在這個平臺上進行大數(shù)據處理。
以前的大數(shù)據來自于不同的源,有不同的格式,所以我們有一個人工的苦活,全部是通過手工編寫腳本和驗證的方法來實現(xiàn),要統(tǒng)一成一個格式來進行加工。我們現(xiàn)在有方法變成自動化,通過數(shù)據流水線的方式來實現(xiàn)數(shù)據從采集到加工的一體化服務?,F(xiàn)在亞馬遜正跟我們合作,把它原來云上的私有云到公有云手動遷移改造成一個自動的遷移。這種能力在新的數(shù)據加工里,有人會叫做邊緣計算,在新的架構里更強調通過統(tǒng)一的數(shù)據模式、一個數(shù)字形態(tài),在數(shù)據采集的時候就開始計算,而不是把所有的數(shù)據匯集到一個集中的節(jié)點或者是集群上進行計算,所以我們賦予了數(shù)據計算的邊緣能力。
我們打通跨部門的數(shù)據橋梁,打通的意義在于解決了一個問題,有時候我們建一個數(shù)據平臺比較容易,但是建一個數(shù)據平臺往往發(fā)現(xiàn)建了一套存儲,并沒有用起來,各個部門難以協(xié)調,它的意義在于我們沒有強行要求數(shù)據上收,原來的數(shù)據邏輯還在,但是通過一個交換共享中心能夠輔助快速處理,并且處理的結果還可以返回,通過修橋梁的方式,我們更容易實現(xiàn)數(shù)據的打通和上收。
如果只有海量的交換和集群,可能還是不夠。比如中國人民銀行總行,在未來希望把3000家銀行、銀保監(jiān)會、證監(jiān)會的數(shù)據匯聚到人民銀行里,難度可想而知,工行一家的數(shù)據可能會把人民銀行的數(shù)據做宕機,3000家銀行的數(shù)據匯聚起來是更難的問題,除了有快速的交互,還需要有更快速的處理能力,不是兩套系統(tǒng)分別寫出來的。
為什么選DataHouse?大家覺得傳統(tǒng)的Hadoop是比較慢,它比我們這套系統(tǒng)能夠慢到600多倍,Hadoop早期是基于批處理數(shù)據,我們希望提供更快速的處理。當處理達到幾百倍的數(shù)量級,比如在公共服務方面,公安破一個案子,有可能要對案件研判和推理,一個是一周的時間計算出來,一個是一分鐘計算出來,這是本質的差別,不只是性能的差別。我們33個節(jié)點可以支持2個PB的數(shù)據讀寫,反饋速度是0.01秒來計量。
未來可以有一些演進,我們可以整合在datahouse架構里面。在橫向就打通數(shù)據流,從源數(shù)據到采集、入庫、處理,實現(xiàn)了完整打通,沒有借助于很多的大數(shù)據平臺,我們是在一個平臺上用S來完成的。
下面是一些案例,我們利用了大數(shù)據的能力,也應用了人工智能自然語言處理能力,給公安構造了10套系統(tǒng),同時我們也寫了一個數(shù)據交換共享標準。這是在公安局的一個實際測試,對技偵大數(shù)據的測試,同時也在交通研究所,把全國交通卡口所有的圖像上收,來進行一次統(tǒng)一的數(shù)據分析處理。
這就是我們剛才講到的技偵數(shù)據處理,既有DPI的互聯(lián)網分裝的數(shù)據,也有通過采集和爬蟲的數(shù)據,看到分包數(shù)據的原始狀態(tài),同時也有設備上的網關,如何把不同格式的數(shù)據匯聚到一起,最后提出一個服務。這是我們現(xiàn)在這套系統(tǒng)給大家展示的一種能力,不需要先做很多格式轉換,做一個臨時庫、臨時表,分別建數(shù)據集等,不需要這些東西,這些東西太浪費開發(fā)精力、周期也太長,我們在采集的同時就可以計算,計算的同時就可以發(fā)布。謝謝大家!