入木三分:“大數(shù)據(jù)”如何啟迪未來(lái)20
《入木三分:“大數(shù)據(jù)”如何啟迪未來(lái)20》由會(huì)員分享,可在線閱讀,更多相關(guān)《入木三分:“大數(shù)據(jù)”如何啟迪未來(lái)20(20頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、 入木三分:“大數(shù)據(jù)”如何啟迪未來(lái) 也就是這一兩年的光景,我們?cè)陔鼥V之中仿佛已經(jīng)進(jìn)入了一個(gè)言必稱“大數(shù)據(jù)”的時(shí)代。就像望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測(cè)微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源頭,而更多的改變正蓄勢(shì)待發(fā)。大數(shù)據(jù)激發(fā)了一場(chǎng)思想風(fēng)暴,導(dǎo)演了一場(chǎng)思維變革。大數(shù)據(jù)正以前所未有的速度顛覆人們探索世界的方法,引起社會(huì)、經(jīng)濟(jì)、學(xué)術(shù)、科研、國(guó)防、軍事等領(lǐng)域的深刻變革。執(zhí)迷于精確性已然成為信息缺乏時(shí)代、模擬時(shí)代的產(chǎn)物;允許不精確、寬容混雜性將不可竭力避免,而是被證明的標(biāo)準(zhǔn)途徑。那些總是愛(ài)追因溯源、刨根問(wèn)底的人們或許會(huì)被遺棄,因?yàn)榇髷?shù)據(jù)時(shí)代里,
2、由果追因已經(jīng)是明日黃花的“伎倆”,只要“是什么”“不要問(wèn)我為什么”成為了最佳答案。因?yàn)閿?shù)據(jù)呈現(xiàn)的相關(guān)性已經(jīng)可以滿足大部分人的認(rèn)知需求,而透過(guò)大數(shù)據(jù)現(xiàn)象挖掘事物本質(zhì),個(gè)中成本(時(shí)間、物質(zhì))也不是深諳博弈之道的人們所愿擔(dān)負(fù)的。數(shù)據(jù)成為資產(chǎn)、產(chǎn)業(yè)垂直整合、泛互聯(lián)網(wǎng)化是大數(shù)據(jù)時(shí)代的三大發(fā)展趨勢(shì)。數(shù)據(jù)資產(chǎn)成為和土地、資本、人力并駕齊驅(qū)的關(guān)鍵生產(chǎn)要素。圍繞數(shù)據(jù)資產(chǎn),一幕幕跌宕起伏的產(chǎn)業(yè)大戲已經(jīng)上演。本文就將帶您去深入了解“大數(shù)據(jù)”概念,帶領(lǐng)您去領(lǐng)略大數(shù)據(jù)時(shí)代的“造化”。為您送上一顆“子彈”,引發(fā)您的“頭腦風(fēng)暴”,覆滅您的保守之心,怠慢之氣! 大數(shù)據(jù):引領(lǐng)人類數(shù)據(jù)生成方式步入高級(jí)階段 數(shù)據(jù)生成的“自主時(shí)
3、代” 人類歷史上從未有哪個(gè)時(shí)代和今天一樣產(chǎn)生如此海量的數(shù)據(jù)。數(shù)據(jù)的產(chǎn)生已經(jīng)完全不受時(shí)間、地點(diǎn)的限制。從開始采用數(shù)據(jù)庫(kù)作為數(shù)據(jù)管理的主要方式開始,人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了三個(gè)階段,而正是數(shù)據(jù)產(chǎn)生方式的巨大變化才最終導(dǎo)致大數(shù)據(jù)的產(chǎn)生。 首先是運(yùn)營(yíng)式系統(tǒng)階段。數(shù)據(jù)庫(kù)的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低,實(shí)際中數(shù)據(jù)庫(kù)大都為運(yùn)營(yíng)系統(tǒng)所采用,作為運(yùn)營(yíng)系統(tǒng)的數(shù)據(jù)管理子系統(tǒng)。比如超市的銷售記錄系統(tǒng),銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療記錄等。人類社會(huì)數(shù)據(jù)量第一次大的飛躍正是建立在運(yùn)營(yíng)式系統(tǒng)開始廣泛使用數(shù)據(jù)庫(kù)開始。這個(gè)階段最主要特點(diǎn)是數(shù)據(jù)往往伴隨著一定的運(yùn)營(yíng)活動(dòng)而產(chǎn)生并記錄在數(shù)據(jù)庫(kù)中的,比如超市每銷售出
4、一件產(chǎn)品就會(huì)在數(shù)據(jù)庫(kù)中產(chǎn)生相應(yīng)的一條銷售記錄。這種數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的。 然后是用戶原創(chuàng)內(nèi)容階段?;ヂ?lián)網(wǎng)的誕生促使人類社會(huì)數(shù)據(jù)量出現(xiàn)第二次大的飛躍。但是真正的數(shù)據(jù)爆發(fā)產(chǎn)生于Web 2.0 時(shí)代,而Web 2.0 的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容(UGC,User Generated Content)。這類數(shù)據(jù)近幾年一直呈現(xiàn)爆炸性的增長(zhǎng),主要有兩個(gè)方面的原因。首先是以博客、微博為代表的新型社交網(wǎng)絡(luò)的出現(xiàn)和快速發(fā)展,使得用戶產(chǎn)生數(shù)據(jù)的意愿更加強(qiáng)烈。其次就是以智能手機(jī)、平板電腦為代表的新型移動(dòng)設(shè)備的出現(xiàn),這些易攜帶、全天候接入網(wǎng)絡(luò)的移動(dòng)設(shè)備使得人們?cè)诰W(wǎng)上發(fā)表自己意見(jiàn)的途徑更為便捷。這個(gè)階段數(shù)據(jù)的產(chǎn)生
5、方式是主動(dòng)的。 而今,我們進(jìn)入了感知式系統(tǒng)階段。人類社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生,今天我們正處于這個(gè)階段。這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。隨著技術(shù)的發(fā)展,人們已經(jīng)有能力制造極其微小的帶有處理功能的傳感器,并開始將這些設(shè)備廣泛的布置于社會(huì)的各個(gè)角落,通過(guò)這些設(shè)備來(lái)對(duì)整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控。這些設(shè)備會(huì)源源不斷的產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)生方式是自動(dòng)的。 簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)產(chǎn)生經(jīng)歷了被動(dòng)、主動(dòng)和自動(dòng)三個(gè)階段。這些被動(dòng)、主動(dòng)和自動(dòng)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來(lái)源,但其中自動(dòng)式的數(shù)據(jù)才是大數(shù)據(jù)產(chǎn)生的最根本原因。 正如Google 的首席經(jīng)濟(jì)學(xué)家Hal Varian 所說(shuō),數(shù)
6、據(jù)是廣泛可用的,所缺乏的是從中提取出知識(shí)的能力。數(shù)據(jù)收集的根本目的是根據(jù)需求從數(shù)據(jù)中提取有用的知識(shí),并將其應(yīng)用到具體的領(lǐng)域之中。 從“池塘捕魚”到“大海捕魚” “大數(shù)據(jù)時(shí)代的預(yù)言家”維克托·邁爾-舍恩伯格(Viktor Mayer-Sch nberger),在其所著的《大數(shù)據(jù)時(shí)代》一書中就闡釋所謂“大數(shù)據(jù)”的含義,即不僅人類生產(chǎn)和生活中“有意義”的信息海量產(chǎn)生,相比以往呈幾何數(shù)級(jí)的爆炸式增長(zhǎng),“無(wú)意義”的數(shù)據(jù)的膨脹速度也同樣驚人;而且,政府、企業(yè)已經(jīng)具備了全面采集“大數(shù)據(jù)”并予以無(wú)遺漏分析的技術(shù)能力。 大數(shù)據(jù)本身是一個(gè)比較抽象的概念,單從字面來(lái)看,它表示數(shù)據(jù)規(guī)模的龐大。但是僅僅數(shù)量上的
7、龐大顯然無(wú)法看出大數(shù)據(jù)這一概念和以往的“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)等概念之間有何區(qū)別。對(duì)于大數(shù)據(jù)尚未有一個(gè)公認(rèn)的定義,不同的定義基本是從大數(shù)據(jù)的特征出發(fā),通過(guò)這些特征的闡述和歸納,試圖給出其定義。在這些定義中,比較有代表性的是3V 定義,即認(rèn)為大數(shù)據(jù)需滿足三個(gè)特點(diǎn):規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。除此之外,還有提出4V 定義的,即嘗試在3V 的基礎(chǔ)上增加一個(gè)新的特性。關(guān)于第四個(gè)V 的說(shuō)法并不統(tǒng)一,IDC市場(chǎng)研究公司(International Data Corporation全球領(lǐng)先之
8、科技產(chǎn)業(yè)媒體、研究及活動(dòng)公司)認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(Value),大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn)。而IBM (International Business Machines Corporation國(guó)際商業(yè)機(jī)器有限公司)認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Veracity)。維基百科對(duì)大數(shù)據(jù)的定義則簡(jiǎn)單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。 從數(shù)據(jù)庫(kù)(Database, DB)到大數(shù)據(jù)(Big Data, BD),看似只是一個(gè)簡(jiǎn)單的技術(shù)演進(jìn),但細(xì)細(xì)考究不難發(fā)現(xiàn)兩者有著本質(zhì)上的差別。大數(shù)據(jù)的出現(xiàn),必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式。在數(shù)據(jù)來(lái)源、數(shù)據(jù)處
9、理方式和數(shù)據(jù)思維等方面都會(huì)對(duì)其帶來(lái)革命性的變化。如果要用簡(jiǎn)單的方式來(lái)比較傳統(tǒng)的數(shù)據(jù)庫(kù)和大數(shù)據(jù)的區(qū)別的話,我們認(rèn)為“池塘捕魚”和“大海捕魚”是個(gè)很好的類比?!俺靥敛遏~”代表著傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)代的數(shù)據(jù)管理方式,而“大海捕魚”則對(duì)應(yīng)著大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式,“魚”是待處理的數(shù)據(jù)?!安遏~”環(huán)境條件的變化導(dǎo)致了“捕魚”方式的根本性差異。這些差異主要體現(xiàn)在如下幾個(gè)方面: 數(shù)據(jù)規(guī)模:“池塘”和“大海”最容易發(fā)現(xiàn)的區(qū)別就是規(guī)模?!俺靥痢币?guī)模相對(duì)較小,即便是先前認(rèn)為比較大的“池塘”,譬如VLDB(Very Large Database),和“大?!盭LDB(Extremely Large Database)相比
10、仍舊偏小?!俺靥痢钡奶幚韺?duì)象通常以MB 為基本單位,而“大?!眲t常常以GB,甚至是TB、PB為基本處理單位。 數(shù)據(jù)類型:過(guò)去的“池塘”中,數(shù)據(jù)的種類單一,往往僅僅有一種或少數(shù)幾種,這些數(shù)據(jù)又以結(jié)構(gòu)化數(shù)據(jù)為主。而在“大?!敝?,數(shù)據(jù)的種類繁多,數(shù)以千計(jì),而這些數(shù)據(jù)又包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份額越來(lái)越大。 模式(Schema)和數(shù)據(jù)的關(guān)系:傳統(tǒng)的數(shù)據(jù)庫(kù)都是先有模式,然后才會(huì)產(chǎn)生數(shù)據(jù)。這就好比是先選好合適的“池塘”,然后才會(huì)向其中投放適合在該“池塘”環(huán)境生長(zhǎng)的“魚”。而大數(shù)據(jù)時(shí)代很多情況下難以預(yù)先確定模式,模式只有在數(shù)據(jù)出現(xiàn)之后才能確定,且模式隨著數(shù)
11、據(jù)量的增長(zhǎng)處于不斷的演變之中。這就好比先有少量的魚類,隨著時(shí)間推移,魚的種類和數(shù)量都在不斷的增長(zhǎng)。魚的變化會(huì)使大海的成分和環(huán)境處于不斷的變化之中。 處理對(duì)象:在“池塘”中捕魚,“魚”僅僅是其捕撈對(duì)象。而在“大?!敝?,“魚”除了是捕撈對(duì)象之外,還可以通過(guò)某些“魚”的存在來(lái)判斷其他種類的“魚”是否存在。也就是說(shuō)傳統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù)僅作為處理對(duì)象。而在大數(shù)據(jù)時(shí)代,要將數(shù)據(jù)作為一種資源來(lái)輔助解決其他諸多領(lǐng)域的問(wèn)題。 處理工具:捕撈“池塘”中的“魚”,一種漁網(wǎng)或少數(shù)幾種基本就可以應(yīng)對(duì),也就是所謂的One Size Fits All。但是在“大海”中,不可能存在一種漁網(wǎng)能夠捕獲所有的魚類,也就是說(shuō)No S
12、ize Fits All。 從“池塘”到“大?!保粌H僅是規(guī)模的變大。傳統(tǒng)的數(shù)據(jù)庫(kù)代表著數(shù)據(jù)工程(Data Engineering)的處理方式,大數(shù)據(jù)時(shí)代的數(shù)據(jù)已不僅僅只是工程處理的對(duì)象,需要采取新的數(shù)據(jù)思維來(lái)應(yīng)對(duì)。圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專家Jim Gray 博士觀察并總結(jié)人類自古以來(lái),在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論和計(jì)算三種范式。當(dāng)數(shù)據(jù)量不斷增長(zhǎng)和累積到今天,傳統(tǒng)的三種范式在科學(xué)研究,特別是一些新的研究領(lǐng)域已經(jīng)無(wú)法很好的發(fā)揮作用,需要有一種全新的第四種范式來(lái)指導(dǎo)新形勢(shì)下的科學(xué)研究?;谶@種考慮,Jim Gray 提出了一種新的數(shù)據(jù)探索型研究方式,被他自己稱之為科學(xué)研究的“第四種范式”
13、(The Fourth Paradigm)。 第四種范式的實(shí)質(zhì)就是從以計(jì)算為中心,轉(zhuǎn)變到以數(shù)據(jù)處理為中心,也就是我們所說(shuō)的數(shù)據(jù)思維。這種方式需要我們從根本上轉(zhuǎn)變思維。正如前面提到的“捕魚”,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不再僅僅是“捕撈”的對(duì)象,而應(yīng)當(dāng)轉(zhuǎn)變成一種基礎(chǔ)資源,用數(shù)據(jù)這種資源來(lái)協(xié)同解決其他諸多領(lǐng)域的問(wèn)題。計(jì)算社會(huì)科學(xué)(Computational SocialScience)基于特定社會(huì)需求,在特定的社會(huì)理論指導(dǎo)下,收集、整理和分析數(shù)據(jù)足跡(dataprint),以便進(jìn)行社會(huì)解釋、監(jiān)控、預(yù)測(cè)與規(guī)劃的過(guò)程和活動(dòng)。計(jì)算社會(huì)科學(xué)是一種典型的需要采用第四種范式來(lái)做指導(dǎo)的科學(xué)研究領(lǐng)域。Duncan J.
14、Watts 在《自然》雜志上的文章《Atwenty-first century science》也指出借助于社交網(wǎng)絡(luò)和計(jì)算機(jī)分析技術(shù),21 世紀(jì)的社會(huì)科學(xué)有可能實(shí)現(xiàn)定量化的研究,從而成為一門真正的自然科學(xué)。 從云計(jì)算到大數(shù)據(jù) 如今,大數(shù)據(jù)的重要性越來(lái)越明顯,但就和云計(jì)算一樣,它也不是一個(gè)從天而降的新事物,而是在三個(gè)主要因素的驅(qū)動(dòng)下,逐步成長(zhǎng)成熟的。 大數(shù)據(jù)的驅(qū)動(dòng)力 第一個(gè)驅(qū)動(dòng)力,就是業(yè)界常說(shuō)的大數(shù)據(jù)的三個(gè)V(Volume, Variety, Velocity),而這三個(gè)V可以有多種解讀。 首先來(lái)看看第一個(gè)V,巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。IT業(yè)界所指的數(shù)據(jù),誕生不過(guò)60多年。而一直到P
15、C普及到千家萬(wàn)戶之前,由于存儲(chǔ)、計(jì)算和分析工具的技術(shù)和成本限制,許多自然界和人類社會(huì)值得記錄的信號(hào),并未形成數(shù)據(jù)——幾十年前,氣象、地質(zhì)、石油物探、出版業(yè)、媒體業(yè)和影視業(yè)是大量、持續(xù)產(chǎn)出信號(hào)的行業(yè),但那時(shí)90%以上采用的是存儲(chǔ)模擬信號(hào),難以通過(guò)計(jì)算設(shè)備和軟件進(jìn)行直接分析。那些擁有大量資金和人才的政府和企業(yè),也只能把少量最關(guān)鍵的信號(hào),進(jìn)行抽取、轉(zhuǎn)換、裝載到數(shù)據(jù)庫(kù)中?! ? 值得注意的是,業(yè)界對(duì)達(dá)到怎樣的數(shù)量級(jí)才算是大數(shù)據(jù)并無(wú)定論,其實(shí)在很多行業(yè)的應(yīng)用場(chǎng)景里,數(shù)據(jù)集本身的大小并不是最重要的,是否完整才最重要。 第二個(gè)V,在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián)?;ヂ?lián)網(wǎng)時(shí)代,各種設(shè)備通過(guò)TCP/I
16、P網(wǎng)絡(luò)連成了一個(gè)整體。進(jìn)入Web 2.0時(shí)代,PC用戶不單單可以通過(guò)網(wǎng)絡(luò)獲取信息,還成為了信息的制造者和傳播者。這個(gè)階段,不僅是數(shù)據(jù)量開始了爆炸式增長(zhǎng),數(shù)據(jù)種類也開始變得繁多——從技術(shù)角度看,可以稱之為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和流式數(shù)據(jù)。2005年,微軟亞洲研究院一年一度的“21世紀(jì)的計(jì)算”大會(huì)將主題設(shè)定為“Data Centric Computing”,也就是“以數(shù)據(jù)為中心的計(jì)算”,那時(shí)業(yè)界就已建立了這樣的認(rèn)知:價(jià)值來(lái)自于數(shù)據(jù),或者說(shuō),數(shù)據(jù)一直都是有價(jià)值的商業(yè)資產(chǎn)——此前,人們往往過(guò)于重視“計(jì)算和存儲(chǔ)性能的提升”;而從那時(shí)起,業(yè)界就已更關(guān)注“數(shù)據(jù)分析和處理的效率”——對(duì)海量數(shù)據(jù)
17、進(jìn)行分析、處理和集成,找出原本看來(lái)毫無(wú)關(guān)系的那些數(shù)據(jù)的“關(guān)聯(lián)性”,把似乎沒(méi)有用的數(shù)據(jù)變成有用的信息,以支持我們做出的判斷。 第三個(gè)V,可以理解為更快地滿足實(shí)時(shí)性需求。如今,通過(guò)各種有線和無(wú)線電網(wǎng)絡(luò),人和人、人和各種機(jī)器、機(jī)器和機(jī)器之間無(wú)處不在的連接,這些連接不可避免地帶來(lái)數(shù)據(jù)交換,而數(shù)據(jù)交換的關(guān)鍵是降低延遲——要解決數(shù)據(jù)產(chǎn)生、傳輸、處理、存儲(chǔ)、抽取、分析、可視化等各個(gè)環(huán)節(jié)帶來(lái)的延時(shí),以近乎實(shí)時(shí)(這意味著小于250毫秒)的方式呈獻(xiàn)給用戶?!? 如今,數(shù)據(jù)的實(shí)時(shí)化需求越來(lái)越清晰。用戶想駕車去吃飯,先用地圖應(yīng)用查詢餐廳的位置、預(yù)計(jì)行車路線的擁堵情況、停車場(chǎng)信息甚至是其他用戶對(duì)餐廳的評(píng)論。吃飯的
18、過(guò)程中,他會(huì)用手機(jī)拍攝食物的照片,編輯簡(jiǎn)短的評(píng)論,發(fā)布到微博上,還可以用LBS應(yīng)用查找在同一間餐廳吃飯的人,看有沒(méi)有好友在附近…… 第二個(gè)驅(qū)動(dòng)力,是云計(jì)算的普及和成為主流。云計(jì)算和大數(shù)據(jù)到底有什么區(qū)別?前兩年大家都在講云計(jì)算,現(xiàn)在怎么又變成大數(shù)據(jù)了?微軟全球資深副總裁,微軟(中國(guó))有限公司董事長(zhǎng)張亞勤對(duì)此解釋說(shuō),其實(shí),云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面,云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計(jì)算的一個(gè)殺手級(jí)應(yīng)用。由于云計(jì)算的普及和成為主流,讓上述三個(gè)V不再成為挑戰(zhàn),反而成為大數(shù)據(jù)成長(zhǎng)的驅(qū)動(dòng)力。另一方面由于數(shù)據(jù)越來(lái)越多、越來(lái)越復(fù)雜、越來(lái)越實(shí)時(shí),這就更加需要云計(jì)算去處理,所以二者之間是相輔相成的。
19、舉例而言,30年前存儲(chǔ)1TB數(shù)據(jù)的成本大約是16億美元,如今存儲(chǔ)到云上只需不到100美元;但存儲(chǔ)下來(lái)的數(shù)據(jù),如果不以云計(jì)算進(jìn)行挖掘和分析,就只是僵死的數(shù)據(jù),沒(méi)有太大價(jià)值。 第三個(gè)驅(qū)動(dòng)力,是人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等技術(shù)的迅速發(fā)展。在這樣的背景下,以微軟為例,它已經(jīng)可以為用戶提供三個(gè)層次的端到端大數(shù)據(jù)解決方案——其一是數(shù)據(jù)管理,即如何獲取、存儲(chǔ)和保護(hù)數(shù)據(jù);其二是數(shù)據(jù)豐富,即如何清洗、發(fā)現(xiàn)不同數(shù)據(jù)間的數(shù)據(jù)相關(guān)性;其三是,數(shù)據(jù)洞察力,即通過(guò)分析、呈現(xiàn)與決策工具,獲得洞察力,并最終通過(guò)付諸行動(dòng),產(chǎn)生價(jià)值?!? 通俗的說(shuō),就是將信號(hào)轉(zhuǎn)化為數(shù)據(jù),將數(shù)據(jù)分析為信息,將信息提煉為知識(shí),以知識(shí)促成決策
20、和行動(dòng)。歸根到底,大數(shù)據(jù)的最終意義在于獲得洞察力和價(jià)值,這也正是大數(shù)據(jù)的第四個(gè)V(Value),這個(gè)V比前面的三個(gè)V都更重要。 大數(shù)據(jù)塑造科技、商業(yè)新態(tài)勢(shì) 在科技、商業(yè)領(lǐng)域,大數(shù)據(jù)具備極大的想象空間。上個(gè)世紀(jì)七十年代,紐約的治安狀況很糟糕。一位名叫杰克?邁普(Jack Maple)的年輕警察根據(jù)個(gè)人警務(wù)經(jīng)驗(yàn),發(fā)明了一種名為“未來(lái)圖表”(Charts of the future)的犯罪預(yù)測(cè)方法論,可以根據(jù)過(guò)往搶劫案的記錄數(shù)據(jù)來(lái)推測(cè)新案件可能發(fā)生的時(shí)間與地點(diǎn)。這種方法真的有效,1994年,新上任的紐約市警察局局長(zhǎng)開發(fā)了“未來(lái)圖表”的電子版,將之更名為“CompStat”,推廣至全市的警務(wù)系統(tǒng)。
21、CompStat的技術(shù)核心是犯罪測(cè)繪系統(tǒng)(Crime Mapping System)和數(shù)據(jù)庫(kù)采集系統(tǒng)(Database Collection System),而微軟的Microsoft MapPoint、Access、Excel等產(chǎn)品為兩個(gè)系統(tǒng)提供了堅(jiān)實(shí)的支撐——基于大量的數(shù)據(jù)采擷、挖掘和分析工作,紐約警察局嘗試對(duì)歷史上犯罪分子的行為規(guī)律進(jìn)行歸納和總結(jié),并有效地改善了城市的治安。數(shù)據(jù)顯示,在CompStat得到推廣應(yīng)用后,1995年,紐約的兇殺案發(fā)生率降低了約25%,車輛盜竊案發(fā)生率降低了約24%,而且這些數(shù)字還隨著IT軟硬件技術(shù)的持續(xù)更新和CompStat系統(tǒng)的不斷完善而逐年下降?!? 未
22、來(lái),透過(guò)技術(shù)手段完全遏制犯罪行為,讓每一個(gè)城市和地區(qū)的居民時(shí)時(shí)刻刻都安全無(wú)虞——這或許不是夢(mèng)想。2012年8月,紐約市長(zhǎng)邁克爾?布隆伯格(Michael Bloomberg)親手揭開了紐約警察局與微軟攜手開發(fā)的城域感知系統(tǒng)(DAS,Domain Awareness System)的面紗。該系統(tǒng)將覆蓋整個(gè)紐約市的3000多個(gè)監(jiān)控?cái)z像頭、2600多枚輻射探測(cè)器、幾百個(gè)車牌信息讀取裝置所收集的信息匯總到警方數(shù)據(jù)庫(kù)中,可結(jié)合探測(cè)數(shù)據(jù)、實(shí)時(shí)影像、911報(bào)警電話和警方積累的罪案歷史檔案,幫助警方更準(zhǔn)確地偵測(cè)并鎖定即將發(fā)生的犯罪活動(dòng)及嫌疑人。 對(duì)商業(yè)競(jìng)爭(zhēng)的參與者們來(lái)說(shuō),大數(shù)據(jù)意味著激動(dòng)人心的業(yè)務(wù)與服務(wù)創(chuàng)
23、新機(jī)會(huì)。零售連鎖企業(yè)、電商業(yè)巨頭都已在大數(shù)據(jù)挖掘與營(yíng)銷創(chuàng)新方面有著很多的成功案例,它們都是商業(yè)嗅覺(jué)極其敏銳、敢于投資未來(lái)的公司,也因此獲得了豐厚的回報(bào)。 而對(duì)于那些擁有行業(yè)經(jīng)驗(yàn),并熟練掌握云計(jì)算開發(fā)和應(yīng)用技能的小型企業(yè),尤其是初創(chuàng)企業(yè)來(lái)說(shuō),則更是意義非凡。最近幾年,我們看到的一些明星初創(chuàng)公司,比如Cloudera, Splunk, Klout, TellApart等,人員規(guī)模只在數(shù)十人,但對(duì)某個(gè)行業(yè)擁有深厚知識(shí),并能通過(guò)云和大數(shù)據(jù)的技術(shù)手段,快速解決該行業(yè)的共性需求和痛點(diǎn)——在未來(lái)數(shù)年,這樣的“小而精”、“快而準(zhǔn)”企業(yè)會(huì)越來(lái)越多,并做出有可能改變世界的顛覆性產(chǎn)品。很高興看到,在北京中關(guān)村,
24、在微軟的云加速器二期,也有類似的初創(chuàng)企業(yè)加入,和硅谷、海法的創(chuàng)業(yè)者們一起,把握住了時(shí)代的脈搏。 大數(shù)據(jù)時(shí)代的到來(lái) 大數(shù)據(jù)時(shí)代的急先鋒 《紐約時(shí)報(bào)》把2012年定義為“大數(shù)據(jù)的十字路口”。大數(shù)據(jù)之所以進(jìn)入主流大眾的視野,源自三種趨勢(shì)的合力: 第一,許多高端消費(fèi)品公司加強(qiáng)了對(duì)大數(shù)據(jù)的應(yīng)用。社交網(wǎng)絡(luò)巨擎 使用大數(shù)據(jù)來(lái)追蹤用戶在其網(wǎng)絡(luò)的行為,通過(guò)識(shí)別你在它的網(wǎng)絡(luò)中的好友,從而給出新的好友推薦建議,用戶擁有越多的好友,他們與 之間的黏度就越高。更多的好友意味著用戶會(huì)分享更多照片、發(fā)布更多狀態(tài)更新、玩更多的游戲。商業(yè)網(wǎng)站LinkdIn則使用大數(shù)據(jù)在求職者和招聘職位之間建立關(guān)聯(lián)。有了LinkdIn
25、,獵頭們?cè)僖膊挥孟驖撛诘氖芷刚叽蚰吧娫拋?lái)碰運(yùn)氣,而可以通過(guò)簡(jiǎn)單的搜索找出潛在受聘者并聯(lián)系他們。與此相似,求職者也可以通過(guò)聯(lián)系網(wǎng)站上其他人,自然而然地將自己推銷給潛在的雇主。 第二,以上兩家公司都在2012年早些時(shí)候陸續(xù)上市。 在納斯達(dá)克上市,LinkedIn 在紐約證券交易所上市。這兩家企業(yè)和谷歌一樣,雖然表面上是消費(fèi)品公司,然而其本質(zhì)是大數(shù)據(jù)企業(yè)。除去這兩家,Splunk 也在 2012 年完成了上市,它是一家?guī)椭笾行推髽I(yè)提供運(yùn)營(yíng)智能的大數(shù)據(jù)企業(yè)。這些企業(yè)的公開上市提高了華爾街對(duì)于大數(shù)據(jù)的興趣。這種興趣帶來(lái)了空前的盛況——硅谷的風(fēng)險(xiǎn)投資家們開始前仆后繼地投資大數(shù)據(jù)企業(yè)。大數(shù)據(jù)將引發(fā)下一
26、波創(chuàng)業(yè)大潮,而這次浪潮有望讓硅谷在未來(lái)幾年取代華爾街。 第三,亞馬遜、、LinkedIn 和其他以數(shù)據(jù)為核心消費(fèi)品的活躍用戶們,開始期待自己在工作中也能獲得暢通無(wú)阻地使用大數(shù)據(jù)的體驗(yàn),而不再僅僅限于生活?yuàn)蕵?lè)。用戶們此前一直想不通,既然互聯(lián)網(wǎng)零售商亞馬遜可以推薦閱讀書目、推薦電影、推薦可供購(gòu)買的產(chǎn)品,為什么他們所在的企業(yè)卻做不到類似的事情。比如,既然汽車租賃公司擁有客戶過(guò)去租車的信息和現(xiàn)有可用車輛庫(kù)存的信息,這些公司為何就不能在向不同的租車人提供合適的車輛方面做得更智能一點(diǎn)?公司還可以通過(guò)新的技術(shù),將公開信息利用起來(lái)——比如某個(gè)特定市場(chǎng)的狀況,會(huì)議活動(dòng)信息,以及其他可能會(huì)影響市場(chǎng)需求和供給的事
27、件。通過(guò)將內(nèi)部供應(yīng)鏈數(shù)據(jù)和外部市場(chǎng)數(shù)據(jù)結(jié)合在一起,公司就可以更加精確地預(yù)測(cè)什么車輛可用,以及可用時(shí)間。與此類似,零售商應(yīng)當(dāng)可以將來(lái)自外部的公開數(shù)據(jù)和內(nèi)部數(shù)據(jù)結(jié)合在一起,利用這種混合的數(shù)據(jù)進(jìn)行產(chǎn)品定價(jià)和市場(chǎng)布局。同時(shí)還可以同時(shí)考慮影響現(xiàn)貨供應(yīng)能力的多種因素以及消費(fèi)者購(gòu)物習(xí)慣,包括哪兩種產(chǎn)品相搭配會(huì)賣得更好,這樣零售商就可以提升消費(fèi)者的平均購(gòu)買量,從而獲得更高的利潤(rùn)。 大數(shù)據(jù)時(shí)代的急先鋒——谷歌。谷歌的體量和規(guī)模,使它擁有比其他大多數(shù)企業(yè)更多的應(yīng)用大數(shù)據(jù)的途徑。谷歌的優(yōu)勢(shì)之一在于,它擁有一支軟件工程師部隊(duì),這使得谷歌能夠從無(wú)到有地建立大數(shù)據(jù)技術(shù)。谷歌的另一個(gè)優(yōu)勢(shì)在于它所擁有的基礎(chǔ)設(shè)施。谷歌搜索引
28、擎本身的設(shè)計(jì),就旨在讓它能夠無(wú)縫鏈接成千上萬(wàn)的服務(wù)器。如果出現(xiàn)更多的處理或存儲(chǔ)需要,抑或某臺(tái)服務(wù)器崩潰,谷歌的工程師們只要再添加更多的服務(wù)器就能輕松搞定。 谷歌軟件技術(shù)的設(shè)計(jì)也秉持著同樣的基礎(chǔ)設(shè)施理念。MapReduce(谷歌開發(fā)的編程工具,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。)和谷歌文件系統(tǒng)(Google File System)就是兩個(gè)典型的例子?!哆B線》雜志在 2012年初夏曾報(bào)道稱,這兩個(gè)軟件系統(tǒng)“重塑了谷歌建立搜索索引的方式”。為數(shù)眾多的企業(yè)如今開始使用Hadoop, 它是MapReduce和谷歌文件系統(tǒng)的一種開源衍生產(chǎn)品。Hadoop允許橫跨多臺(tái)電腦,對(duì)龐大的數(shù)據(jù)集合進(jìn)行分布式處理。在其
29、他企業(yè)剛剛開始使用Hadoop的時(shí)候,谷歌早已多年深耕大數(shù)據(jù)技術(shù),這讓它在行業(yè)中獲得了巨大的領(lǐng)先優(yōu)勢(shì)。 如今谷歌正在進(jìn)一步開放數(shù)據(jù)處理領(lǐng)域,將其和更多第三方共享。谷歌最近剛剛推出web服務(wù)BigQuery。該項(xiàng)服務(wù)允許使用者對(duì)超大量數(shù)據(jù)集進(jìn)行交互式分析。按照谷歌目前的狀況,“超大量”,意味著數(shù)十億行數(shù)據(jù)。BigQuery 就是按指令在云端運(yùn)行的數(shù)據(jù)分析。 除此以外,谷歌還坐擁人們?cè)诠雀杈W(wǎng)站進(jìn)行搜索及經(jīng)過(guò)其網(wǎng)絡(luò)時(shí)所產(chǎn)生的大量機(jī)器數(shù)據(jù)。用戶所輸入的每一個(gè)搜索請(qǐng)求,都會(huì)讓谷歌知道他在尋找什么,所有人類行為都會(huì)在互聯(lián)網(wǎng)上留下痕跡路徑,而谷歌占領(lǐng)了一個(gè)絕佳的點(diǎn)位來(lái)捕捉和分析該路徑。不僅如此,谷歌在搜
30、索之外還有更多獲取數(shù)據(jù)的途徑。企業(yè)安裝“谷歌分析(Google Analytics)”之類的產(chǎn)品來(lái)追蹤訪問(wèn)者在其站點(diǎn)的足跡,而谷歌也可獲得這些數(shù)據(jù)。網(wǎng)站還使用“谷歌廣告聯(lián)盟(Google Adsense)”,將來(lái)自谷歌廣告客戶網(wǎng)的廣告展示在其站點(diǎn),因此,谷歌不僅可以洞察自己網(wǎng)站上廣告的展示效果,同樣還可以對(duì)其他廣告發(fā)布站點(diǎn)的展示效果一覽無(wú)余。將所有這些數(shù)據(jù)集合在一起所帶來(lái)的結(jié)果是:企業(yè)不僅從最好的技術(shù)中獲益,同樣還可以從最好的信息中獲益。在信息技術(shù)方面,許多企業(yè)可謂耗資巨大,然而在信息技術(shù)的組成部分之一——信息領(lǐng)域,谷歌所進(jìn)行的龐大投入和所獲得的巨大成功,卻罕有企業(yè)能望其項(xiàng)背。 大數(shù)據(jù)時(shí)代的
31、急先鋒——亞馬遜。谷歌并不是惟一一個(gè)推行大數(shù)據(jù)的大型技術(shù)公司。互聯(lián)網(wǎng)零售商亞馬遜已經(jīng)采取了一些激進(jìn)的舉動(dòng),令其有可能成為谷歌的最大威脅。曾有分析者預(yù)測(cè),亞馬遜2015年?duì)I收將超過(guò)1000億美元,它即將趕超沃爾瑪成為世界最大的零售商。如同谷歌一樣,亞馬遜也要處理海量數(shù)據(jù),只不過(guò)它處理數(shù)據(jù)帶有更強(qiáng)的電商傾向。消費(fèi)者們?cè)趤嗰R遜的網(wǎng)站上對(duì)想看的電視節(jié)目或是想買的產(chǎn)品所進(jìn)行的每一次搜索,都會(huì)讓亞馬遜對(duì)該消費(fèi)者的了解有所增加。基于搜索和產(chǎn)品購(gòu)買行為,亞馬遜就可以知道接下來(lái)應(yīng)該推薦什么產(chǎn)品。而亞馬遜的聰明之處還不止于此,它還會(huì)在網(wǎng)站上持續(xù)不斷地測(cè)試新的設(shè)計(jì)方案,從而找出轉(zhuǎn)化率最高的方案。 中國(guó)大數(shù)據(jù)企業(yè):
32、領(lǐng)跑人還是追風(fēng)者? 阿里巴巴:大數(shù)據(jù)=產(chǎn)業(yè)資本 近年來(lái),中國(guó)的大數(shù)據(jù)企業(yè)如雨后春筍般興盛起來(lái),百度等大數(shù)據(jù)巨頭和各專門大數(shù)據(jù)公司引領(lǐng)“風(fēng)騷”。而最為可貴的是,在如同阿里巴巴等企業(yè)里,已經(jīng)實(shí)現(xiàn)了數(shù)據(jù)的資產(chǎn)化,我們不得不佩服馬云的前瞻性。2009年9月,阿里巴巴集團(tuán)就投資設(shè)立阿里云計(jì)算有限公司,在杭州、北京和硅谷等地設(shè)有研發(fā)中心和運(yùn)營(yíng)機(jī)構(gòu)。阿里云的目標(biāo)是要打造互聯(lián)網(wǎng)數(shù)據(jù)分享的第一平臺(tái),成為以數(shù)據(jù)為中心的先進(jìn)的云計(jì)算服務(wù)公司。 在2011年,阿里巴巴收購(gòu)了流量統(tǒng)計(jì)技術(shù)服務(wù)提供商CNZZ,意味著阿里巴巴在其電子商務(wù)產(chǎn)業(yè)鏈整合布局上又完成關(guān)鍵性一步。CNZZ是由IDG投資的網(wǎng)絡(luò)技術(shù)服務(wù)公司,專
33、注于為互聯(lián)網(wǎng)各類站點(diǎn)提供獨(dú)立的第三方數(shù)據(jù)統(tǒng)計(jì)分析。同時(shí),CNZZ擁有互聯(lián)網(wǎng)數(shù)據(jù)采集、統(tǒng)計(jì)和挖掘三大技術(shù),從事互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)測(cè)、統(tǒng)計(jì)分析的技術(shù)研究、產(chǎn)品開發(fā)和應(yīng)用。可以說(shuō),在大數(shù)據(jù)時(shí)代,阿里巴巴下了一盤很大的棋。 將大數(shù)據(jù)與商業(yè)投資緊密結(jié)合,也是阿里巴巴的強(qiáng)項(xiàng)所在。例如近期成立小微金融集團(tuán),為商家和用戶提供支付、小貸、擔(dān)保及保險(xiǎn)業(yè)務(wù)。其中,最為人傳道的是被金融界人士稱為“虛擬信用卡”的“信用支付”,它是阿里巴巴面對(duì)網(wǎng)上個(gè)人買家的個(gè)人消費(fèi)金融信貸服務(wù)產(chǎn)品,而授信的基礎(chǔ)便是龐大的用戶交易數(shù)據(jù)。支付寶平臺(tái)將根據(jù)用戶交易數(shù)據(jù),對(duì)用戶進(jìn)行授信,信用額度可用于在淘寶等購(gòu)物支付,用戶需要在還款日之前進(jìn)行還款,
34、最長(zhǎng)可以獲得38天免息期——這也意味著,支付寶的“虛擬信用卡”真的來(lái)了。 按照阿里金融設(shè)計(jì)的“信用支付”商業(yè)模式,通過(guò)數(shù)據(jù)來(lái)確定買家信用支付額度,合作銀行通過(guò)支付寶來(lái)授信,阿里巴巴成立的商誠(chéng)擔(dān)保公司將為買家的“信用支付”做擔(dān)保,買家在手機(jī)支付時(shí)可使用自己的“信用支付”額度購(gòu)物,合作銀行把錢支付給賣家。支付寶從合作商家那里抽取1%的“信用支付”服務(wù)費(fèi)。虛擬信用卡與大數(shù)據(jù)的融合,產(chǎn)生了重大的影響。一些銀行界人士已經(jīng)開始擔(dān)心,由于阿里巴巴集團(tuán)擁有的龐大客戶群和寶貴的數(shù)據(jù)庫(kù),阿里“虛擬信用卡”可能構(gòu)成對(duì)銀行信用卡的競(jìng)爭(zhēng),對(duì)傳統(tǒng)銀行造成沖擊。對(duì)此,筆者認(rèn)為這是一個(gè)不可避免的趨勢(shì),唯一可以做的就
35、是把它規(guī)范化、制度化。 紫光股份:大數(shù)據(jù)企業(yè)的并購(gòu)者 2013年7月,啟迪控股旗下的紫光股份發(fā)布公告稱,公司擬通過(guò)向特定對(duì)象非公開發(fā)行股份及支付現(xiàn)金方式購(gòu)買能通科技股份有限公司和深圳市融創(chuàng)天下科技股份有限公司100%股份,并募集配套資金。紫光股份此次借助資本市場(chǎng),一舉并購(gòu)兩家相關(guān)公司,在云計(jì)算、IT運(yùn)維服務(wù)、移動(dòng)互聯(lián)網(wǎng)應(yīng)用和大數(shù)據(jù)處理方面將取得先發(fā)優(yōu)勢(shì)。能通科技股份有限公司致力于重點(diǎn)行業(yè)信息化解決方案和公共安全信息管理解決方案。公司發(fā)展方向涉及云計(jì)算、智慧城市等領(lǐng)域,業(yè)務(wù)領(lǐng)域涵蓋IT運(yùn)維及IT基礎(chǔ)設(shè)施服務(wù)及智慧城市等重點(diǎn)行業(yè)信息化解決方案、數(shù)據(jù)中心基礎(chǔ)環(huán)境建設(shè)等相關(guān)服務(wù),是國(guó)內(nèi)領(lǐng)先的IT服
36、務(wù)提供商。 深圳市融創(chuàng)天下科技股份有限公司是國(guó)內(nèi)領(lǐng)先的移動(dòng)互聯(lián)網(wǎng)平臺(tái)服務(wù)提供商。以國(guó)際領(lǐng)先的核心技術(shù)、核心技術(shù)產(chǎn)品化和移動(dòng)互聯(lián)網(wǎng)運(yùn)營(yíng)為突出優(yōu)勢(shì),成為提供移動(dòng)互聯(lián)網(wǎng)多媒體平臺(tái)應(yīng)用服務(wù)的領(lǐng)先企業(yè),是國(guó)家級(jí)高新技術(shù)企業(yè)。融創(chuàng)天下在2009年入選號(hào)稱“硅谷圣經(jīng)”和“投資風(fēng)向標(biāo)”《Red Herring》(紅鯡魚)雜志最具投資價(jià)值企業(yè)全球100強(qiáng);在2008年NOKIA 組織的全球MOBILE RULES 大賽中,入圍全球核心科技類最強(qiáng)十二名,是流媒體領(lǐng)域唯一一名,同時(shí)為中國(guó)區(qū)唯一一名。公司已形成移動(dòng)多媒體運(yùn)營(yíng)、移動(dòng)互聯(lián)網(wǎng)運(yùn)營(yíng)平臺(tái)能力輸出、三網(wǎng)融合硬件終端產(chǎn)品研發(fā)與銷售的三大業(yè)務(wù)體系。公司6年持續(xù)投資
37、超過(guò)3億在移動(dòng)互聯(lián)網(wǎng)底層核心技術(shù)的研發(fā)上,具有國(guó)內(nèi)及國(guó)際技術(shù)發(fā)明專利上百項(xiàng),形成了以T3、TIVC和TMCM云計(jì)算中間件三大核心技術(shù)的移動(dòng)多媒體技術(shù)體系,已成為具備技術(shù)優(yōu)勢(shì)、平臺(tái)產(chǎn)品優(yōu)勢(shì)和運(yùn)營(yíng)優(yōu)勢(shì)、商業(yè)模式創(chuàng)新優(yōu)勢(shì)的綜合性新銳企業(yè)。 紫光收購(gòu)案其實(shí)宣示了企業(yè)發(fā)展的一種新走向,大數(shù)據(jù)不光作為一種產(chǎn)業(yè)將大放異彩,也將成為科技企業(yè)的中樞板塊。 田溯寧(寬帶資本董事長(zhǎng))說(shuō):“正像人類幾百年前在大航海時(shí)代,發(fā)現(xiàn)、征服海洋,尋找到新大陸的機(jī)遇一樣,我們突然身處過(guò)去無(wú)法想象的數(shù)據(jù)海洋,通過(guò)征服這個(gè)數(shù)據(jù)海洋,可以抵達(dá)人類知識(shí)的新邊疆?!薄拔磥?lái)企業(yè)將都會(huì)是‘?dāng)?shù)據(jù)驅(qū)動(dòng)的企業(yè)’,無(wú)論你處于什么行業(yè),企業(yè)規(guī)模大小”
38、,王京文(用友軟件股份有限公司董事長(zhǎng)兼CEO)如是說(shuō)。王明夫(和君咨詢董事長(zhǎng))預(yù)測(cè):“傳統(tǒng)產(chǎn)業(yè)、各行各業(yè),都面臨在大數(shù)據(jù)和移動(dòng)互聯(lián)網(wǎng)時(shí)代如何徹底轉(zhuǎn)型和再造問(wèn)題。我喊了十幾年的產(chǎn)業(yè)整合,也在大數(shù)據(jù)時(shí)代出現(xiàn)了全新的整合邏輯和實(shí)現(xiàn)契機(jī)。”大數(shù)據(jù)技術(shù)改變了信息的生產(chǎn)、傳播、加工和組織方式,打破了傳統(tǒng)的信息不對(duì)稱和物理區(qū)域壁壘,對(duì)各業(yè)界的生存環(huán)境和方式帶來(lái)了顯著的影響。大數(shù)據(jù)專家趙國(guó)棟、易歡歡、糜萬(wàn)軍、鄂維南在共同著述《大數(shù)據(jù)時(shí)代的歷史機(jī)遇-產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)》一書中宣稱:“缺少數(shù)據(jù)資源,無(wú)以為談產(chǎn)業(yè)。缺少數(shù)據(jù)思維,無(wú)以言未來(lái)。 數(shù)據(jù)的積累、挖掘、分析、歸納、整理,是一只優(yōu)秀團(tuán)隊(duì)所必須具備的基本素養(yǎng),沒(méi)
39、有它,你永遠(yuǎn)是匹夫之勇?!币蚨鴶?shù)據(jù)思維與數(shù)據(jù)資產(chǎn)在未來(lái)的重要性不言而喻。 “紫光1000”:全球首臺(tái)“云計(jì)算機(jī)” 2013年12月10日,啟迪控股旗下紫光股份有限公司在京召開“紫光股份云服務(wù)戰(zhàn)略暨紫光云計(jì)算機(jī)”發(fā)布會(huì)。會(huì)上,紫光股份總裁齊聯(lián)發(fā)布了公司的“云服務(wù)”戰(zhàn)略,率先提出“云計(jì)算機(jī)”的概念,同時(shí)推出了擁有自主知識(shí)產(chǎn)權(quán)的全球首臺(tái)“紫光云計(jì)算機(jī)”。 紫光股份將“云計(jì)算機(jī)”定義為:采用與個(gè)人計(jì)算機(jī)和超級(jí)計(jì)算機(jī)完全不同的分布式體系架構(gòu),借助于云計(jì)算的虛擬化技術(shù),由多個(gè)成本相對(duì)較低的計(jì)算資源融合而成的一臺(tái)具有強(qiáng)大計(jì)算能力的計(jì)算機(jī)。它可高效支持大數(shù)據(jù)處理、高吞吐率和高安全信息服務(wù)等多類應(yīng)用需求,
40、其計(jì)算能力和存儲(chǔ)能力可動(dòng)態(tài)伸縮并無(wú)限擴(kuò)展。 紫光云計(jì)算機(jī)有著廣闊的應(yīng)用前景,可滿足金融、電信、公安、交通、衛(wèi)生、廣電等大數(shù)據(jù)行業(yè)用戶提出的高性能、低成本、高可靠性和高可擴(kuò)展性的要求,也將促進(jìn)信息技術(shù)在物聯(lián)網(wǎng)、智慧城市、智能電網(wǎng)、智能交通、智能醫(yī)療、食品安全等大數(shù)據(jù)應(yīng)用領(lǐng)域的廣泛應(yīng)用。例如,按“平安城市”建設(shè)要求,一個(gè)中等城市的視頻監(jiān)控?cái)?shù)據(jù)量為300PB/年,用一臺(tái)紫光云計(jì)算機(jī)可在保存三個(gè)月監(jiān)控記錄的同時(shí),對(duì)所有數(shù)據(jù)完成處理。 紫光股份在云計(jì)算領(lǐng)域已具備了一定的技術(shù)和產(chǎn)業(yè)基礎(chǔ)。2012年,在工信部的大力支持下,紫光股份與南京市秦淮區(qū)合作,聯(lián)合實(shí)施“紫云工程”,在南京市中國(guó)云計(jì)算創(chuàng)新基地建立了
41、云信息服務(wù)產(chǎn)業(yè)創(chuàng)新中心。中心是集云計(jì)算、大數(shù)據(jù)新技術(shù)研發(fā)、科技成果轉(zhuǎn)化、培育新興產(chǎn)業(yè)、人才培養(yǎng)為一體的產(chǎn)業(yè)化創(chuàng)新基地,將為區(qū)域內(nèi)的智能電網(wǎng)、新興通訊、智能交通、物聯(lián)網(wǎng)、智慧城市、電子商務(wù)、移動(dòng)互聯(lián)提供云計(jì)算的SPI(SaaS、PaaS、IaaS)服務(wù)。目前“紫云工程”已取得階段性重大成果,“紫云工程”被工信部命名為“新秦淮模式”,標(biāo)志著紫光股份在云計(jì)算及大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新方面已達(dá)到國(guó)際領(lǐng)先水平。 紫光云計(jì)算機(jī)的研制成功,標(biāo)志著紫光股份已在分布式計(jì)算、虛擬資源管理和快速部署等云計(jì)算核心技術(shù)領(lǐng)域取得重大突破,掌握并擁有自主可控的云計(jì)算技術(shù)體系和成套軟硬件系統(tǒng),使我國(guó)的云計(jì)算核心產(chǎn)業(yè)達(dá)到了國(guó)際先進(jìn)水平
42、,為云計(jì)算在我國(guó)信息化建設(shè)中發(fā)揮重要作用奠定了堅(jiān)實(shí)的技術(shù)和產(chǎn)業(yè)化基礎(chǔ)。同時(shí),其開放式平臺(tái)可以使國(guó)產(chǎn)CPU等核心硬件和基礎(chǔ)軟件有機(jī)會(huì)在大數(shù)據(jù)時(shí)代發(fā)揮出與國(guó)外同等產(chǎn)品相當(dāng)?shù)男阅?,從而帶?dòng)我國(guó)信息產(chǎn)業(yè)國(guó)產(chǎn)化水平的大幅提高,為保障國(guó)家信息安全發(fā)揮重要作用。 數(shù)據(jù)思維與數(shù)據(jù)資產(chǎn) 大數(shù)據(jù)思維的重要性遠(yuǎn)遠(yuǎn)超過(guò)數(shù)據(jù)資產(chǎn),具備大數(shù)據(jù)思維,才能夠積累數(shù)據(jù)資產(chǎn);不具備大數(shù)據(jù)思維,則可能棄珍寶如敝履。公司最重要的是建立大數(shù)據(jù)思維,而非僅僅盯住數(shù)據(jù)資產(chǎn)。優(yōu)秀的數(shù)據(jù)思維,必然反映在優(yōu)質(zhì)數(shù)據(jù)資產(chǎn)。人們難以定量評(píng)價(jià)一個(gè)人的數(shù)據(jù)思維,所以只好退而求其次,關(guān)心在數(shù)據(jù)思維的影響下,數(shù)據(jù)資產(chǎn)的優(yōu)劣。依據(jù)《大數(shù)據(jù)時(shí)代的歷史機(jī)遇-產(chǎn)
43、業(yè)變革與數(shù)據(jù)科學(xué)》一書,數(shù)據(jù)資產(chǎn)的價(jià)值可以從五個(gè)維度來(lái)評(píng)估,分別是規(guī)模、活性、多維度、關(guān)聯(lián)性、顆粒度。這五個(gè)維度,沒(méi)有絕對(duì)的數(shù)值可以參考,而且具體到每個(gè)行業(yè)有所不同。 數(shù)據(jù)資產(chǎn)的“五維” 所謂顆粒度指標(biāo)反映數(shù)據(jù)的精細(xì)化程度。那些宏觀的數(shù)據(jù),價(jià)值含量較低。相反那些細(xì)化到個(gè)人、單品的數(shù)據(jù),才會(huì)帶來(lái)前所未有的洞察力,這也是和精細(xì)化管理的思想緊密相關(guān)的。顆粒度是反映數(shù)據(jù)資產(chǎn)質(zhì)量的第一個(gè)維度。細(xì)化到個(gè)人、單品,個(gè)別網(wǎng)絡(luò)、門派、零件,夸張的說(shuō)一粒沙子,也要清清爽爽地記錄下它的位置、大小、重量,甚至,因?yàn)轱L(fēng)吹浪打漂流的痕跡。不要忘了“一沙一世界,一花一天堂”。 多維度指標(biāo)借用空間維度的概念,來(lái)指代數(shù)據(jù)
44、來(lái)源的豐富性。每增加一個(gè)數(shù)據(jù)維度,會(huì)影響所有用原數(shù)據(jù)的分析和判斷,甚至?xí)?lái)顛覆性的證據(jù)。我們以美國(guó)的FICO信用評(píng)分機(jī)制(由美國(guó)個(gè)人消費(fèi)信用評(píng)估公司開發(fā)出的一種個(gè)人信用評(píng)級(jí)法)為例,幾乎每個(gè)美國(guó)人都有一個(gè)FICO信用評(píng)分,當(dāng)人們申請(qǐng)信用卡、汽車貸款、住房貸款時(shí),大多數(shù)的信貸機(jī)構(gòu)會(huì)參考這一評(píng)分。但是,在其發(fā)展的初期,F(xiàn)ICO模型中,僅僅依賴申請(qǐng)人在現(xiàn)有住址住了多久、為現(xiàn)在的企業(yè)工作了多久、申請(qǐng)人賬號(hào)開設(shè)了多久等數(shù)據(jù)。根據(jù)這個(gè)評(píng)估,幾乎所有30歲以下的人,都會(huì)存在很大的風(fēng)險(xiǎn)?,F(xiàn)在人們知道淘寶上的購(gòu)買主力,恰恰是以年輕人為主。所以零售商們?nèi)浩鸱磳?duì),這些條款限制了發(fā)卡人數(shù),不利于刺激消費(fèi)。當(dāng)FICO
45、增加了評(píng)估數(shù)據(jù)的維度后,譬如納入教育水平、職業(yè)等指標(biāo),那些受到過(guò)良好教育、從事體面職業(yè)的人,也就獲得了信用卡。事實(shí)證明,他們的違約率極低。 在多維度指標(biāo)中,人們尤其重視一類“先驗(yàn)”維度。比如,人們?cè)谫I股票的時(shí)候,一定先觀察一只股票的行情走勢(shì);人們?cè)谫?gòu)商品的時(shí)候,一定會(huì)對(duì)比和詢價(jià)?;ヂ?lián)網(wǎng)有助于把這些數(shù)據(jù)收集起來(lái),進(jìn)行分析,從而預(yù)測(cè)未來(lái)人們是否會(huì)買入股票或者商品。 活性指標(biāo)的命名,帶有感性的色彩。其原意是指生物體內(nèi)發(fā)生的生理過(guò)程或處于活動(dòng)的狀態(tài)或?qū)傩浴?shù)據(jù)的活性,指代數(shù)據(jù)被更新的頻次。頻次越高,活性越大。公司2012年10月,慶祝月度活躍用戶超過(guò)10億個(gè)。這里的活躍用戶和數(shù)據(jù)的活性緊密相關(guān)。股
46、民對(duì)換手率指標(biāo)非常熟悉,換手率標(biāo)志股票交易是否活躍,成為判斷股價(jià)走勢(shì)非常重要的指標(biāo)。新浪微博的數(shù)據(jù),無(wú)疑是最具活性的數(shù)據(jù)之一,體現(xiàn)出實(shí)時(shí)的價(jià)值。利用微博數(shù)據(jù),進(jìn)行實(shí)時(shí)的精準(zhǔn)營(yíng)銷,是許多公司孜孜以求的目標(biāo)。 規(guī)模指標(biāo)最容易理解。沒(méi)有“量”的積累,就沒(méi)有“質(zhì)”的突破。數(shù)據(jù)量的增長(zhǎng),即是數(shù)據(jù)規(guī)模的擴(kuò)大。但是到底有多大規(guī)模,才能算是“大”數(shù)據(jù),的確是各行各業(yè)都很關(guān)心的問(wèn)題。譬如互聯(lián)網(wǎng)應(yīng)用,如果沒(méi)有1000萬(wàn)個(gè)A股賬戶,那絕對(duì)是呼風(fēng)喚雨的“老大”。規(guī)模這個(gè)指標(biāo)很重要,但不需要執(zhí)著于此指標(biāo)。不同行業(yè),不同的業(yè)務(wù),對(duì)規(guī)模的定義完全不同。數(shù)據(jù)思維要先于數(shù)據(jù)規(guī)模。 關(guān)聯(lián)度指標(biāo)反映不同多維數(shù)據(jù)的內(nèi)在聯(lián)系。之所
47、以把關(guān)聯(lián)度拿出來(lái)單獨(dú)討論,主要原因就是同一企業(yè)內(nèi)部存在大量的“孤島”現(xiàn)象,不同部門之間積累的數(shù)據(jù)無(wú)法融合,形不成合力。 關(guān)于數(shù)據(jù)思維與數(shù)據(jù)資產(chǎn)的運(yùn)籌,《大數(shù)據(jù)時(shí)代的歷史機(jī)遇-產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)》給出了建議:“(一)‘天下武功,唯快不破’。越快地處理數(shù)據(jù),越早地獲取信息,就會(huì)越及時(shí)地做出商業(yè)選擇。(二)更多的數(shù)據(jù)來(lái)源,比更多的數(shù)據(jù)量更重要。這也是為什么數(shù)據(jù)資產(chǎn)評(píng)價(jià)模型中,要把關(guān)聯(lián)性和多維度作為重要指標(biāo)的原因。(三)數(shù)據(jù)量含多種信息,取決于觀察視角。不要因?yàn)槎唐趦?nèi)沒(méi)有用途,而隨意丟棄。(四)面對(duì)數(shù)據(jù)量指數(shù)般的增長(zhǎng),要早作打算。(五)大數(shù)據(jù)不是核心問(wèn)題,要聚焦于業(yè)務(wù)發(fā)展,善于從大數(shù)據(jù)中挖掘利于業(yè)務(wù)
48、發(fā)展的信息。(六)分享,而非保密。數(shù)據(jù)在流動(dòng)中增值。流水不腐,戶樞不蠹?!? 數(shù)據(jù)科學(xué)家 大數(shù)據(jù)作為資產(chǎn),其搜尋、識(shí)別、篩選、組合等等工作的強(qiáng)烈專業(yè)性不言而喻,這就需要專業(yè)的大數(shù)據(jù)人才,特別是數(shù)據(jù)科學(xué)家。另外,大數(shù)據(jù)本身也給科學(xué)和教育事業(yè)發(fā)展提供了前所未有的機(jī)會(huì)。它將對(duì)現(xiàn)有的科研和教育體制、科學(xué)與產(chǎn)業(yè)之間的關(guān)系、科學(xué)與社會(huì)之間的關(guān)系帶來(lái)大幅度的變革。用數(shù)據(jù)來(lái)研究科學(xué),科學(xué)地研究數(shù)據(jù)。數(shù)據(jù)科學(xué)的興起和發(fā)展,將深刻改變?nèi)祟愄剿魇澜绲乃季S和方法。 中國(guó)科學(xué)院院士、美國(guó)普林斯頓大學(xué)教授鄂維南強(qiáng)調(diào):“數(shù)據(jù)科學(xué)將達(dá)到與自然科學(xué)分庭抗禮的地位?!睌?shù)據(jù)科學(xué)主要包括兩個(gè)方面:用數(shù)據(jù)的方法來(lái)研究科學(xué)和用科學(xué)的
49、方法來(lái)研究數(shù)據(jù)。前者包括生物信息學(xué)、天體信息學(xué)、數(shù)字地球等領(lǐng)域。后者包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)等領(lǐng)域。這些學(xué)科都是數(shù)據(jù)科學(xué)的重要組成部分。但只有把他們有機(jī)地放在一起,才能形成整個(gè)數(shù)據(jù)科學(xué)的全貌。 而我們需要的數(shù)據(jù)科學(xué)人才應(yīng)該具備兩方面的素質(zhì):一是概念性的,主要是對(duì)模型的理解和運(yùn)用;二是實(shí)踐性的,主要是處理實(shí)際數(shù)據(jù)的能力。培養(yǎng)這樣的人才,需要數(shù)學(xué)、統(tǒng)計(jì)和計(jì)算機(jī)科學(xué)等學(xué)科之間的密切合作,同時(shí)也需要和產(chǎn)業(yè)界或其他擁有數(shù)據(jù)的部門之間的合作。目前還沒(méi)有任何一所高校具有這樣的平臺(tái)。 大數(shù)據(jù)時(shí)代的中國(guó)夢(mèng) 取舍之道:大數(shù)據(jù)時(shí)代的域外空間 不容忽視的是,人不僅是信息、數(shù)據(jù)的使用者,還是生產(chǎn)者
50、。有關(guān)我們的信息,有些是我們自身愿意讓他人了解、共享的,也有很多不樂(lè)意公之于眾的隱私信息。但大數(shù)據(jù)體系本身,不考慮個(gè)體乃至群體是否愿意分享,而是自動(dòng)自發(fā)的吸納著所有可以吸納的數(shù)據(jù)。 一個(gè)人可以通過(guò)搜索引擎,查知心儀對(duì)象的底細(xì),也將成為被搜索對(duì)象,用人單位人力資源專員很可能通過(guò)他(她)的微博獲悉簡(jiǎn)歷之外更為真實(shí)、暴露出更多缺點(diǎn)的一面,甚至?xí)驗(yàn)閹讖埜愎终掌驼J(rèn)定他(她)是一個(gè)輕浮的人,而做出拒絕錄用的決定。同樣,而今的企業(yè)已經(jīng)不能通過(guò)公關(guān)傳播等包裝手段,來(lái)塑造所謂的完美形象;只要有過(guò)違法記錄、違反社會(huì)責(zé)任履行要求的記錄,就將持續(xù)付出形象代價(jià)。 有趣的是,與《大數(shù)據(jù)時(shí)代》形成參照,揭示大數(shù)據(jù)時(shí)
51、代帶給人的負(fù)面影響的另一本書《刪除:大數(shù)據(jù)取舍之道》,也出自維克托·邁爾-舍恩伯格之手?!秳h除:大數(shù)據(jù)取舍之道》開篇即闡釋了大數(shù)據(jù)時(shí)代帶來(lái)的隱私非隱的問(wèn)題,指出,“數(shù)字技術(shù)已經(jīng)讓社會(huì)喪失了遺忘的能力,取而代之的則是完善的記憶……Google對(duì)我們的了解比我們自己能夠記住的還要多?!? 維克托·邁爾-舍恩伯格提醒指出,人們之所以能夠結(jié)成群體和社會(huì),是因?yàn)榻邮芤欢ǚ懂牭墓餐畔?,從而形成共享記憶和共同情感;如若而今及以后變得不?huì)遺忘、不會(huì)對(duì)信息作出范疇限制,共享記憶和共同情感及其提供的基礎(chǔ)作用就會(huì)消失。非但如此,大數(shù)據(jù)體系、數(shù)字化記憶還可能造成對(duì)公民的全景控制,進(jìn)一步強(qiáng)化社會(huì)等級(jí),鞏固并加深現(xiàn)
52、有的不平等的信息權(quán)力分配。 《刪除:大數(shù)據(jù)取舍之道》書中提出了對(duì)大數(shù)據(jù)體系、數(shù)字化記憶負(fù)面性的六種可能對(duì)策:數(shù)字化節(jié)制、保護(hù)信息隱私權(quán)、建設(shè)數(shù)字隱私權(quán)基礎(chǔ)設(shè)施、調(diào)整人類的現(xiàn)有認(rèn)知、打造良性的信息生態(tài)、完全語(yǔ)境化。 “數(shù)字化節(jié)制”指的是人作為信息社會(huì)的主體,要積極發(fā)揮能動(dòng)性,在洞察到放棄“遺忘”的潛在影響后,審慎控制過(guò)多的個(gè)人信息對(duì)外發(fā)布。當(dāng)然,這需要就此作出一種艱難的權(quán)衡抉擇。積極分享個(gè)人信息毫無(wú)疑問(wèn)可以為我們帶來(lái)諸多便利,控制信息分享會(huì)減少部分便利。 保護(hù)信息隱私權(quán)、建設(shè)數(shù)字隱私權(quán)基礎(chǔ)設(shè)施、打造良性的信息生態(tài),需要政府及互聯(lián)網(wǎng)行業(yè)、法學(xué)界等方面加強(qiáng)協(xié)商。信息隱私權(quán)最基本的
53、形式是給予個(gè)人選擇是否共享信息的權(quán)利,嚴(yán)禁任何其他個(gè)人或組織在法律許可和信息所有者許可之外,濫用個(gè)人信息。盡管對(duì)“信息隱私權(quán)”這個(gè)概念的界定,必然將引起較大爭(zhēng)議,但唯有通過(guò)廣泛討論,方能為共識(shí)的取得創(chuàng)造可能。在此基礎(chǔ)上,政府應(yīng)建設(shè)數(shù)字隱私權(quán)基礎(chǔ)設(shè)施,并推動(dòng)相關(guān)的立法進(jìn)程。鄔賀銓還指出應(yīng)盡快制定《信息公開法》?!艾F(xiàn)在很多機(jī)構(gòu)和企業(yè)擁有大量客戶信息。應(yīng)當(dāng)既鼓勵(lì)面向群體、服務(wù)社會(huì)的數(shù)據(jù)挖掘,又要防止侵犯?jìng)€(gè)體隱私;既提倡數(shù)據(jù)共享,又要防止數(shù)據(jù)被濫用?!彼J(rèn)為,需要界定數(shù)據(jù)挖掘、利用的權(quán)限和范圍,防止信息被損壞、篡改、泄露或被竊,保護(hù)公民的信息安全。 所謂“調(diào)整人類的現(xiàn)有認(rèn)知”、“完全語(yǔ)境化”,指向的
54、是數(shù)字化、互聯(lián)網(wǎng)時(shí)代信息存儲(chǔ)及形成記憶中容易被忽視的兩大缺陷:無(wú)法被數(shù)字化存儲(chǔ)的信息被忽視,可以被數(shù)字化的信息(數(shù)據(jù))在被提取利用時(shí)會(huì)脫離原有語(yǔ)境,形成新的數(shù)字化偏見(jiàn)。 大數(shù)據(jù)時(shí)代的“規(guī)律”與“規(guī)范”:市場(chǎng)規(guī)律與國(guó)家使命 2013年 9月30日上午,在中華人民共和國(guó)64周年國(guó)慶前夕,中共中央政治局以實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略為題舉行第九次集體學(xué)習(xí)。這次中央政治局集體學(xué)習(xí)走出中南海,把“課堂”搬到了中關(guān)村,采取調(diào)研、講解、討論相結(jié)合的形式進(jìn)行。期間,百度創(chuàng)始人兼CEO李彥宏作為創(chuàng)新企業(yè)代表向中央政治局講解了信息技術(shù)領(lǐng)域的前沿課題――大數(shù)據(jù)的發(fā)展情況?!袄顝┖甑母遄樱瑩?jù)說(shuō)改了很多次?!币晃唤?/p>
55、近百度的人士說(shuō),“要在短短幾分鐘里講清楚大數(shù)據(jù),并不容易?!崩顝┖晁v的主題是“大數(shù)據(jù)”,這是百度和中關(guān)村管委會(huì)一起反復(fù)溝通多次才決定的。在眾多話題中,大數(shù)據(jù)能實(shí)現(xiàn)什么樣的未來(lái)這個(gè)話題,吸引了中央高層的目光。 在講解中,李彥宏認(rèn)為大數(shù)據(jù)有兩個(gè)重要價(jià)值,一是促進(jìn)信息消費(fèi),加快經(jīng)濟(jì)轉(zhuǎn)型升級(jí);二是關(guān)注社會(huì)民生,帶動(dòng)社會(huì)管理創(chuàng)新。我覺(jué)得這兩點(diǎn)恰好說(shuō)到了常委們的心上,經(jīng)濟(jì)社會(huì)發(fā)展是執(zhí)政的不變要?jiǎng)?wù),一家商業(yè)公司,不僅關(guān)注經(jīng)濟(jì)發(fā)展中浮現(xiàn)的商業(yè)機(jī)會(huì),還能把為社會(huì)創(chuàng)造價(jià)值放在與商業(yè)利益同等位置,十分難得。當(dāng)然,大數(shù)據(jù)還有一些其他很重要的價(jià)值,李彥宏并沒(méi)有說(shuō),時(shí)間關(guān)系抓住重點(diǎn)說(shuō)說(shuō)就行了,李彥宏主要想講的,是
56、后面的事情。 互聯(lián)網(wǎng)評(píng)論家葛甲指出:“數(shù)據(jù)開放在割據(jù)狀態(tài)的互聯(lián)網(wǎng)上靠企業(yè)的力量是完不成的,只有從政府層面去進(jìn)行推動(dòng)?,F(xiàn)在做大數(shù)據(jù)的公司這么多,其實(shí)多數(shù)只有個(gè)殼子,沒(méi)有實(shí)際內(nèi)容。大數(shù)據(jù)的基礎(chǔ)是巨量數(shù)據(jù),不具備一定程度的數(shù)據(jù)量,是做不成的?!碑?dāng)然,由BAT三家壟斷去做大數(shù)據(jù),也不太公平,小企業(yè)總要有些出頭機(jī)會(huì)的。于是,李彥宏提出了數(shù)據(jù)開放這個(gè)概念。 如果數(shù)據(jù)開放了,對(duì)大數(shù)據(jù)的發(fā)展當(dāng)然是好事,各家企業(yè)把數(shù)據(jù)匯集在一起,真正形成大數(shù)據(jù)后用以造福社會(huì),但其中的商業(yè)利益如何保證,是個(gè)問(wèn)題。讓一家或幾家公司去掌握這個(gè)資源,顯然不能服眾,但是讓百度和騰訊這些企業(yè)牽頭去做這件事,還是靠譜的。既然李彥宏提出了
57、數(shù)據(jù)開放這個(gè)概念,百度本身就已經(jīng)做好了開放自身數(shù)據(jù)的準(zhǔn)備,這是個(gè)積極姿態(tài)。 未來(lái)有可能的發(fā)展模式,是由國(guó)家牽頭設(shè)立大數(shù)據(jù)中心,由幾家有能力的企業(yè)各自派出技術(shù)力量,在高度保密性和公正性的基礎(chǔ)上,對(duì)大數(shù)據(jù)的應(yīng)用進(jìn)行研發(fā)。這種將數(shù)據(jù)化整為零的模式,有可能成為中國(guó)互聯(lián)網(wǎng)擺脫落后局面的良機(jī)。這里面的難處,在于配套的管理制度和法律法規(guī),政府的作用就是維護(hù)其公平性,堅(jiān)決維護(hù)小企業(yè)的商業(yè)利益,扮演好管理者和仲裁者的角色,不要讓自身經(jīng)濟(jì)利益牽涉其間。 當(dāng)然,讓政府對(duì)大數(shù)據(jù)重視起來(lái),并給出資源和政策加以扶持,還有很多難以言說(shuō)的好處。大數(shù)據(jù)開發(fā)出來(lái)總是要有人去用的,政府、企事業(yè)單位,經(jīng)濟(jì)實(shí)體等,這有個(gè)用
58、戶教育和習(xí)慣培養(yǎng)的過(guò)程。有數(shù)據(jù)有技術(shù)還不夠,還要有市場(chǎng),才能把大數(shù)據(jù)成果投放出去,利用市場(chǎng)運(yùn)行過(guò)程對(duì)其進(jìn)行不斷完善,才能形成良性循環(huán)的生態(tài)。 未來(lái)中國(guó)互聯(lián)網(wǎng)的一個(gè)大趨勢(shì)是開放,固步自封,過(guò)度考慮一畝三分地的時(shí)代即將過(guò)去了。在常委們此次走群眾路線的集體學(xué)習(xí)活動(dòng)中,李彥宏把這個(gè)意思融合在了講解過(guò)程里,常委們一定是聽(tīng)明白了。 葛甲認(rèn)為,數(shù)據(jù)開放“這里面的難處,在于配套的管理制度和法律法規(guī),政府的作用就是維護(hù)其公平性,堅(jiān)決維護(hù)小企業(yè)的商業(yè)利益,扮演好管理者和仲裁者的角色,不要讓自身經(jīng)濟(jì)利益牽涉其間”。 信息產(chǎn)業(yè)專家、中國(guó)工程院院士鄔賀銓今年在一篇名為《大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)》的文章中也寫道:“中國(guó)人口居世界首位,將會(huì)成為產(chǎn)生數(shù)據(jù)量最多的國(guó)家,但我們對(duì)數(shù)據(jù)保存不夠重視,對(duì)存儲(chǔ)數(shù)據(jù)的利用率也不高。此外,我國(guó)一些部門和機(jī)構(gòu)擁有大量數(shù)據(jù)卻不愿與其他部門共享,導(dǎo)致信息不完整或重復(fù)投資。政府應(yīng)通過(guò)體制機(jī)制改革打破數(shù)據(jù)割據(jù)與封鎖?!?還有一位業(yè)界專家告訴記者,政府對(duì)大數(shù)據(jù)行業(yè)的扶持,除促進(jìn)數(shù)據(jù)公開外,應(yīng)采用購(gòu)買服務(wù)的方式,而非越俎代庖,設(shè)立不必要的政府項(xiàng)目。 “(大數(shù)據(jù))標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成,是我國(guó)實(shí)現(xiàn)跨越式發(fā)展的寶貴機(jī)會(huì)。”鄔賀銓說(shuō),“要注意科學(xué)規(guī)劃,切忌一哄而上。 20
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 火力發(fā)電廠各設(shè)備的主要作用大全
- 3.高壓電工考試判斷練習(xí)題含答案
- 企業(yè)電氣防爆知識(shí)
- 13 低壓電工電工作業(yè)模擬考試題庫(kù)試卷含答案
- 電氣設(shè)備維修的十項(xiàng)原則
- 2.電氣電纜與直流模擬考試復(fù)習(xí)題含答案
- 電氣節(jié)能措施總結(jié)
- 2.電氣電機(jī)(一)模擬考試復(fù)習(xí)題含答案
- 接地電阻測(cè)量原理與測(cè)量方法
- 3.高壓電工作業(yè)模擬考試題庫(kù)試卷含答案
- 礦山維修電工安全技術(shù)操作規(guī)程
- 電工基礎(chǔ)口訣總結(jié)
- 3.某電廠值長(zhǎng)面試題含答案解析
- 電工基礎(chǔ)知識(shí)順口溜
- 配電系統(tǒng)詳解