當(dāng)前位置: 首頁 > 能源互聯(lián)網(wǎng) > 深度閱讀

大數(shù)據(jù)思維養(yǎng)成從認(rèn)識(shí)大數(shù)據(jù)的本質(zhì)開始

中國電力網(wǎng)發(fā)布時(shí)間:2020-04-26 11:58:50
  踐行數(shù)據(jù)的商業(yè)價(jià)值,理解大數(shù)據(jù)的本質(zhì),從哪里開始?應(yīng)該從認(rèn)識(shí)不確定性開始。

  什么是不確定性

  什么是不確定性?打個(gè)比方,老王、老李做一個(gè)游戲“猜花生米”。老王出一只拳頭,讓老李猜里面是空的還是抓了一粒花生米。這個(gè)事件對(duì)老王而言是確定性事件,因?yàn)槔贤踝约河袥]有抓花生米,他心知肚明。這個(gè)事件對(duì)猜拳的老李來說就是不確定性事件,因?yàn)槔侠顭o法對(duì)老王的猜拳決策做出絕對(duì)準(zhǔn)確的預(yù)測。

  在實(shí)際生活中,不確定性事件廣泛存在。事實(shí)上,人生就是由一系列或大或小的不確定性事件構(gòu)成的?;橐鲞x擇有著極大的不確定性。一對(duì)相愛的男女是否應(yīng)該接受對(duì)方成為自己的終身伴侶,這是一個(gè)重大選擇。這個(gè)選擇的后果是什么?是幸福的遠(yuǎn)航,還是痛苦的開始?這有很大的不確定性。為了極小化這種不確定性,青年男女往往需要一場死去活來的戀愛,以便充分暴露雙方的優(yōu)點(diǎn)和缺點(diǎn),以減少未來婚姻中的不確定性。但是,無論你如何了解,這種不確定性仍然存在。

  世界到處都充滿了不確定性,那我們對(duì)未來的世界認(rèn)識(shí)是不是不可知的?答案是否定的。世界上很多事情是難以用確定的公式或者規(guī)則來表示,但是這種不確定性并不是無規(guī)律可循,這個(gè)時(shí)候就需要用到統(tǒng)計(jì)學(xué)中的概率模型來描述。在概率論的基礎(chǔ)上,信息論鼻祖香農(nóng)博士建立了一套完整的理論,將世界的不確定性和信息聯(lián)系起來,這就是信息論,用來解釋不確定性的世界。

  信息可消除不確定性

  什么是信息?在看《暗時(shí)間》時(shí)(推薦大家看看),里面討論了一些信息論相關(guān)的內(nèi)容,于是就嘗試搜索信息論和不確定性的關(guān)系,結(jié)果發(fā)現(xiàn)香農(nóng)說了這么一句話:“信息是用來消除不確定性的東西”。信息論的鼻祖果然是鼻祖,一句話解釋了信息。

  信息是否可以被度量?如何度量信息?1948年,香農(nóng)提出了“信息熵”這個(gè)概念,解決了信息度量的問題。他指出,信息量與不確定性有關(guān):假如我們需要搞清楚一件非常不確定的事情,或者我們一無所知的事情,就需要收集大量的信息。相反,如果我們對(duì)某件事已經(jīng)有了較多的了解,那么不需要太多的信息就能把它搞清楚。從這個(gè)角度來看,信息量的度量就是不確定性的多少。

  舉例說明,就拿互聯(lián)網(wǎng)廣告來說,在門戶網(wǎng)站上投放展示類的品牌廣告,點(diǎn)擊率是非常低的。因?yàn)閷?duì)于受眾用戶,廣告投放時(shí)幾乎是隨機(jī)猜測用戶的需求,很不準(zhǔn)確。而搜索廣告因?yàn)橛杏脩糨斎氲年P(guān)鍵詞,準(zhǔn)確率會(huì)大幅度提高,至于提高多少,取決于關(guān)鍵詞所提供的信息量。這就是搜索廣告所賺到的廣告費(fèi)用要高出展示廣告兩個(gè)數(shù)量級(jí)。通過這個(gè)例子,也能說明,信息時(shí)代,誰掌握了更多的信息,誰就掌握了更多財(cái)富的可能性。

  大數(shù)據(jù)與信息的關(guān)系

  了解大數(shù)據(jù)的人,都可能知道,大數(shù)據(jù)有5V特點(diǎn),這是IBM提出來的:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。但從信息論的角度,大數(shù)據(jù)通常是具備三個(gè)主要特征,數(shù)據(jù)量大,多樣性和完備性。

  1、大數(shù)據(jù)的體量足夠大

  大數(shù)據(jù)最明顯的特點(diǎn)就是體量大,這一點(diǎn)無論是內(nèi)行還是外行都認(rèn)可,沒什么異議。我們國家僅僅北京的國家超級(jí)大數(shù)據(jù)中心,占地面積就8萬平方米,包含9棟數(shù)據(jù)中心機(jī)房和1棟感知體驗(yàn)中心。

  但是,過去由于數(shù)據(jù)量不夠,即使用了數(shù)據(jù),依然不足以消除不確定性,因此數(shù)據(jù)的作用其實(shí)有限,很多人忽視它的重要性是必然的,數(shù)據(jù)的價(jià)值也就被嚴(yán)重低估。在那種情況下,哪個(gè)領(lǐng)域先積攢下足夠的數(shù)據(jù),它的研究進(jìn)展就顯得快一些。語音識(shí)別領(lǐng)域,就是因?yàn)樵缙诜e攢了大量的音頻數(shù)據(jù),才可以捷足先登,第一批嘗到了數(shù)據(jù)驅(qū)動(dòng)方法的甜頭。

  2、大數(shù)據(jù)的多維度足夠多

  眾所周知,Google的人工智能已經(jīng)走在了前沿,也是目前全球估值最高的公司。但是,無論是AlpahaGo、無人駕駛還是IT醫(yī)療公司Calico,都是建立在多維度的大數(shù)據(jù)基礎(chǔ)之上的。例如關(guān)于“食物”這個(gè)問題,Google會(huì)利用用戶輸入的信息,收集所有相關(guān)的信息。不僅涉及到食物的做法、吃法、成分、營養(yǎng)價(jià)值、價(jià)格、問題來源的地域和時(shí)間等維度。

  大數(shù)據(jù)的多維度,統(tǒng)計(jì)學(xué)中稱為相關(guān)性,信息論中稱為互信息?;バ畔?,它在信息論中,實(shí)現(xiàn)了對(duì)信息相關(guān)性的度量。比如“央行調(diào)整利率”和“股市短期波動(dòng)”的互信息很大,這就證實(shí)了兩者具備強(qiáng)相關(guān)性。第二個(gè)視角,交叉驗(yàn)證。舉例說明,夏天的時(shí)候,“空氣濕度高”和“24小時(shí)內(nèi)要下雨”之間的互信息比較大。也就是說空氣濕度高,24小時(shí)下雨的可能性比較大,但并不能說空氣濕度高就一定會(huì)在24小時(shí)內(nèi)下雨。還需要結(jié)合氣壓信息,云圖信息等其他緯度的信息,來交叉驗(yàn)證“24小時(shí)內(nèi)要下雨”這件事情,那么預(yù)測的準(zhǔn)確性要高的多。

  3、大數(shù)據(jù)的完備性

  要理解它,需要介紹信息論中的一個(gè)重要概念—交叉熵。它可以反映兩個(gè)信息源之間的一致性,或者兩種概率模型之間的一致性。當(dāng)兩個(gè)數(shù)據(jù)源完全一致的時(shí)候,其交叉熵為0,當(dāng)它們相差很大時(shí),它們的交叉熵也很大。因此,所有數(shù)據(jù)驅(qū)動(dòng)的方法,建立模型使用的數(shù)據(jù)和使用模型的數(shù)據(jù)需要有一致性。

  抽樣調(diào)查方式都是采用抽取有限的樣本進(jìn)行統(tǒng)計(jì),從而得出整體的趨勢。抽樣的核心原則是隨機(jī)性,不隨機(jī)就不能真實(shí)地反應(yīng)整體的趨勢。但是要做到隨機(jī)性是很難的。例如電視收視率調(diào)查,要從不同階層隨機(jī)找被調(diào)查的人,但高學(xué)歷高收入的大忙人們普遍拒絕被調(diào)查,他們根本就不會(huì)因?yàn)閹讉€(gè)蠅頭小利而浪費(fèi)時(shí)間,電視調(diào)查的結(jié)果就可想而知。

  所以,在過去,任何使用概率統(tǒng)計(jì)模型都會(huì)有很多小概率事件是覆蓋不到的。大數(shù)據(jù)時(shí)代以前,這是數(shù)據(jù)驅(qū)動(dòng)方法的死穴。

  在大數(shù)據(jù)時(shí)代,在某個(gè)領(lǐng)域獲得數(shù)據(jù)的完備性還是有可能的,Google的機(jī)器翻譯系統(tǒng)就能很好的要利用大數(shù)據(jù)的完備性。通過數(shù)據(jù)學(xué)到了不同語言之間很長句子成分的對(duì)應(yīng),然后直接把一種語言翻譯成另一類,前提條件就是使用的數(shù)據(jù)必須是比較全面地覆蓋中文、英文,以及其他各種語言的所有句子,也就是說具備兩種語言之間翻譯的完備性。

  當(dāng)數(shù)據(jù)的完備性具備了以后,就相當(dāng)于訓(xùn)練模型的數(shù)據(jù)集合和使用這個(gè)模型的測試集合是同一個(gè)集合,或者是高度重復(fù)的。這樣的數(shù)據(jù)驅(qū)動(dòng)方法才是有效的。

  由此可見,大數(shù)據(jù)的科學(xué)基礎(chǔ)是信息論,它的本質(zhì)就是利用信息消除不確定性。

  ——以上內(nèi)容部分是源自于吳軍老師《智能時(shí)代》的讀書筆記。

評(píng)論

用戶名:   匿名發(fā)表  
密碼:  
驗(yàn)證碼:
最新評(píng)論0

相關(guān)閱讀

李瑋:手握大數(shù)據(jù) 馳騁物聯(lián)網(wǎng)

在4月22日舉辦的2019年度業(yè)績說明會(huì)上,佳華科技董事長李瑋表示,2020年,公司將持續(xù)在數(shù)據(jù)采集、數(shù)據(jù)分析方面發(fā)力,實(shí)現(xiàn)數(shù)據(jù)的復(fù)用和增值,成為物聯(lián)網(wǎng)數(shù)據(jù)的“托管地”,做實(shí)平臺(tái)化建設(shè),構(gòu)建智慧城市云鏈大數(shù)據(jù)平臺(tái)。“我們要成為物聯(lián)網(wǎng)領(lǐng)域的推動(dòng)者、領(lǐng)航者。這條路一定是對(duì)的!”

“工業(yè)互聯(lián)網(wǎng)”條件下新一代控制系統(tǒng)的發(fā)展趨勢

隨著工業(yè)互聯(lián)網(wǎng)的快速發(fā)展,使得我們的生產(chǎn)數(shù)據(jù)可以進(jìn)行規(guī)?;写鎯?chǔ),實(shí)現(xiàn)以前不可能實(shí)現(xiàn)的大數(shù)據(jù),并利用云計(jì)算平臺(tái)前所未有的計(jì)算能力對(duì)這些大數(shù)據(jù)進(jìn)行分析、挖掘和優(yōu)化生產(chǎn)效率。

從工業(yè)軟件轉(zhuǎn)型工業(yè)互聯(lián)網(wǎng)平臺(tái),“朗坤智慧”已接入35萬臺(tái)設(shè)備

隨著物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的發(fā)展,國內(nèi)傳統(tǒng)工業(yè)信息化公司也開始了互聯(lián)網(wǎng)轉(zhuǎn)型。36氪近期采訪了國內(nèi)老牌工業(yè)軟件廠商「朗坤智慧」副總裁、工業(yè)互聯(lián)網(wǎng)子公司總經(jīng)理毛旭初,探討了公司從工業(yè)軟件向工業(yè)互聯(lián)網(wǎng)轉(zhuǎn)型的歷程以及目前其工業(yè)互聯(lián)網(wǎng)發(fā)展現(xiàn)狀。

新基建之?dāng)?shù)據(jù)中心2020

移動(dòng)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)流量不斷增加。去年,我國移動(dòng)互聯(lián)網(wǎng)用戶每戶平均月流量為7.82GB,是2018年的1.69倍,企業(yè)數(shù)據(jù)也呈現(xiàn)爆發(fā)式增長。
市場研究2020-04-24
網(wǎng)絡(luò)數(shù)據(jù)安全標(biāo)準(zhǔn)體系:讓“新基建”更安全

網(wǎng)絡(luò)數(shù)據(jù)安全標(biāo)準(zhǔn)體系:讓“新基建”更安全

近年來,數(shù)據(jù)泄露事件頻頻發(fā)生,隨著5G、物聯(lián)網(wǎng)等“新基建”大規(guī)模推進(jìn),未來個(gè)人信息在網(wǎng)上應(yīng)用將更加普遍,非法數(shù)據(jù)共享與交易帶來的安全挑戰(zhàn)愈加嚴(yán)峻。
市場研究2020-04-22

2020年大數(shù)據(jù)開發(fā)行業(yè)就業(yè)趨勢

隨著科技的發(fā)展,人類社會(huì)擁有數(shù)據(jù)規(guī)模增長很快,每時(shí)每刻、從天到地都有大量數(shù)據(jù)被產(chǎn)生和存儲(chǔ)下來。數(shù)據(jù)科學(xué)則通過對(duì)數(shù)據(jù)進(jìn)行分析,幫助決策。
市場研究2020-04-22

六大案例解析電力行業(yè)如何應(yīng)用大數(shù)據(jù)

智能時(shí)代的發(fā)展,電力行業(yè)積累了實(shí)實(shí)在在的海量“大數(shù)據(jù)”。電力行業(yè)的數(shù)據(jù)源主要來源于電力生產(chǎn)和電能使用的發(fā)電、輸電、變電、配電、用電和調(diào)度各個(gè)環(huán)節(jié),可大致分為三類:一是電網(wǎng)運(yùn)行和設(shè)備檢測或監(jiān)測數(shù)據(jù);二是電力企業(yè)營銷數(shù)據(jù),如交易電價(jià)、售電量、用電客戶等方面數(shù)據(jù);三是電力企業(yè)管理數(shù)據(jù)。

曙光中標(biāo)長江電力!打造強(qiáng)大處理能力數(shù)據(jù)中心

近日,曙光中標(biāo)長江電力三峽數(shù)據(jù)中心IT基礎(chǔ)設(shè)施及大數(shù)據(jù)資源集中管理項(xiàng)目,為長江電力提供安全可靠、穩(wěn)定性高、可擴(kuò)展的云計(jì)算大數(shù)據(jù)中心硬件平臺(tái)及全方位的技術(shù)服務(wù)。

萬國數(shù)據(jù)董事長黃偉:數(shù)據(jù)中心要為新基建“打好底”

在當(dāng)前新舊動(dòng)能轉(zhuǎn)換的關(guān)鍵時(shí)期,數(shù)字經(jīng)濟(jì)正在強(qiáng)勢崛起,并改變著人類的生產(chǎn)、生活和消費(fèi)行為,已成為我國經(jīng)濟(jì)增長的新引擎。

“電力聲音”是大數(shù)據(jù)時(shí)代重要依據(jù)

最近,中共中央總書記、國家主席、中央軍委主席習(xí)近平,在浙江省委書記車俊和省長袁家軍陪同下,先后來到寧波、湖州、杭州等地,深入港口、企業(yè)、農(nóng)村、生態(tài)濕地等,就統(tǒng)籌推進(jìn)新冠肺炎疫情防控和經(jīng)濟(jì)社會(huì)發(fā)展工作進(jìn)行調(diào)研,強(qiáng)調(diào)運(yùn)用電力大數(shù)據(jù),推進(jìn)流動(dòng)人口風(fēng)險(xiǎn)分析、企業(yè)復(fù)工、獨(dú)居老人關(guān)愛等城市治理能力現(xiàn)代化。