您現(xiàn)在的位置：森濤培訓(xùn)網(wǎng) >> 管理文庫(kù) >>

大數(shù)據(jù)與統(tǒng)計(jì)新思維

譯著《大數(shù)據(jù)時(shí)代》(英國(guó) ViktorMayer-Schǒnberger，Kenneth Cukier 著)和《駕馭大數(shù)據(jù)》( 美國(guó) Bill Franks 著)，以及我國(guó)學(xué)者涂子沛、郭曉科的《大數(shù)據(jù)》等幾本書(shū)引起了廣泛的關(guān)注，其他各種媒體關(guān)于大數(shù)據(jù)的討論也層出不窮，大數(shù)據(jù)已成為流行語(yǔ)。有人認(rèn)為，大數(shù)據(jù)是一場(chǎng)新的革命，將橫掃一切領(lǐng)域，重構(gòu)世界。不少?lài)?guó)家已將大數(shù)據(jù)作為國(guó)家發(fā)展戰(zhàn)略，而商業(yè)領(lǐng)域更是將其視為下一個(gè)投資的寶庫(kù)。毫無(wú)疑問(wèn)，大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨，它正在悄悄地改變著人們的行為與思維，難以阻擋，無(wú)法抗拒。在計(jì)算機(jī)科學(xué)、電子商務(wù)等領(lǐng)域已率先在大數(shù)據(jù)技術(shù)開(kāi)發(fā)與應(yīng)用方面做出不俗成就的時(shí)候，以數(shù)據(jù)為研究對(duì)象的統(tǒng)計(jì)學(xué)該如何應(yīng)對(duì)？無(wú)動(dòng)于衷還是盲目追從？正確的態(tài)度應(yīng)該是理性對(duì)待、積極跟進(jìn)、改變思維、謀求發(fā)展。

一、對(duì)大數(shù)據(jù)的初步認(rèn)識(shí)

到底什么是大數(shù)據(jù)，不同的學(xué)科領(lǐng)域、不同行業(yè)的從業(yè)人員肯定會(huì)有不同的理解。與傳統(tǒng)意義上的數(shù)據(jù)相比，大數(shù)據(jù)的“大”與“數(shù)據(jù)”都有了新的含義，絕不僅僅是體量的問(wèn)題，更重要的是數(shù)據(jù)的內(nèi)涵問(wèn)題。或許，“大”與“數(shù)據(jù)”根本就不能分開(kāi)，只有把“大數(shù)據(jù)”當(dāng)作一個(gè)整體概念來(lái)理解才有意義。那么從統(tǒng)計(jì)學(xué)的角度，我們?cè)撊绾蝸?lái)理解大數(shù)據(jù)？筆者認(rèn)為大數(shù)據(jù)不是基于人工設(shè)計(jì)、借助傳統(tǒng)方法而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù)，而是基于現(xiàn)代信息技術(shù)與工具可以自動(dòng)記錄、儲(chǔ)存和連續(xù)擴(kuò)充的、大大超出傳統(tǒng)統(tǒng)計(jì)記錄與儲(chǔ)存能力的一切類(lèi)型的數(shù) 據(jù)。有人用 4V( Volume，Variety、Velocity 和 Value) 來(lái)形容大數(shù)據(jù)的特征，最根本之處就是數(shù)字化基礎(chǔ)上的數(shù)據(jù)化。通俗地說(shuō)，大數(shù)據(jù)就是一切可記錄信號(hào)的集合。

如果說(shuō)，傳統(tǒng)統(tǒng)計(jì)研究的數(shù)據(jù)是有意收集的結(jié)構(gòu)化的樣本數(shù)據(jù)，那么現(xiàn)在我們面對(duì)的數(shù)據(jù)則是一切可以記錄和存儲(chǔ)、源源不斷擴(kuò)充、超大容量的各種類(lèi)型的數(shù)據(jù)。樣本數(shù)據(jù)與大數(shù)據(jù)的這種區(qū)別，具有什么樣的統(tǒng)計(jì)學(xué)意義？我們知道，樣本數(shù)據(jù)是按照特定研究目的、依據(jù)抽樣方案獲得的格式化的數(shù)據(jù)，不僅數(shù)據(jù)量有限，而且如果過(guò)程偏離方案，數(shù)據(jù)就不能滿足要求�；跇颖緮�(shù)據(jù)所進(jìn)行的分析，其空間十分有限———通常無(wú)法滿足多層次、多角度的需要，若遇到抽樣方案事先未曾考慮到的問(wèn)題，數(shù)據(jù)的不可擴(kuò)充性缺點(diǎn)就暴露無(wú)疑。而大數(shù)據(jù)是一切可以通過(guò)現(xiàn)代信息技術(shù)記錄和量化的數(shù)據(jù)，不僅所蘊(yùn)含的信息量巨大，而且不受各種框框的限制———任何種類(lèi)的數(shù)據(jù)都來(lái)者不拒、也無(wú)法抵拒。不難發(fā)現(xiàn)，大數(shù)據(jù)相比于樣本數(shù)據(jù)的最大優(yōu)點(diǎn)是，具有巨大的數(shù)據(jù)選擇空間，可以進(jìn)行多維、多角度的數(shù)據(jù)分析。更為重要的是，由于大數(shù)據(jù)的大體量與多樣性，樣本不足以呈現(xiàn)的某些規(guī)律，大數(shù)據(jù)可以體現(xiàn)；樣本不足以捕捉的某些弱小信息，大數(shù)據(jù)可以覆蓋；樣本中被認(rèn)為異常的值，大數(shù)據(jù)得以認(rèn)可。這將極大地提高我們認(rèn)識(shí)現(xiàn)象的能力，避免丟失很多重要的信息，避免失去很多決策選擇的機(jī)會(huì)。

這里，我們自然就想到了大量觀察與大數(shù)據(jù)這兩個(gè)概念中的“大”的區(qū)別。對(duì)于傳統(tǒng)的統(tǒng)計(jì)研究方法而言，大量觀察法是基礎(chǔ)，是收集數(shù)據(jù)的基本理論依據(jù)，其主要思想是要對(duì)足夠量的個(gè)體進(jìn)行調(diào)查觀察，以確保有足夠的微觀基礎(chǔ)來(lái)消除或削弱個(gè)體差異對(duì)整體特征的影響，足以歸納出關(guān)于總體的數(shù)量規(guī)律。所以，這里的“大”是足夠的意思。大量觀察法的極端情況就是普查，但限于各種因素不能經(jīng)常進(jìn)行，所以一般情況下只能進(jìn)行抽樣調(diào)查，這就需要精確計(jì)算最小的樣本量�；诖罅坑^察法獲得的樣本數(shù)據(jù)才符合大數(shù)法則或大數(shù)定律，才能用以推斷總體。而大數(shù)據(jù)則指不限量的數(shù)據(jù)，是基于現(xiàn)代信息技術(shù)的一切可以記錄的全體數(shù)據(jù)，其特征之一就是盡量多地包含數(shù)據(jù)，它與樣本容量無(wú)關(guān)，只與信息來(lái)源的數(shù)量與儲(chǔ)存容量有關(guān)。因此，這里的“大”是全體的意思。

可見(jiàn)，統(tǒng)計(jì)學(xué)的研究對(duì)象沒(méi)有變，變的是數(shù)據(jù)的來(lái)源、體量、類(lèi)型、速度與量化的方式。這種變化對(duì)統(tǒng)計(jì)研究帶來(lái)了什么樣的挑戰(zhàn)？《大數(shù)據(jù)時(shí)代》提出了三個(gè)最顯著的變化: 一是樣本等于總體，二是不再追求精確性，三是相關(guān)分析比因果分析更重要。這些觀點(diǎn)具有很強(qiáng)的震撼力，迫使我們對(duì)現(xiàn)有的統(tǒng)計(jì)研究思維進(jìn)行反思。盡管這些觀點(diǎn)值得進(jìn)一步商榷，但至少告訴我們這樣一個(gè)道理: 統(tǒng)計(jì)研究對(duì)象的基礎(chǔ)變了，統(tǒng)計(jì)思維也要跟著變化，否則統(tǒng)計(jì)研究的對(duì)象只是全部數(shù)據(jù)的 5%，而且越來(lái)越少，那又怎么能說(shuō)統(tǒng)計(jì)學(xué)是一門(mén)關(guān)于數(shù)據(jù)的科學(xué)呢？又怎么去完善和發(fā)展開(kāi)展數(shù)據(jù)分析研究的統(tǒng)計(jì)方法論呢？

二、統(tǒng)計(jì)思維的變化

改變統(tǒng)計(jì)思維，是大數(shù)據(jù)時(shí)代的必然要求。否則，統(tǒng)計(jì)學(xué)科就有可能被大數(shù)據(jù)的潮流所吞沒(méi)，至少會(huì)被邊緣化，失去一次重要的參與推動(dòng)歷史變革的機(jī)遇。當(dāng)然，統(tǒng)計(jì)思維的變化應(yīng)該以一個(gè)永恒不變的主題為前提，那就是通過(guò)數(shù)據(jù)分析去揭示事物的真相，這個(gè)真相就是事物的生存規(guī)律、聯(lián)系規(guī)律和發(fā)展規(guī)律。也就是說(shuō)，數(shù)據(jù)分析要以數(shù)據(jù)背后的數(shù)據(jù)去還原事物的本來(lái)面目，以達(dá)到求真的目的。如果說(shuō)，我們?cè)瓉?lái)限于各種條件只能根據(jù)有限的樣本數(shù)據(jù)去實(shí)現(xiàn)這個(gè)目的，那么現(xiàn)在我們則可以在很多方面借助大數(shù)據(jù)去實(shí)現(xiàn)這個(gè)目的，關(guān)鍵就看我們開(kāi)展數(shù)據(jù)分析的能力有多大，或者說(shuō)利用大數(shù)據(jù)、從一切數(shù)據(jù)中提取有價(jià)值信息的能力有多大———因?yàn)榇髷?shù)據(jù)無(wú)疑增加了統(tǒng)計(jì)分析的難度，而這又首先取決于我們統(tǒng)計(jì)思維能否適應(yīng)大數(shù)據(jù)時(shí)代的變化。正如邁爾 – 舍恩伯格所說(shuō): 大數(shù)據(jù)發(fā)展的核心動(dòng)力就是人類(lèi)測(cè)量、記錄和分析世界的渴望。

那么，統(tǒng)計(jì)思維應(yīng)該發(fā)生怎樣的變化？筆者認(rèn)為主要要有如下三大變化:

(一) 認(rèn)識(shí)數(shù)據(jù)的思維要變化

前面已經(jīng)提到，與傳統(tǒng)數(shù)據(jù)相比，大數(shù)據(jù)不僅體量大、變化快，而且其來(lái)源、類(lèi)型和量化方式都發(fā)生了根本性的變化，使得數(shù)據(jù)雜亂、多樣、不規(guī)整。

首先，從來(lái)源上看，傳統(tǒng)的數(shù)據(jù)收集因?yàn)榫哂泻軓?qiáng)的針對(duì)性，因此數(shù)據(jù)的提供者大多是確定的，身份特征是可識(shí)別的，有的還可以進(jìn)行事后核對(duì)。但大數(shù)據(jù)通常來(lái)源于物聯(lián)網(wǎng)，不是為了特定的數(shù)據(jù)收集目的而產(chǎn)生，而是人們一切可記錄的信號(hào)( 當(dāng)然，任何信號(hào)的產(chǎn)生都有其目的，但它們是發(fā)散的) ，并且身份識(shí)別十分困難。從某種意義上講，大數(shù)據(jù)來(lái)源的微觀基礎(chǔ)是很難追溯的。

其次，從類(lèi)型上看，傳統(tǒng)數(shù)據(jù)基本上是結(jié)構(gòu)型數(shù)據(jù)，即定量數(shù)據(jù)加上少量專(zhuān)門(mén)設(shè)計(jì)的定性數(shù)據(jù)，格式化，有標(biāo)準(zhǔn)，可以用常規(guī)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表加以表現(xiàn)。但大數(shù)據(jù)更多的是非結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)或異構(gòu)數(shù)據(jù)，包括了一切可記錄、可存儲(chǔ)的信號(hào)，多樣化、無(wú)標(biāo)準(zhǔn)、難以用傳統(tǒng)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表加以表現(xiàn)。同時(shí)，不同的網(wǎng)絡(luò)信息系統(tǒng)有不同的數(shù)據(jù)識(shí)別方式，相互之間也沒(méi)用統(tǒng)一的數(shù)據(jù)分類(lèi)標(biāo)準(zhǔn)。再者，現(xiàn)在有的數(shù)據(jù)庫(kù)是非關(guān)系型的數(shù)據(jù)庫(kù)，不需要預(yù)先設(shè)定記錄結(jié)構(gòu)即可自動(dòng)包容大量各種各樣的數(shù)據(jù)。

第三，從量化方式上看，傳統(tǒng)數(shù)據(jù)的量化處理已經(jīng)有一整套較為完整的方式與過(guò)程，量化的結(jié)果可直接用于各種運(yùn)算與分析。但大數(shù)據(jù)中大量的非結(jié)構(gòu)化數(shù)據(jù)如何量化( 結(jié)構(gòu)化) 、如何從中提取信息、如何與結(jié)構(gòu)化數(shù)據(jù)對(duì)接是一個(gè)嶄新的問(wèn)題。正如Franks 所說(shuō): “幾乎沒(méi)有哪種分析過(guò)程能夠直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析，也無(wú)法直接從非結(jié)構(gòu)化的數(shù)據(jù)中得出結(jié)論�！备鼮橹匾氖牵傲炕钡暮x恐怕也不一樣了，即此“量化”不一定等同于彼“量化”，量化結(jié)果的表現(xiàn)形式自然也不相同。顯然，我們不能套用已有的方式去量化非結(jié)構(gòu)化數(shù)據(jù)。

可以說(shuō)，大數(shù)據(jù)是雜亂、不規(guī)整、良莠不齊的，但我們不能因此而回避它、拒絕它，只能接納它、包容它。我們需要將統(tǒng)計(jì)研究的對(duì)象范圍從結(jié)構(gòu)型數(shù)據(jù)擴(kuò)展到一切數(shù)據(jù)，需要重新思考數(shù)據(jù)的定義和分類(lèi)方法，并以此為基礎(chǔ)發(fā)展和創(chuàng)新統(tǒng)計(jì)分析方法。從某種意義上講，沒(méi)有無(wú)用的數(shù)據(jù)，只有未被欣賞的數(shù)據(jù)，關(guān)鍵是我們從哪個(gè)角度看數(shù)據(jù)。

(二) 收集數(shù)據(jù)的思維要變化

收集數(shù)據(jù)是開(kāi)展統(tǒng)計(jì)分析的前提，“沒(méi)有黏土，如何做磚？”以往，收集統(tǒng)計(jì)數(shù)據(jù)的思維是先確定統(tǒng)計(jì)分析研究的目的，然后需要什么數(shù)據(jù)就收集什么數(shù)據(jù)，所以要精心設(shè)計(jì)調(diào)查方案，嚴(yán)格執(zhí)行每個(gè)流程，但往往是投入大而數(shù)據(jù)量有限�，F(xiàn)在，我們擁有了大數(shù)據(jù)，就等于擁有了超大量可選擇的數(shù)據(jù)———備選“黏土”的體量與種類(lèi)都極大地增加了，所要做的最重要的工作就是比較與選擇，因此我們的思維應(yīng)該是如何充分利用大數(shù)據(jù)，凡是大數(shù)據(jù)源中能找到的數(shù)據(jù)就不再需要進(jìn)行專(zhuān)門(mén)的調(diào)查。

但是，由于大數(shù)據(jù)來(lái)源與種類(lèi)的多樣性，以及數(shù)據(jù)增加的快速性，我們?cè)谙硎軘?shù)據(jù)的豐富性的同時(shí)也不得不面臨這樣一些困境: 存儲(chǔ)能力夠不夠，分析能力夠不夠( 是否及時(shí)、充分)，如何甄別數(shù)據(jù)的真?zhèn)危绾芜x擇關(guān)聯(lián)物，如何提煉和利用數(shù)據(jù)，如何確定分析節(jié)點(diǎn)？現(xiàn)在 TB 級(jí)的數(shù)據(jù)庫(kù)已經(jīng)很多，PB 級(jí)的數(shù)據(jù)庫(kù)也不少見(jiàn)，以后還會(huì)出現(xiàn)EB、甚至ZB、YB級(jí)的數(shù)據(jù)庫(kù)。今天的大數(shù)據(jù)，明天就不再是大數(shù)據(jù)。這樣一來(lái)，電子存儲(chǔ)能力能否跟得上數(shù)據(jù)增加的速度就成為首要的問(wèn)題。如果讓數(shù)據(jù)庫(kù)自動(dòng)更新就有可能失去一些寶貴的數(shù)據(jù)信息，而到了一定級(jí)別以后擴(kuò)充存儲(chǔ)容量或?qū)?shù)據(jù)進(jìn)行拷貝，其代價(jià)是十分巨大的，因此我們不得不對(duì)數(shù)據(jù)進(jìn)行分類(lèi)、篩選，有針對(duì)地刪除那些垃圾數(shù)據(jù)、不重要或次重要的數(shù)據(jù)。如果說(shuō)以前有針對(duì)地獲得數(shù)據(jù)叫做收集，那么今后有選擇地刪除數(shù)據(jù)就意味著收集。也就是說(shuō)，大數(shù)據(jù)時(shí)代的數(shù)據(jù)收集將更多的是從已有的超大量數(shù)據(jù)中進(jìn)行再過(guò)濾、再選擇。因此，我們要做好丟棄一部分?jǐn)?shù)據(jù)的準(zhǔn)備。

當(dāng)然，并不是任何數(shù)據(jù)都可以從現(xiàn)成的大數(shù)據(jù)中獲得，這里存在一個(gè)針對(duì)性、安全性和成本比較問(wèn)題。因此，我們既要繼續(xù)采用傳統(tǒng)的方式方法去收集特定需要的數(shù)據(jù)，又要善于利用現(xiàn)代網(wǎng)絡(luò)信息技術(shù)和各種數(shù)據(jù)源去收集一切相關(guān)的數(shù)據(jù)，并善于從大數(shù)據(jù)中進(jìn)行再過(guò)濾、再選擇。問(wèn)題在于什么是無(wú)用的或不重要的數(shù)據(jù)？該如何過(guò)濾與選擇數(shù)據(jù)？這就需要對(duì)已經(jīng)存在的數(shù)據(jù)進(jìn)行重要性分析、真?zhèn)蝿e和關(guān)聯(lián)物定位。

此外，大的數(shù)據(jù)庫(kù)可能需要將信息分散在不同的硬盤(pán)或電腦上，這樣一來(lái)，在不能同步更新數(shù)據(jù)信息的情況下如何選擇、調(diào)用和匹配數(shù)據(jù)又是一個(gè)問(wèn)題。因此從某種意義上講，從大數(shù)據(jù)中收集數(shù)據(jù)就是識(shí)別、整理、提煉、汲取( 刪除) 、分配和存儲(chǔ)元數(shù)據(jù)的過(guò)程。

(三) 分析數(shù)據(jù)的思維要變化

基于上述兩個(gè)變化，數(shù)據(jù)分析的思維必然要跟著變化，那就是要主動(dòng)利用現(xiàn)代信息技術(shù)與各種軟件工具從大數(shù)據(jù)中挖掘出有價(jià)值的信息，并在這個(gè)過(guò)程中豐富和發(fā)展統(tǒng)計(jì)分析方法。

關(guān)于數(shù)據(jù)分析思維的變化，特別需要強(qiáng)調(diào)三點(diǎn):

第一，傳統(tǒng)的統(tǒng)計(jì)分析過(guò)程是“定性—定量—再定性”，第一個(gè)定性是為了找準(zhǔn)定量分析的方向，主要靠經(jīng)驗(yàn)判斷，這在數(shù)據(jù)短缺、分析運(yùn)算手段有限的情況下很重要。現(xiàn)在我們是在大數(shù)據(jù)中找礦，直接依賴(lài)數(shù)據(jù)分析做出判斷，因此基礎(chǔ)性的工作就是找到“定量的回應(yīng)”，這在存儲(chǔ)能力大為增強(qiáng)、分析技術(shù)與分析速度大為提高的今天，探測(cè)“定量的回應(yīng)”變得越來(lái)越簡(jiǎn)單，所要做的就是直接從各種“定量的回應(yīng)”中找出那些真正的、重要的數(shù)量特征和數(shù)量關(guān)系，得出可以作為判斷或決策依據(jù)的結(jié)論，因此統(tǒng)計(jì)分析的過(guò)程可以簡(jiǎn)化為“定量—定性”，從而大大提高得到新的定性結(jié)論的可能性。

第二，傳統(tǒng)的統(tǒng)計(jì)實(shí)證分析，一般都要先根據(jù)研究目的提出某種假設(shè)，然后通過(guò)數(shù)據(jù)的收集與分析去驗(yàn)證該假設(shè)是否成立，其分析思路是“假設(shè)—驗(yàn)證”，但這種驗(yàn)證往往由于受到假設(shè)的局限、指標(biāo)選擇的失當(dāng)、所需數(shù)據(jù)的缺失而得不出真正的結(jié)論。特別是，一旦假設(shè)本身不科學(xué)、不符合實(shí)際，那么分析結(jié)論就毫無(wú)用處、甚至扭曲事實(shí)真相。事實(shí)證明，很多這樣的實(shí)證分析純粹是為了湊合假設(shè)�，F(xiàn)在，我們有了大數(shù)據(jù)，可以不受任何假設(shè)的限制而從中去尋找關(guān)系、發(fā)現(xiàn)規(guī)律，然后再加以總結(jié)、形成結(jié)論。也就是說(shuō)，分析的思路是“發(fā)現(xiàn)—總結(jié)”。這將極大地豐富統(tǒng)計(jì)分析的資源與空間，有助于發(fā)現(xiàn)更多意外的“發(fā)現(xiàn)”。

第三，傳統(tǒng)的統(tǒng)計(jì)推斷分析，通常是基于分布理論，以一定的概率為保證，根據(jù)樣本特征去推斷總體特征，其邏輯關(guān)系是“分布理論—概率保證—總體推斷”，推斷的評(píng)判標(biāo)準(zhǔn)與具體樣本無(wú)關(guān)，但推斷是否正確卻取決于樣本的好壞�，F(xiàn)在，大數(shù)據(jù)強(qiáng)調(diào)的是全體數(shù)據(jù)，總體特征不再需要根據(jù)分布理論進(jìn)行推斷，只需進(jìn)行計(jì)數(shù)或計(jì)量處理即可。不僅如此，還可以根據(jù)全面數(shù)據(jù)和實(shí)際分布來(lái)判斷其中出現(xiàn)某類(lèi)情況的可能性有多大，其邏輯關(guān)系變成了“實(shí)際分布—總體特征—概率判斷”，也即概率不再是事先預(yù)設(shè)，而是基于實(shí)際分布得出的判斷。按照邁爾 -舍恩伯格的觀點(diǎn)，這個(gè)概率判斷就可用于預(yù)測(cè)了。

伴隨著上述三大變化，統(tǒng)計(jì)分析評(píng)價(jià)的標(biāo)準(zhǔn)又該如何變化？傳統(tǒng)統(tǒng)計(jì)分析的評(píng)價(jià)標(biāo)準(zhǔn)無(wú)非兩個(gè)方面，一是可靠性評(píng)價(jià)，二是有效性評(píng)價(jià)，而這兩種評(píng)價(jià)都因抽樣而生。所謂可靠性評(píng)價(jià)是指用樣本去推斷總體有多大的把握程度，是以概率來(lái)度量的———有時(shí)表現(xiàn)為置信水平，有時(shí)表現(xiàn)為顯著性水平。特別是在假設(shè)檢驗(yàn)和模型擬合度評(píng)價(jià)中，顯著性水平怎么定是一個(gè)難題，一直存在爭(zhēng)議，因?yàn)樗鶇⒄盏姆植碱?lèi)型不同其統(tǒng)計(jì)量就不同，顯著性評(píng)價(jià)的臨界值就不同，而臨界值又與顯著性水平的高低直接相關(guān)。然而在大數(shù)據(jù)的背景下，大數(shù)據(jù)在一定程度上就是全體數(shù)據(jù)，我們可以對(duì)全體數(shù)據(jù)進(jìn)行計(jì)數(shù)或計(jì)量分析，這就不存在以樣本推斷總體的問(wèn)題了，那么這時(shí)還有沒(méi)有可靠性的問(wèn)題？還要不要確定置信水平？怎么確定？依據(jù)是什么？如何比較來(lái)自不同容量數(shù)據(jù)庫(kù)的分析結(jié)論的可靠性？

所謂有效性評(píng)價(jià)指的是真實(shí)性，即誤差大小。這里又有兩個(gè)相關(guān)的概念: 準(zhǔn)確性與精確性。準(zhǔn)確性一般是指一個(gè)觀察值與真實(shí)值的吻合程度，通常情況下是無(wú)法做出測(cè)度的；而精確性一般指樣本統(tǒng)計(jì)量分布的離散程度，以抽樣分布的標(biāo)準(zhǔn)差來(lái)衡量。很顯然，精確性是針對(duì)樣本數(shù)據(jù)而言的。也就是說(shuō)樣本數(shù)據(jù)既有精確性問(wèn)題又有準(zhǔn)確性問(wèn)題，樣本數(shù)據(jù)中的誤差既包括抽樣誤差也可能包括非抽樣誤差。抽樣誤差可以基于抽樣分布理論進(jìn)行計(jì)算和控制，而非抽樣誤差只能通過(guò)各種方式加以識(shí)別或判斷，但多數(shù)情況下由于樣本量不是太大而可以得到較好的防范。但對(duì)于大數(shù)據(jù)，由于它是全體數(shù)據(jù)，因而不再有抽樣誤差問(wèn)題，只有非抽樣誤差問(wèn)題，也就是說(shuō)大數(shù)據(jù)的真實(shí)性只表現(xiàn)為準(zhǔn)確性而非精確性。然而由于大數(shù)據(jù)是超大量數(shù)據(jù)，再加上混雜性與多樣性，因此其非抽樣誤差很難防范與控制，這就使得準(zhǔn)確性評(píng)價(jià)問(wèn)題變得更為困難———如何測(cè)度？標(biāo)準(zhǔn)怎樣？

三、積極應(yīng)對(duì)大數(shù)據(jù)

面對(duì)大數(shù)據(jù)，我們唯有積極應(yīng)對(duì)，別無(wú)選擇。如何應(yīng)對(duì)，需要考慮以下幾個(gè)方面:

(一) 需要改變總體、個(gè)體乃至樣本的定義方式

傳統(tǒng)的統(tǒng)計(jì)分析，是先有總體，再有數(shù)據(jù)，即必須先確定總體范圍和個(gè)體單位，再收集個(gè)體數(shù)據(jù)，分析總體。但對(duì)大數(shù)據(jù)來(lái)說(shuō)，情況完全不同了，是先有數(shù)據(jù)，再有總體。從某種意義上說(shuō)，大數(shù)據(jù)的產(chǎn)生系統(tǒng)多數(shù)是非總體式的，即無(wú)事先定義的目標(biāo)總體，只有與各個(gè)時(shí)點(diǎn)相對(duì)應(yīng)的事后總體，原因就在于個(gè)體是不確定的，是變化著的，是無(wú)法事先編制名錄庫(kù)的，這與傳統(tǒng)的總體與個(gè)體有很大的不同。更為復(fù)雜的是，事后個(gè)體的識(shí)別也很困難，因?yàn)橥粋€(gè)個(gè)體可能有多個(gè)不同的網(wǎng)絡(luò)符號(hào)或稱(chēng)謂，而不同網(wǎng)絡(luò)系統(tǒng)的相同符號(hào)( 稱(chēng)謂) 也未必就是同一個(gè)個(gè)體，而且還經(jīng)常存在個(gè)體異位的情況( 即某一個(gè)體利用另一個(gè)體的符號(hào)完成某種行為) ，因此我們對(duì)于大數(shù)據(jù)往往是只見(jiàn)“數(shù)據(jù)”的外形而不見(jiàn)“個(gè)體”的真容。但對(duì)大數(shù)據(jù)的分析，仍然有一個(gè)總體口徑問(wèn)題，依然需要識(shí)別個(gè)體身份。這就需要我們改變總體與個(gè)體的定義方式———盡管它們的內(nèi)涵沒(méi)有變。與此對(duì)應(yīng)，如果要從大數(shù)據(jù)庫(kù)中提取樣本數(shù)據(jù)，那么樣本的定義方式也需要改變。當(dāng)然，考慮到大數(shù)據(jù)的流動(dòng)變化性，任何時(shí)點(diǎn)的總體都可以被理解為一個(gè)截面樣本。

(二) 需要改變對(duì)不確定性的認(rèn)識(shí)

眾所周知，統(tǒng)計(jì)學(xué)是為了認(rèn)識(shí)和研究事物的不確定性而產(chǎn)生的，因?yàn)闊o(wú)論是自然現(xiàn)象還是社會(huì)經(jīng)濟(jì)現(xiàn)象，都時(shí)時(shí)處處充滿著因個(gè)體的差異性而引起的不確定性，因?yàn)樵诖蠖鄶?shù)情況下我們?nèi)狈ψ銐虻男畔⒒蛉狈ψ銐虻闹R(shí)去利用有效信息，而人們總是期望通過(guò)量化事物的不確定性去發(fā)現(xiàn)規(guī)律、揭示真相，認(rèn)識(shí)不確定性背后的必然性。要研究不確定性就需要收集數(shù)據(jù)，在只能進(jìn)行抽樣觀測(cè)的情況下，這種不確定性就表現(xiàn)為如何獲得樣本、如何推斷總體( 包括估計(jì)與檢驗(yàn)) 和如何構(gòu)建模型等方面。對(duì)于大數(shù)據(jù)，仍然存在著個(gè)體的差異性，區(qū)別只在于它包括了一定條件下的所有個(gè)體，而不是隨機(jī)獲得的一個(gè)樣本。這樣，大數(shù)據(jù)的不確定性就不再是樣本的獲取與總體的推斷，而是數(shù)據(jù)的來(lái)源、個(gè)體的識(shí)別、信息的量化、數(shù)據(jù)的分類(lèi)、關(guān)聯(lián)物的選擇、節(jié)點(diǎn)的確定，以及結(jié)論的可能性判斷等方面�？梢哉f(shuō)，大數(shù)據(jù)的不確定性只來(lái)自于其來(lái)源的多樣性與混雜性，以及由于個(gè)體的可變性所引起的總體多變性，而不是同類(lèi)個(gè)體之間的差異性———因?yàn)槲覀円呀?jīng)掌握了一定條件下的完全信息。

(三) 需要建立新的數(shù)據(jù)梳理與分類(lèi)方法

大數(shù)據(jù)的多樣性與混雜性，以及先有數(shù)據(jù)、后有總體的特點(diǎn)，原有的數(shù)據(jù)梳理與分類(lèi)方法將受到諸多的限制。傳統(tǒng)的數(shù)據(jù)梳理與分類(lèi)是按照預(yù)先設(shè)定的方案進(jìn)行的，標(biāo)志與指標(biāo)的關(guān)系、分類(lèi)標(biāo)識(shí)與分組規(guī)則等都是結(jié)構(gòu)化的，既是對(duì)有針對(duì)性地收集的數(shù)據(jù)的加工，也是統(tǒng)計(jì)分析的組成部分。但對(duì)于大數(shù)據(jù)，由于新的網(wǎng)絡(luò)語(yǔ)言、新的信息內(nèi)容、新的數(shù)據(jù)表現(xiàn)形式不斷出現(xiàn)，使得會(huì)產(chǎn)生哪些種類(lèi)的信息、有哪些可以利用的分類(lèi)標(biāo)識(shí)、不同標(biāo)識(shí)之間是什么關(guān)系、類(lèi)與類(lèi)之間的識(shí)別度有多大、信息與個(gè)體之間的對(duì)應(yīng)關(guān)系如何等，都無(wú)法事先加以嚴(yán)格設(shè)定或控制，往往需要事后進(jìn)行補(bǔ)充或完善。面對(duì)超大量的數(shù)據(jù)，我們從何下手？只能從數(shù)據(jù)本身入手，從觀察數(shù)據(jù)分布特征入手。這就需要采用不同的數(shù)據(jù)梳理與分類(lèi)方法。否則，要想尋找到能有效開(kāi)展數(shù)據(jù)分析的路徑是不可能的。因此根據(jù)大數(shù)據(jù)的特點(diǎn)，創(chuàng)新與發(fā)展數(shù)據(jù)的梳理與分類(lèi)方法，是有效開(kāi)展大數(shù)據(jù)分析的重要前提。這里需要強(qiáng)調(diào)的是，能否建立起能自動(dòng)進(jìn)行初步的數(shù)據(jù)梳理與分類(lèi)的簡(jiǎn)單模型？因?yàn)閺募夹g(shù)上講，我們已經(jīng)具備了一定的對(duì)大數(shù)據(jù)進(jìn)行多次迭代建模的算法。

(四) 需要強(qiáng)化結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的對(duì)接研究

有效實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的對(duì)接，是數(shù)據(jù)概念拓展的必然結(jié)果。盡管大數(shù)據(jù)是超大量數(shù)據(jù)，但大數(shù)據(jù)不能涵蓋所有的數(shù)據(jù)，因此傳統(tǒng)意義上的結(jié)構(gòu)化數(shù)據(jù)與大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)必將長(zhǎng)期并存。大數(shù)據(jù)時(shí)代的來(lái)臨，使得數(shù)據(jù)收集、存儲(chǔ)與分析的能力大為增強(qiáng)，而且步伐越來(lái)越快，但出于針對(duì)性與安全性考慮，總有一些結(jié)構(gòu)化數(shù)據(jù)要通過(guò)專(zhuān)門(mén)的方式去收集而不能依賴(lài)于公共網(wǎng)絡(luò)系統(tǒng)( 例如政府統(tǒng)計(jì)數(shù)據(jù)，專(zhuān)題研究數(shù)據(jù)) 。這樣，如何既能有針對(duì)性地收集所需的結(jié)構(gòu)化數(shù)據(jù)，又能從大量非結(jié)構(gòu)化數(shù)據(jù)中挖掘出有價(jià)值的信息，使兩者相輔相成、有機(jī)結(jié)合，就成了一個(gè)新的課題，值得探討的問(wèn)題包括非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)能否采用非結(jié)構(gòu)化的表現(xiàn)形式等。通過(guò)特定的方法，實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化與對(duì)接是完全可能的。但要實(shí)現(xiàn)這種對(duì)接，必須要增強(qiáng)對(duì)各種類(lèi)型數(shù)據(jù)進(jìn)行測(cè)度與描述的能力，否則大數(shù)據(jù)分析就沒(méi)有全面牢固的基礎(chǔ)。如果說(shuō)傳統(tǒng)的基于樣本數(shù)據(jù)的統(tǒng)計(jì)分析側(cè)重于推斷，那么基于大數(shù)據(jù)的統(tǒng)計(jì)分析需要更加關(guān)注描述。

(五) 需要轉(zhuǎn)變抽樣調(diào)查的功能

對(duì)于傳統(tǒng)的數(shù)據(jù)收集而言，抽樣調(diào)查是最重要的方式。盡管樣本只是總體中的很小一部分，但由于依據(jù)科學(xué)的抽樣理論，科學(xué)設(shè)計(jì)的抽樣調(diào)查能夠確保數(shù)據(jù)的精確度和可靠性。但抽樣調(diào)查畢竟存在著信息量有限、不可連續(xù)擴(kuò)充、前期準(zhǔn)備工作要求高等缺陷，很難滿足日益增長(zhǎng)的數(shù)據(jù)需求�，F(xiàn)在有了大數(shù)據(jù)，我們應(yīng)該利用一切可以利用的、盡量多的數(shù)據(jù)來(lái)進(jìn)行分析而不是僅局限于樣本數(shù)據(jù)。但這是否意味著抽樣調(diào)查可以退出歷史舞臺(tái)呢？筆者認(rèn)為還為時(shí)過(guò)早，在信息化、數(shù)字化、物聯(lián)網(wǎng)還不能全覆蓋的情況下，仍然還有很多數(shù)據(jù)信息需要通過(guò)抽樣調(diào)查的方式去獲取。與此同時(shí)，盡管我們可以對(duì)大數(shù)據(jù)進(jìn)行全體分析，但考慮到成本與效率因素，在很多情況下抽樣分析仍然是不錯(cuò)的或明智的選擇。當(dāng)然，抽樣調(diào)查也要適當(dāng)轉(zhuǎn)變其功能以便進(jìn)一步拓展其應(yīng)用空間: 一是可以把抽樣調(diào)查獲得的數(shù)據(jù)作為大數(shù)據(jù)分析的對(duì)照基礎(chǔ)與驗(yàn)證依據(jù)；二是可以把抽樣調(diào)查作為數(shù)據(jù)挖掘、快速進(jìn)行探測(cè)性分析的工具———從混雜的數(shù)據(jù)中尋找規(guī)律或關(guān)系的線索。

(六) 需要?dú)w納推斷法與演繹推理法并用

哲人培根說(shuō)過(guò)“知識(shí)就是力量”。統(tǒng)計(jì)研究的任務(wù)就是為了發(fā)現(xiàn)新的知識(shí)，歸納法則是發(fā)現(xiàn)新知識(shí)的基本方法。因此，歸納推斷法成為最主要的統(tǒng)計(jì)研究方法，使得我們能夠從足夠多的個(gè)體信息中歸納出關(guān)于總體的特征。當(dāng)然，歸納推斷的依據(jù)通常是樣本數(shù)據(jù)，即在歸納出樣本特征的基礎(chǔ)上再推斷總體。對(duì)于大數(shù)據(jù)，我們依然要從中去發(fā)現(xiàn)新的知識(shí)，依然要通過(guò)具體的個(gè)體信息去歸納出一般的總體特征，因此歸納法依然是大數(shù)據(jù)分析的主要方法。正如 C. R. 勞指出: “‘從數(shù)據(jù)中提取一切信息’或者‘歸納和揭示’作為統(tǒng)計(jì)分析的目的一直沒(méi)有改變�！钡牵髷�(shù)據(jù)是一個(gè)信息寶庫(kù)，光重視一般特征的歸納與概括是不夠的，還需要分析研究子類(lèi)信息乃至個(gè)體信息，以及某些特殊的、異常的信息———或許它( 們) 代表著一種新生事物或未來(lái)的發(fā)展方向，還需要通過(guò)已掌握的分布特征和相關(guān)知識(shí)與經(jīng)驗(yàn)去推理分析其他更多、更具體的規(guī)律，去發(fā)現(xiàn)更深層次的關(guān)聯(lián)關(guān)系，去對(duì)某些結(jié)論做出判斷，這就需要運(yùn)用演繹推理法。演繹法可以幫助我們充分利用已有的知識(shí)去認(rèn)識(shí)更具體、細(xì)小的特征，形成更多有用的結(jié)論。只要?dú)w納法與演繹法結(jié)合得好，我們就既可以從大數(shù)據(jù)的偶然性中發(fā)現(xiàn)必然性，又可以利用全面數(shù)據(jù)的必然性去觀察偶然性、認(rèn)識(shí)偶然性、甚至利用偶然性，從而提高駕馭偶然性的能力。

(七) 需要相關(guān)分析與因果分析并重

《大數(shù)據(jù)時(shí)代》認(rèn)為，我們只須從大數(shù)據(jù)中知道“是什么”就夠了，沒(méi)必要知道“為什么”，并且指出“通過(guò)給我們找到一個(gè)現(xiàn)象的良好的關(guān)聯(lián)物，相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來(lái)”以及“建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心”。毫無(wú)疑問(wèn)，從超大量數(shù)據(jù)中發(fā)現(xiàn)各種真實(shí)存在的相關(guān)關(guān)系，是人們認(rèn)識(shí)和掌控事物、繼而做出預(yù)測(cè)判斷的重要途徑，而大數(shù)據(jù)時(shí)代新的分析工具和思路可以讓我們發(fā)現(xiàn)很多以前難以發(fā)現(xiàn)或不曾注意的事物之間的聯(lián)系，因此大力開(kāi)展相關(guān)分析是大數(shù)據(jù)時(shí)代的重要任務(wù)。但是，我們僅僅停留于知道“是什么”是不夠的，還必須知道“為什么”，正所謂“既要知其然，更要知其所以然”，只有這樣才能更好地理解“是什么”———為什么需要把手電筒與蛋撻放在一起。只有知道原因、背景的數(shù)據(jù)才是真正的數(shù)據(jù)。因此探求“是什么”背后的原因始終是人類(lèi)探索世界的動(dòng)力，因果分析是人類(lèi)永恒的使命。哲學(xué)家德謨克利特早就指出: “與其做波斯國(guó)王，還不如找到一種因果關(guān)系�！比绻覀冎恢老嚓P(guān)關(guān)系而不知道因果關(guān)系，那么數(shù)據(jù)分析的深度只有一半，一旦出現(xiàn)問(wèn)題或疑問(wèn)就無(wú)從下手。而如果我們知道了因果關(guān)系，就可以更好地利用相關(guān)關(guān)系，就可以更好地掌握預(yù)測(cè)未來(lái)的主動(dòng)權(quán)，就可以幫助我們更科學(xué)地進(jìn)行決策。當(dāng)然，因果分析是困難的，正因?yàn)槔щy，所以要以相關(guān)分析為基礎(chǔ)，要更進(jìn)一步利用好大數(shù)據(jù)。相關(guān)分析與因果分析不是互相對(duì)立的，而是互補(bǔ)的，兩者必須并重。

(八) 需要統(tǒng)計(jì)技術(shù)與云計(jì)算技術(shù)融合

盡管用于收集和分析數(shù)據(jù)的統(tǒng)計(jì)技術(shù)已相對(duì)成熟、自成體系，但其所能處理的數(shù)據(jù)量是有限的，面對(duì)不可同日而語(yǔ)的大數(shù)據(jù)、特別是其中大量的非結(jié)構(gòu)化數(shù)據(jù)，恐怕單憑一己之力是難以勝任的，只能望“數(shù)”興嘆。首先遇到的問(wèn)題就是計(jì)算能力問(wèn)題，這就要求我們?cè)诓粩鄤?chuàng)新與發(fā)展統(tǒng)計(jì)技術(shù)的同時(shí)，還要緊緊依靠現(xiàn)代信息技術(shù)、特別是云計(jì)算技術(shù)。云計(jì)算技術(shù)主要包括虛擬化、分布式處理、云終端、云管理、云安全等技術(shù)，或者說(shuō)以編程模型、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、虛擬化、云計(jì)算平臺(tái)管理等技術(shù)最為關(guān)鍵。借助云計(jì)算技術(shù)可以將網(wǎng)格計(jì)算、分布式計(jì)算、并行計(jì)算、效用計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡等傳統(tǒng)計(jì)算機(jī)技術(shù)與現(xiàn)代網(wǎng)絡(luò)技術(shù)融合起來(lái)，把多個(gè)計(jì)算實(shí)體整合成一個(gè)具有強(qiáng)大計(jì)算能力的系統(tǒng)，并借助 SaaS、PaaS、IaaS、MSP 等商業(yè)模式把它分布到終端用戶手中。云計(jì)算的核心理念就是不斷提高“云”處理能力來(lái)減少用戶終端的處理負(fù)擔(dān)，使用戶終端簡(jiǎn)化成一個(gè)單純的輸入輸出設(shè)備，并能按需享受強(qiáng)大的“云”計(jì)算處理能力�？梢�(jiàn)，統(tǒng)計(jì)技術(shù)與云計(jì)算技術(shù)的融合是一種優(yōu)勢(shì)互補(bǔ)，只有這樣統(tǒng)計(jì)技術(shù)才能在大數(shù)據(jù)時(shí)代一展身手、有所作為，才能真正把統(tǒng)計(jì)思想在數(shù)據(jù)分析中得到體現(xiàn)，實(shí)現(xiàn)統(tǒng)計(jì)分析研究的目的。

數(shù)據(jù)創(chuàng)造統(tǒng)計(jì)，流量創(chuàng)新分析。由于各個(gè)應(yīng)用領(lǐng)域的不斷變化，特別是數(shù)據(jù)來(lái)源與類(lèi)型的不斷變化，使得統(tǒng)計(jì)學(xué)還難以成為一門(mén)真正成熟的科學(xué)。因此，在數(shù)據(jù)分析的世界里，不斷提高駕馭數(shù)據(jù)的能力是統(tǒng)計(jì)學(xué)發(fā)展的終身動(dòng)力。

文章熱詞：大數(shù)據(jù)管理專(zhuān)題； ·大數(shù)據(jù) ·統(tǒng)計(jì)新思維

作者：不詳；上傳用戶：minghao；上傳時(shí)間：2016-6-17；來(lái)源：360大數(shù)據(jù)

免責(zé)聲明: 本站為非營(yíng)利性網(wǎng)站，所登載此文是由開(kāi)放網(wǎng)絡(luò)用戶自由發(fā)布分享，本站不參與審核、編輯或修改，僅為提供給感興趣讀者學(xué)習(xí)研究使用，不代表本站同意該文章的立場(chǎng)觀點(diǎn)，且本站不承擔(dān)稿件侵權(quán)行為連帶責(zé)任。如涉及版權(quán)等問(wèn)題請(qǐng)與本站聯(lián)系，核實(shí)后會(huì)給予處理,詳見(jiàn)本站的法律聲明。

相關(guān)課程

數(shù)字化時(shí)代的供應(yīng)鏈大數(shù)據(jù)分析及..
Henry講授，上海,北京開(kāi)課

大數(shù)據(jù)時(shí)代的企業(yè)流程改善與標(biāo)準(zhǔn)..
楊云講授，上海開(kāi)課

智能工廠運(yùn)營(yíng)大數(shù)據(jù)的應(yīng)用
李老師講授，上海開(kāi)課

大數(shù)據(jù)背景下精細(xì)供應(yīng)鏈的運(yùn)營(yíng)管..
馬曉峰講授，上海開(kāi)課

大數(shù)據(jù)時(shí)代的企業(yè)運(yùn)營(yíng)管理與數(shù)據(jù)..
楊云講授，上海開(kāi)課

相關(guān)專(zhuān)題

大數(shù)據(jù)管理專(zhuān)題