- 相關(guān)推薦
大數(shù)據(jù)對統(tǒng)計學的挑戰(zhàn)和機遇論文
大數(shù)據(jù)給統(tǒng)計學提供了機遇、挑戰(zhàn)和緊迫感。本文闡述著大數(shù)據(jù)的環(huán)境利用大數(shù)據(jù)的目的和大數(shù)據(jù)帶來的整個變革;介紹著有關(guān)大數(shù)據(jù)的研究動向;探討著大數(shù)據(jù)包含的信息,大數(shù)據(jù)的準備處理、抽樣和分析方法。
當今社會,一方面人們在每個的獲取數(shù)據(jù)。各個科學領(lǐng)域都在大量的獲取數(shù)據(jù)。自然科學領(lǐng)域收集著從宏觀的天文數(shù)據(jù)到微觀的基因數(shù)據(jù)。從經(jīng)濟、金融和人文社會科學收集著大量的數(shù)據(jù)。
一些人們在不斷地制造和收集著數(shù)據(jù),相信著這些數(shù)據(jù)也許會對人有用。當然,也有人們不再繼續(xù)呆在實驗室里考核著研究,僅僅依靠著強大的網(wǎng)絡(luò)數(shù)據(jù)來進行研究。而人們也在很被動著積累著數(shù)據(jù)。
隨著互聯(lián)網(wǎng)這樣的大時代到來,各種方法也涌現(xiàn)出來。各式各樣的數(shù)據(jù)如滔滔江水連綿不絕的涌現(xiàn)出來,F(xiàn)如今數(shù)據(jù)這樣的大體系也在悄悄進行著變化。統(tǒng)計學又面臨著新的機遇和挑戰(zhàn),這當然需要在方法論上有所突破和改變。
一、大數(shù)據(jù)及其目的
大數(shù)據(jù)是一個大樣本和高維變量的數(shù)據(jù)集合。針對這樣的問題,用于統(tǒng)計學上來說就是采用抽樣減少樣本量,最后達到需要的精度。關(guān)于這樣的問題,急需要變量選擇、降維、壓縮、分解。廣義的說,大數(shù)據(jù)涵蓋了許多種領(lǐng)域,像多源、混合的數(shù)據(jù),自然科學、人文社會、經(jīng)濟學、網(wǎng)絡(luò)、通訊、商業(yè)和娛樂各樣的領(lǐng)域。這其中大數(shù)據(jù)涉及了各種數(shù)據(jù)類型,包括文本和語言、錄像和圖像、時空網(wǎng)絡(luò)與圖形。
大數(shù)據(jù)的目的就是將數(shù)據(jù)轉(zhuǎn)化為知識,探索著數(shù)據(jù)將會產(chǎn)生的機制。并且大數(shù)據(jù)有著記錄保存自然和社會現(xiàn)狀的作用,F(xiàn)在的人收集著許多大量的數(shù)據(jù)。雖然還不是那樣的了解。但是依然相信需要保存現(xiàn)在這個社會經(jīng)濟發(fā)展的整個過程,滿心期待在今后的歲月長河中不斷地分析和解釋著。
大數(shù)據(jù)將形成自然和人文社會的歷史長河,不僅用于當今時代的研究。甚至對于轉(zhuǎn)基因食品對子孫后代的影響來繼續(xù)深究問題,為未來的人留下先今的歷史材料。
二、大數(shù)據(jù)的處理、抽樣與分析
(一)數(shù)據(jù)的預(yù)處理。大數(shù)據(jù)的預(yù)處理包含數(shù)據(jù)清洗、不完全數(shù)據(jù)填補、數(shù)據(jù)糾偏和矯正。統(tǒng)計機構(gòu)的數(shù)據(jù)是經(jīng)過嚴格的抽樣設(shè)計所得到的[1]。有著代表性和系統(tǒng)誤差小的優(yōu)勢。互聯(lián)網(wǎng)的數(shù)據(jù)速度更快、量大、項目繁瑣,但是難以避免一些這樣的問題。將統(tǒng)計機構(gòu)的數(shù)據(jù)作為標準來對互聯(lián)網(wǎng)進行校正。從而將互聯(lián)網(wǎng)數(shù)據(jù)作為補充資源對統(tǒng)計機構(gòu)的數(shù)據(jù)進行隨時隨地的更新。這或許是解決問題的一個思路。
(二)大數(shù)據(jù)環(huán)境的抽樣。大數(shù)據(jù)的抽樣方法有待研究。不管鍋有多大。只要可以充分的均勻攪拌。知道其中的滋味就可以了。針對大數(shù)據(jù)流環(huán)境,需要探索從源源不斷的數(shù)據(jù)流中抽取可以滿足統(tǒng)計目的和精度的樣本[2]。需要研究新的抽樣方法?梢杂羞m應(yīng)性、序貫性以及動態(tài)的抽樣方法。
盡力數(shù)據(jù)流的緩沖區(qū),記錄著數(shù)據(jù)所發(fā)生的一切變化。利用其他各種抽樣技術(shù)。比如滾雪球這樣的方法,從種子開始逐步擴大著樣本。從各種隨機種子出發(fā)。不斷加入新鮮的種子,了解當代網(wǎng)絡(luò)性質(zhì)和結(jié)構(gòu)。
(三)大數(shù)據(jù)的分析和整合。針對大數(shù)據(jù)的高維問題,需要研究降維和分解的方法。探討壓縮大數(shù)據(jù)的方法,直接對壓縮的數(shù)據(jù)進行傳輸、運算和操作。除了常規(guī)的統(tǒng)計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數(shù)據(jù)的實時分析、數(shù)據(jù)流算法。
(四)數(shù)據(jù)不需要保存,只是需要掃描一遍數(shù)據(jù)的數(shù)據(jù)流算法。只是考慮計算機內(nèi)存和外存的數(shù)據(jù)傳送問題。分布數(shù)據(jù)和并行計算的方法。
針對多種不同數(shù)據(jù)庫的環(huán)境,利用關(guān)系數(shù)據(jù)庫技術(shù),根據(jù)關(guān)鍵字將很多小數(shù)據(jù)庫連接成一個大數(shù)據(jù)。并且,在這些大的數(shù)據(jù)庫中還可以分解出許多的小數(shù)據(jù)庫。組合出不同的東西,更可以做出許多有創(chuàng)意的東西。
在大數(shù)據(jù)環(huán)境,很多的數(shù)據(jù)集不再有標識個體的關(guān)鍵字,傳統(tǒng)的關(guān)鍵數(shù)據(jù)庫連接方法不再適用。探索不必經(jīng)過整合多數(shù)據(jù)庫,直接利用局部數(shù)據(jù)進行推斷結(jié)果傳播的方法。利用統(tǒng)計性質(zhì)信息損失地分解和壓縮大數(shù)據(jù)。
(四)網(wǎng)絡(luò)圖模型。網(wǎng)絡(luò)圖模型用圖的結(jié)構(gòu)描述高維變量之間的相互關(guān)系,包括貝葉斯網(wǎng)絡(luò)、無向圖概率模型、因果網(wǎng)絡(luò)等。網(wǎng)絡(luò)模型是處理和分析高維大數(shù)據(jù)和多源數(shù)據(jù)庫的有效工具。目前已經(jīng)有豐富的圖模型的軟件系統(tǒng)。網(wǎng)絡(luò)圖模型可以用于分解大數(shù)據(jù)集合,處理多源數(shù)據(jù)庫,來進行計算。它還可以引入隱變量簡化復(fù)雜的關(guān)聯(lián)聯(lián)系。最終確定并能區(qū)分該目標節(jié)點的原因與結(jié)果。
結(jié)論:一個新生事物的出現(xiàn)會導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。數(shù)碼照相機的出現(xiàn)導(dǎo)致傳統(tǒng)相片膠卷和影像業(yè)的己近消亡。模型不再重要,當年統(tǒng)計學最得意的回歸預(yù)測方法將被淘汰。大數(shù)據(jù)的到來將對傳統(tǒng)的統(tǒng)計方法進行考驗。統(tǒng)計學會不會像科學哲學那樣,只佩戴著歷史的光環(huán),而不再主導(dǎo)和引領(lǐng)人們分析和利用大數(shù)據(jù)資源。大數(shù)據(jù)充滿了許多的隨機性,F(xiàn)在看到的大數(shù)據(jù)也給統(tǒng)計學帶來了機遇。
現(xiàn)在其他學科和行業(yè)的涌入大數(shù)據(jù)的熱潮,如果統(tǒng)計學不抓緊參與的話,將面臨著被邊緣化的危險。分布式的大數(shù)據(jù)和數(shù)據(jù)流的環(huán)境給統(tǒng)計學帶來了挑戰(zhàn)。統(tǒng)計學家不應(yīng)該固守傳統(tǒng)數(shù)據(jù)的環(huán)境,必須積極學習新生事物,適應(yīng)新的大數(shù)據(jù)環(huán)境,擴展統(tǒng)計學的應(yīng)用領(lǐng)域,創(chuàng)造出應(yīng)和大數(shù)據(jù)的新的統(tǒng)計方法。機遇和挑戰(zhàn)并存。
【大數(shù)據(jù)對統(tǒng)計學的挑戰(zhàn)和機遇論文】相關(guān)文章:
大數(shù)據(jù)時代統(tǒng)計學面臨機遇與挑戰(zhàn)論文05-02
挑戰(zhàn)和機遇并存的作文05-06
電信網(wǎng)絡(luò)面臨的挑戰(zhàn)和發(fā)展機遇05-01
21世紀理論化學的挑戰(zhàn)和機遇04-29
大噸位大跨度的空間懸挑結(jié)構(gòu)的整體提升施工論文04-30
外國留學生臨床醫(yī)學教育的挑戰(zhàn)和機遇04-30
數(shù)據(jù)挖掘論文04-29
把握機遇議論文04-26
淺談統(tǒng)計學思想論文04-28