亚洲欧美中文日韩在线v日本,亚洲精品永久在线观看,亚洲av日韩av永久无码色欲,亚洲成a人片777777,亚洲人成网站在线播放942

廈門大學管理學院朱建平教授團隊研究成果被國家統(tǒng)計局《統(tǒng)計制度方法研究》收錄

廈門大學管理學院
2022-08-19 10:55 瀏覽量: 3341
?智能總結

廈門大學管理學院朱建平教授團隊研究成果被國家統(tǒng)計局《統(tǒng)計制度方法研究》收錄

管理學院朱建平教授研究成果被國家統(tǒng)計局《統(tǒng)計制度方法研究》收錄

——研究成果凝練稿刊登在《中國信息報》

廈門大學管理學院、廈門大學健康醫(yī)療大數(shù)據(jù)國家研究院、廈門大學數(shù)據(jù)挖掘研究中心朱建平團隊承擔的2020年國家統(tǒng)計局重大專項“適用于社會經(jīng)濟統(tǒng)計的大數(shù)據(jù)技術方法體系研究”(2020ZX20),于2021年11月順利結項,并得到廣泛好評。經(jīng)過錘煉,其研究成果的核心內(nèi)容被國家統(tǒng)計局《統(tǒng)計制度方法研究》(2022年第19期)收錄。該研究成果的整理凝練稿,于2022年8月18日整版刊登在《中國信息報》。

研究成果凝練稿原文

適用于社會經(jīng)濟統(tǒng)計的大數(shù)據(jù)技術方法

本文圍繞大數(shù)據(jù)概念剖析、大數(shù)據(jù)收集清洗轉換等準備工作以及大數(shù)據(jù)技術的基本理論和方法,對社會經(jīng)濟統(tǒng)計常用的大數(shù)據(jù)技術方法以及軟件使用進行說明,并提出了統(tǒng)計學理論及應用研究未來發(fā)展趨勢,以期為大數(shù)據(jù)和統(tǒng)計業(yè)務的結合應用提供一個通用技術簡明手冊,供業(yè)務人員借鑒使用。

一、大數(shù)據(jù)概念剖析

從統(tǒng)計學科與計算機科學性質(zhì)出發(fā)來定義的大數(shù)據(jù)是指,超過傳統(tǒng)數(shù)據(jù)系統(tǒng)處理能力、超越經(jīng)典統(tǒng)計思想研究范圍、不借用網(wǎng)絡無法用主流軟件工具及技術進行單機分析的復雜數(shù)據(jù)的集合。對于這一數(shù)據(jù)集合,在一定的條件下和合理的時間內(nèi),可以通過現(xiàn)代計算機技術和創(chuàng)新統(tǒng)計方法,有目的地進行設計、獲取、管理、分析,揭示隱藏在其中的有價值的模式和知識。大數(shù)據(jù)技術是針對大數(shù)據(jù)的復雜集合,在一定的條件下和合理的時間內(nèi),通過現(xiàn)代計算機技術和創(chuàng)新統(tǒng)計方法,有目的地進行設計、獲取、管理、分析,揭示隱藏在其中的有價值的模式和知識。該領域已經(jīng)涌現(xiàn)出了大量新的技術,它們成為大數(shù)據(jù)采集、存儲、處理和展現(xiàn)的有力武器。

二、數(shù)據(jù)處理

數(shù)據(jù)準備是模型開發(fā)過程中最重要的步驟之一。本節(jié)將較為系統(tǒng)地介紹網(wǎng)頁數(shù)據(jù)獲取和去噪、缺失值填充、不平衡數(shù)據(jù)處理和數(shù)據(jù)變換等內(nèi)容。

(一)定向資料收集——網(wǎng)絡爬蟲

網(wǎng)絡爬蟲是人為編寫的用于自動下載網(wǎng)頁數(shù)據(jù)的程序或腳本,主要目的是將互聯(lián)網(wǎng)上的公開數(shù)據(jù)下載至本地計算機。數(shù)據(jù)爬取方式主要有兩類:一是靜態(tài)數(shù)據(jù)爬取,網(wǎng)絡爬蟲通過解析工具(如Python的lxml解析庫)將網(wǎng)頁HTML源碼下載至本地并提取數(shù)據(jù);二是動態(tài)數(shù)據(jù)爬取,網(wǎng)頁編寫者通過JavaScript語言將網(wǎng)站服務器數(shù)據(jù)庫發(fā)送的數(shù)據(jù)進行處理并呈現(xiàn)在網(wǎng)頁上,實現(xiàn)動態(tài)加載的網(wǎng)頁和服務器進行數(shù)據(jù)通信時傳輸?shù)臄?shù)據(jù)一般為JSON格式,使用相關的軟件(如Python的json模塊)可解析這部分數(shù)據(jù)。

(二)數(shù)據(jù)去噪

數(shù)據(jù)去噪是數(shù)據(jù)分析的重要前提,能否有效消除數(shù)據(jù)噪聲直接影響到算法有效性。常見方法主要有:聚類方法將相似或相鄰近的數(shù)據(jù)聚合到一起形成各個聚類集合,落在聚類集合之外的值被認為是孤立點,作為噪聲刪除;樣條方法通過一組給定數(shù)據(jù)點的曲線擬合數(shù)據(jù),可通過調(diào)整曲線光滑度去除噪聲;Bin方法通過利用數(shù)據(jù)點周圍的值對數(shù)據(jù)進行平滑,排序后數(shù)據(jù)被分配到“桶”或箱中。

(三)缺失值處理

數(shù)據(jù)預處理是根據(jù)數(shù)據(jù)不同特點制定缺失值的處理方法。主要方法有:基于完全隨機缺失值(MCAR)替代,包括單值替代、類均值替代、回歸替代等;時間序列缺失值填充法,包括前推法、后推法、插值法、加權移動平均法填充、線性模型填充法等。

(四)不平衡數(shù)據(jù)處理

數(shù)據(jù)集的類別分布表現(xiàn)出失衡時,稱為不平衡數(shù)據(jù)。處理方法有以下兩種:

1.數(shù)據(jù)層面的采樣處理。當數(shù)據(jù)由于隨機欠采樣造成信息丟失時,可采用Easy Ensemble、Balance Cascade等改進的采樣算法;當隨機過采樣發(fā)生模型過擬合問題時,可采用基于數(shù)據(jù)合成的過采樣方法SMOTE,通過KNN技術模擬生成少數(shù)類別的新樣本并添加到數(shù)據(jù)集中;采用基于聚類的采樣方法,先分別對正負例樣本進行聚類,再進行過采樣或欠采樣方法,解決類間和類別內(nèi)部不平衡問題。

2.算法層面的代價敏感型學習。通過調(diào)整樣本權重,對不同類別分錯的代價不同,將更多的誤分類代價分配給少數(shù)類,以達到對少數(shù)類更多關注。用貝葉斯風險理論來解釋,把代價敏感學習看成是分類結果的一種后處理,按照傳統(tǒng)方法學習到一個模型,以實現(xiàn)損失最小為目標對結果進行調(diào)整。

(五)數(shù)據(jù)變換

1.數(shù)據(jù)標準化。由于數(shù)據(jù)量綱不同,常用最小-最大標準化、標準差標準化等方法進行數(shù)據(jù)標準化。

2.消減數(shù)據(jù)維數(shù)。一是主成分分析,把原來的指標重新組合為一組新的互相無關的幾個綜合指標來代替原有指標,同時根據(jù)實際需要從中選取幾個影響較大的綜合指標來表示原有指標的信息;二是小波分析法,通過小波變換把一個數(shù)據(jù)向量轉換為另一個數(shù)據(jù)向量,且這兩個向量的長度相同。實際應用中一般使用通用層次算法(Hierarchical Pyramid Algorithm)在每次循環(huán)時把數(shù)據(jù)一分為二處理,以獲得更高的運算效率。

三、社會經(jīng)濟統(tǒng)計大數(shù)據(jù)技術方法

本節(jié)主要介紹常見的適用于社會經(jīng)濟統(tǒng)計的大數(shù)據(jù)方法及實現(xiàn)軟件簡介。

(一)網(wǎng)絡分析

社會網(wǎng)絡(Social Network)是由社會關系構成的網(wǎng)絡結構。其中,網(wǎng)絡節(jié)點表示社會行動者,通常指個體或組織,如個人、公司、城市、國家等,網(wǎng)絡連邊表示行動者之間的關系,通常指節(jié)點間的各種社會互動關系,如朋友關系、競爭關系、貿(mào)易關系等,整合而成的網(wǎng)絡結構將社會行動者通過其社會關系連接串聯(lián)起來,形成社會網(wǎng)絡。相比傳統(tǒng)統(tǒng)計方法常用于“屬性數(shù)據(jù)”的分析,社會網(wǎng)絡適用于“關系數(shù)據(jù)”的分析,通過數(shù)學分析、圖論等定量分析方法研究網(wǎng)絡關系,有助于把個體間關系、“微觀”網(wǎng)絡與大規(guī)模的社會系統(tǒng)的“宏觀”結構結合起來。

R語言的igraph包可用于社會網(wǎng)絡的可視化、網(wǎng)絡特征分析等研究。

(二)粗糙集

粗糙集理論(Rough Set)是一種用于處理不確定性和不精確性知識的數(shù)學工具。其基本思想是在保持分類能力不變的前提下,通過知識約簡提取分類或決策規(guī)則。它以不完全信息處理不分明現(xiàn)象,或依據(jù)觀察、度量到的某些不精確結果進行數(shù)據(jù)分類。

1.數(shù)據(jù)降維。屬性約簡或知識約簡是粗糙集理論的核心內(nèi)容之一。屬性約簡在保持信息系統(tǒng)分類能力不變的情況下,刪除冗余變量。隨著大數(shù)據(jù)的快速發(fā)展,數(shù)據(jù)集的規(guī)模變得越來越大,粗糙集可通過無監(jiān)督學習實現(xiàn)對高維數(shù)據(jù)的降維目的。

2.事務項壓縮。粗糙集的屬性約簡針對的是高維數(shù)據(jù)降維,大數(shù)據(jù)的事務項壓縮則是通過數(shù)據(jù)庫壓縮解決這一問題,將一些無關或多余的信息丟掉而不影響其原有的功能。使用信息熵作為信息源統(tǒng)計量度,壓縮后提供的信息量可以反映原有信息系統(tǒng)。

R語言的Roughsets包可用于實現(xiàn)粗糙集方法。

(三)文本挖掘

文本數(shù)據(jù)挖掘是從自然語言文本中挖掘用戶所感興趣的模式和知識的技術,其難點在于對非結構化自然語言文本內(nèi)容的分析和理解。通常利用智能算法抽取或標記關鍵字詞、字詞間的關系,并按照內(nèi)容對文本進行分類或聚類,獲取有用的模式和知識。1.文本數(shù)據(jù)預處理。首先對非結構化數(shù)據(jù)進行初步清洗,如去重、缺失值處理、無效字符過濾等;然后對文本分詞,主要方法有基于詞表的分詞方法(如正向最大匹配法)、基于統(tǒng)計模型的分詞方法(如N-gram語言模型)、基于序列標注的分詞方法(如隱馬爾科夫模型)。常用分詞工具有中科院的ICTCLAS、jieba等,ICTCLAS算法支持用戶自定義詞典,對新詞、人名、地名等的發(fā)現(xiàn)具有良好效果,對應R語言的Rwordseg包;jieba分詞工具詞性標注方便,具有更快的分詞速度,對應R語言的jiebaR包。2.文本表示。文本表示是用文本的特征集合來代表原始文本的過程。(1)離散式文本表示。一是One-Hot編碼,將詞表示成一個向量,向量中當前詞的位置的值為1,其余的位置為0,得到高維稀疏矩陣;二是詞袋模型(Bag of Words),利用詞頻來建立向量;三是TF-IDF(Term Frequency-Inverse Document Frequency),可區(qū)分常用詞和專有名詞對文本的重要性。

(2)分布式文本表示。主要包括基于矩陣的分布表示(如共現(xiàn)矩陣(Cooccurrence Matrix)、基于聚類的分布表示(如布朗聚類(Brown Clustering))和基于神經(jīng)網(wǎng)絡的分布表示(如神經(jīng)網(wǎng)絡語言模型(Neural Network Language Model))。目前分布式文本表示中的詞嵌入(Word Embedding)在自然語言處理實踐方面的取得極佳的表現(xiàn),常用詞嵌入模型包括Word2vec和BERT(Bidirectional Encoder Representation from Transformers)。Word2vec可以使用Python的gensim模塊實現(xiàn);BERT的PyTorch實現(xiàn)可以使用Python的torch模塊。

3.主要應用。

(1)文本分類。根據(jù)一個已經(jīng)被標注的訓練文本集合找到文本特征和文本類別之間的關系模型,并利用此模型對新文本進行類別判斷。常用的文本分類算法包括:樸素貝葉斯(Naive Bayes model)、Logistic回歸、最大熵模型(Maximum Entropy)、K-最近鄰(K-Nearest Neighbor)、支持向量機(Support Vector Machine)、決策樹(Decision Tree)以及以卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks)和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network)為代表的深度神經(jīng)網(wǎng)絡(Deep Neural Network)等。

(2)文本聚類。將給定文本集按照某種特征劃分為不同類別,可提供大規(guī)模文檔集內(nèi)容的總括,識別隱藏的文檔間的相似度等。具體算法包括:K-均值聚類(K-means Clustering)、單遍聚類(Single-pass Clustering)、層次聚類(Hierarchical Clustering)、基于密度的聚類(Density-based Clustering)、基于網(wǎng)格的聚類(Grid-based Clustering)、子空間聚類(Subspace Clustering)、基于神經(jīng)網(wǎng)絡的聚類、圖聚類(Graph clustering)、譜聚類(Spectral Clustering)和后綴樹聚類(Suffix Tree Clustering)等。

(3)主題模型。將文本向量從高維詞項空間映射到一個低維語義空間,挖掘隱含在詞匯背后的主題和概念。常用模型包括:潛在語義分析(Latent Semantic Analysis)、概率潛在語義分析(Probabilistic Latent Semantic Analysis)和潛在狄克雷分布(Latent Dirichlet Allocation)等。

(4)情感分析與觀點挖掘。對帶有情感色彩的主觀性文本進行提取、分析、處理、歸納和推理,根據(jù)文本所表達的觀點和態(tài)度等主觀信息進行分類。

(四)深度神經(jīng)網(wǎng)絡

深度學習經(jīng)常應用于各種監(jiān)督模型的識別問題,包含輸入層、輸出層以及多個隱藏層。傳統(tǒng)的多層感知神經(jīng)網(wǎng)絡訓練的反向傳播(BP)算法為核心算法。

1.自編碼機(AE)與限制性玻爾茲曼機(RBM)。其基本原理是基于非監(jiān)督學習找到數(shù)據(jù)內(nèi)在規(guī)律的特征表示,然后用于監(jiān)督學習的深層神經(jīng)網(wǎng)絡模型中。自編碼機的網(wǎng)絡結構有編碼器和解碼器兩部分,將輸入信息作為學習目標進行特征學習及降維。限制性玻爾茲曼機是通過建立概率分布和能量函數(shù)間的關系,求解出能量函數(shù),并且刻畫出數(shù)據(jù)內(nèi)在的規(guī)律。方法實現(xiàn)主要采用Python,多層自編碼器是首先導入tensorflow和Dense模塊,通過Dense構造編碼層和解碼層,然后通過Model搭建編碼模型,最后訓練自編碼器;限制性玻爾茲曼機可以通過sklearn.neural_network導入。

2.卷積神經(jīng)網(wǎng)絡(CNN)。CNN一般包含降采樣層、卷積層、全連接層以及輸出,進行特征提取是卷積層的作用。采用CNN方法把一句話轉化成二維矩陣,卷積核的寬度選用詞向量維數(shù),對矩陣進行卷積操作,從而從句子中提取關鍵詞語、詞組特征。通過R語言加載keras、caret包,導入數(shù)據(jù)集,定義和擬合模型,可以實現(xiàn)卷積神經(jīng)網(wǎng)絡。

3.遞歸神經(jīng)網(wǎng)絡(RNN)。RNN是對序列型數(shù)據(jù)進行建模,需要保留序列上下文的信息,所以它的隱節(jié)點中存在反饋環(huán),即當前時刻的隱含節(jié)點值不僅和當前節(jié)點的輸入有關系,還與前一時刻的隱含節(jié)點值有關系。可利用長短時記憶模型(LSTM)來改進RNN梯度消散現(xiàn)象。使用R語言安裝并運行rnn包、digest包,并設置網(wǎng)絡參數(shù),即可實現(xiàn)RNN。

4.生成對抗網(wǎng)絡(GAN)。GAN不依賴任何分布假設,以簡單的方式從潛在空間生成真實的樣本??墒褂肞ython實現(xiàn),在tensorflow框架下導入keras,使用keras.Sequential搭建生成器模型和辨別器模型,通過定義批次訓練函數(shù)實現(xiàn)參數(shù)訓練。

5.深度遷移學習。遷移學習是利用相關領域知識來提高學習性能,可充分利用之前標注好的數(shù)據(jù),同時又保證新任務模型精度。深度遷移學習實現(xiàn)主要采用Python。首先,在tensorflow框架下,導入keras、numpy和matplotlib等相關模塊;然后,通過class類封裝網(wǎng)絡結構,使用model.compile配置訓練方法;最后,在model.fit()中執(zhí)行訓練過程。

(五)集成算法

集成學習(Ensemble Learning)是用于訓練多個學習器并組合輸出的過程。其基本思想是認識到現(xiàn)實世界中每個模型都有其局限性,并且可能會出錯,集成學習的目的是管理它們的優(yōu)勢和劣勢,最終做出最佳決策。

主要方法有:一是提升法(Boosting),建立在其它分類的基礎上為每個訓練樣本集分配一個權重,最終合并到模型中。其中,XGBoost算法在分類效果、業(yè)務解釋性、建模效率等方面獲得了業(yè)界廣泛的認可;二是套袋法(Bagging),對所有基學習器一致對待,在大部分情況下,經(jīng)過Bagging得到的結果方差更小;三是堆疊法(Stacking),核心思想是通過增加基學習器的異質(zhì)性和使用元學習組合基學習器預測的結果來減少泛化誤差。

集成算法的實現(xiàn)代碼可查詢R語言的mlr包和mlbench包。

(六)正則化模型

正則化可以進行系數(shù)壓縮估計,是一種常用的大數(shù)據(jù)技術方法。社會經(jīng)濟統(tǒng)計中常常遇到高維小樣本數(shù)據(jù),此類數(shù)據(jù)的特點是自變量維度遠遠大于樣本量,數(shù)據(jù)包含許多與因變量無關的冗余變量,影響模型的解釋力度和估計精度,且樣本量小容易導致過擬合問題,降低模型的泛化能力和穩(wěn)定性。正則化是結構風險最小化策略的實現(xiàn),該方法基于全部解釋變量建模,在經(jīng)驗風險上加正則化項(懲罰項),通過對系數(shù)加懲罰約束將系數(shù)估計值往零的方向壓縮。常用的正則化方法有嶺回歸、Lasso以及基于VAR(p)的Lasso方法。

(七)貝葉斯方法與深度學習

貝葉斯深度學習是結合深度學習和貝葉斯模型的概率框架,通過對文本或圖像、音頻等的感知提升更高層次推理的能力,實現(xiàn)雙向反饋和推斷。

1.貝葉斯網(wǎng)絡。作為一種不確定性的因果推斷模型,貝葉斯網(wǎng)絡的拓樸結構是一個有向無環(huán)圖(DAG),每個節(jié)點代表一個隨機變量,節(jié)點之間的邊代表隨機變量間的概率依賴關系。將有因果關系的變量用箭頭來連接,若兩個節(jié)點間以一個單箭頭連接在一起,表示其中一個節(jié)點是“因”,另一個是“果”,兩節(jié)點就會產(chǎn)生一個條件概率值。在概率圖中,用貝葉斯網(wǎng)絡或馬爾科夫隨機場轉換為因子圖變量,再結合Sum-product等算法高效地求解各變量的邊緣分布。

2.貝葉斯分類及回歸樹。多元統(tǒng)計中很多經(jīng)典的回歸模型、主成分分析、因子分析、結構方程模型、典型相關分析、空間計量等都可以用貝葉斯方法進行估計。貝葉斯方法的不同在于為數(shù)據(jù)集建立完整的概率模型,其本身具有樹結構集成算法的特性,根據(jù)后驗分布進行均值預測的過程與隨機森林類似。

3.非參數(shù)貝葉斯模型。非參數(shù)貝葉斯模型中參數(shù)的先驗分布具有非參數(shù)的特點,參數(shù)個數(shù)會隨著數(shù)據(jù)的變化自適應地調(diào)整,有更強的描述數(shù)據(jù)能力,這種特性對于解決大數(shù)據(jù)背景下的復雜問題尤為重要。貝葉斯非參數(shù)模型包括未知成分的混合模型、隱式特征模型、刻畫連續(xù)函數(shù)的高斯過程等。

4.貝葉斯神經(jīng)網(wǎng)絡。貝葉斯和神經(jīng)網(wǎng)絡的結合,常用的訓練方法有三種:用MCMC采樣近似復雜積分、變分法和蒙特卡洛Dropout。通過多次采樣貝葉斯深度學習可以有效地解決權重微小改變對深度學習的影響,更具穩(wěn)健性。也可以提供不確定性的表達,包括網(wǎng)絡結構參數(shù)、任務目標相關的參數(shù)和信息傳遞參數(shù)的不確定性,用概率分布來表示這些參數(shù)可以方便地將這些不確定性統(tǒng)一起來。

(八)函數(shù)型數(shù)據(jù)分析

函數(shù)型數(shù)據(jù)分析在處理曲線和圖像數(shù)據(jù)中具有較大優(yōu)勢。函數(shù)型數(shù)據(jù)本質(zhì)上是無限維的,對函數(shù)型數(shù)據(jù)進行建模和統(tǒng)計推斷的關鍵是對函數(shù)變量進行降維。降維技術主要有:一是函數(shù)型主成分,把具有無限維特征的函數(shù)型數(shù)據(jù)轉換為有限維的得分向量,起到降維作用;二是函數(shù)型數(shù)據(jù)聚類,函數(shù)型數(shù)據(jù)具有無窮維特征,首先對函數(shù)型數(shù)據(jù)之間的相異性程度進行度量,然后使用已有的聚類算法進行聚類,其中常見的相異性程度度量方法有距離、基于模型的相異性度量、基于主成分的相異性度量和基于函數(shù)曲線極值點的相異性度量。相關代碼可查詢R語言的fd包、fdasrvf包和fdapace包。

四、大數(shù)據(jù)背景下的統(tǒng)計學理論及應用研究展望

本節(jié)從以下六個方面展示大數(shù)據(jù)背景下統(tǒng)計學研究的重要領域及方向,為統(tǒng)計工作者的研究方向提供參考。

(一)處理社會經(jīng)濟復雜適應系統(tǒng)的統(tǒng)計學理論與方法研究

社會經(jīng)濟動態(tài)隨機系統(tǒng)是一個以人為核心,涉及人類活動的各個方面和生存環(huán)境的諸多復雜因素的巨系統(tǒng),它是一類重要的、典型的復雜適應系統(tǒng)(CAS)。社會經(jīng)濟復雜適應系統(tǒng)具有若干特殊的情況與性質(zhì),使得它更難于認識、描述和控制。類似的例子還經(jīng)常在環(huán)境、生態(tài)問題中遇到,如地球氣候狀況、溫室效應問題、環(huán)境污染狀況、大范圍變化問題等。傳統(tǒng)的統(tǒng)計學方法的適用性受到限制,需要全新的統(tǒng)計理論方法進行處理,這將是今后相當長時期內(nèi)統(tǒng)計學發(fā)展的重要趨勢之一。

(二)數(shù)據(jù)要素的開發(fā)與應用研究

“數(shù)據(jù)”成為日益重要的生產(chǎn)要素,相關統(tǒng)計學理論和應用研究方向為:一是“數(shù)據(jù)”作為“要素”,其概念界定和統(tǒng)計對象研究,包括數(shù)據(jù)與自然資源、資本、勞動和技術要素的聯(lián)系與區(qū)別;二是數(shù)據(jù)要素統(tǒng)計框架的構建,包括數(shù)據(jù)要素市場統(tǒng)計,數(shù)據(jù)要素生產(chǎn)收入核算;三是數(shù)據(jù)要素的增長貢獻及其對國民經(jīng)濟各部門、國家治理各領域的影響測度等。

(三)數(shù)字經(jīng)濟測度研究

數(shù)字經(jīng)濟的發(fā)展給傳統(tǒng)經(jīng)濟統(tǒng)計帶來挑戰(zhàn),其研究可從以下幾個方向開展:數(shù)據(jù)經(jīng)濟運行機制模擬及運行狀況評價研究;數(shù)字經(jīng)濟核算的系統(tǒng)理論框架與方法體系研究;數(shù)字經(jīng)濟環(huán)境下的宏觀經(jīng)濟的統(tǒng)計監(jiān)測及預警研究;數(shù)字經(jīng)濟與經(jīng)濟增長和其他產(chǎn)業(yè)的聯(lián)動效應研究等。

(四)大數(shù)據(jù)質(zhì)量提升研究

與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)更容易產(chǎn)生數(shù)據(jù)質(zhì)量問題,直接影響到數(shù)據(jù)在流轉環(huán)節(jié)中的各個方面,給數(shù)據(jù)存儲處理分析性能、數(shù)據(jù)質(zhì)量保障都帶來了挑戰(zhàn)。為改進和提高數(shù)據(jù)質(zhì)量,要從產(chǎn)生大數(shù)據(jù)的源頭抓起,從管理入手,對數(shù)據(jù)運行的全過程進行監(jiān)控,密切關注數(shù)據(jù)質(zhì)量的發(fā)展和變化,深入研究數(shù)據(jù)質(zhì)量問題所遵循的客觀規(guī)律,分析其產(chǎn)生的機理,探索科學有效的控制方法和改進措施;強化全面數(shù)據(jù)質(zhì)量管理理念,把這一理念滲透到數(shù)據(jù)生命周期的全過程。大數(shù)據(jù)質(zhì)量如何保障與界定是需要明確的重要研究領域。

(五)遙感信息與空間統(tǒng)計學的理論和應用研究

隨著遙感技術的發(fā)展,遙感數(shù)據(jù)空間分辨率、時間分辨率、光譜分辨率和輻射分辨率越來越高,數(shù)據(jù)類型越來越豐富。與此同時,數(shù)據(jù)量也越來越大,遙感大數(shù)據(jù)向傳統(tǒng)的遙感數(shù)據(jù)智能處理提出了新的挑戰(zhàn)。空間統(tǒng)計學大量的應用在很大程度上激發(fā)人們對該理論和方法的濃厚興趣。例如遙感大數(shù)據(jù)稀疏表征理論和方法的研究,基函數(shù)的構建和稀疏分解的方法研究;時空數(shù)據(jù)挖掘技術的研究,典型例子包括氣象模式的發(fā)現(xiàn)、城市或土地利用演變模式的發(fā)現(xiàn)、地震或颶風等自然災害的預測、傳染病聚集性的發(fā)現(xiàn)、交通行為預測等;遙感大數(shù)據(jù)內(nèi)在的結構特征和存在形式的建模問題,針對研究學習機制或途徑,研究如何有效利用數(shù)據(jù)和信息,數(shù)據(jù)降維、特征選擇、模式分類和知識表達等方面都面臨著新的問題。

(六)社會經(jīng)濟大數(shù)據(jù)計算研究(計算社會經(jīng)濟學)

通過衛(wèi)星遙感、移動通訊、社交媒體、物聯(lián)網(wǎng)等產(chǎn)生的新型數(shù)據(jù)對以統(tǒng)計分析為主要工具的傳統(tǒng)社會科學研究者提出了挑戰(zhàn)。這些數(shù)據(jù)規(guī)模更大、實時性更強、精度更高,通過分析可以更好地把握社會經(jīng)濟態(tài)勢,啟發(fā)和孕育新理論,發(fā)現(xiàn)可能的異常,預測未來的趨勢等。應用領域可延伸到利用物聯(lián)網(wǎng)數(shù)據(jù)進行決策科學化的應用、利用通訊定位數(shù)據(jù)進行風險風控方面的應用,以及統(tǒng)計學方法和計算機結合在社會科學研究中的應用等。

感謝國家統(tǒng)計局統(tǒng)計科學研究所湯志華,根據(jù)項目報告在整理和撰寫過程中做了大量的工作。

項目:2020年國家統(tǒng)計局重大專項“適用于社會經(jīng)濟統(tǒng)計的大數(shù)據(jù)技術方法體系研究”(2020ZX20)項目負責人:朱建平項目組成員:陳宇晟、馮沖、符羽彤、梁振杰、蘇萌、孫俊歌、唐鑫寅、王瑋瑋、王玉瑩、翁福添、吳淇、吳小龍、謝邦昌、葉玲瓏、于洋、鄭陳璐、朱建平、莊穆妮(按姓氏拼音先后為序)項目單位:廈門大學管理學院、廈門大學健康醫(yī)療大數(shù)據(jù)國家研究院、廈門大學數(shù)據(jù)挖掘研究中心

責任編輯|鄭陳璐圖文編輯|馬茂淇吳小龍

排版編輯|馬茂淇吳小龍廈門大學數(shù)據(jù)挖掘研究中心

編輯:凌墨

(本文轉載自廈門大學管理學院 ,如有侵權請電話聯(lián)系13810995524)

* 文章為作者獨立觀點,不代表MBAChina立場。采編部郵箱:news@mbachina.com,歡迎交流與合作。

收藏
訂閱

備考交流

  • 2024考研英語二備考群: 678595048
  • 2024管理類聯(lián)考復試調(diào)劑②群: 814776983
  • 2024海外碩士交流群: 895560072
  • 2024年MBA/MEM/MPAcc聯(lián)考備考群: 769561411
  • 免聯(lián)考調(diào)劑咨詢①群: 796631901
  • 2024考研政治沖刺群: 863373153
  • 海外碩士咨詢③群: 850595383
  • 免聯(lián)考碩士入學咨詢?nèi)海? 711046255
  • 2024考研復試調(diào)劑交流群: 902176003
免費領取價值5000元MBA備考學習包 購買管理類聯(lián)考MBA/MPAcc/MEM/MPA大綱配套新教材

掃碼關注我們

  • 獲取報考資訊
  • 了解院校活動
  • 學習備考干貨
  • 研究上岸攻略

最新動態(tài)