數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)與數(shù)據(jù)處理的重要性


近年隨著大數(shù)據(jù)的興起,數(shù)據(jù)價(jià)值這名詞隨處可見,儼然成了一個(gè)新的風(fēng)口。在這種風(fēng)口下,數(shù)據(jù)科學(xué)家這個(gè)名詞在這種潮流下越來(lái)越顯得高大上,數(shù)據(jù)處理一詞卻成了枯燥泛味的工作代名詞。數(shù)據(jù)處理看似簡(jiǎn)單,真正做好則不易。數(shù)據(jù)處理與分析只有進(jìn)行有效的前后銜接,才能真正挖掘出數(shù)據(jù)的價(jià)值。
【MBAChina網(wǎng)訊】近年隨著大數(shù)據(jù)的興起,數(shù)據(jù)價(jià)值這名詞隨處可見,儼然成了一個(gè)新的風(fēng)口。在這種風(fēng)口下,數(shù)據(jù)科學(xué)家這個(gè)名詞在這種潮流下越來(lái)越顯得高大上,數(shù)據(jù)處理一詞卻成了枯燥泛味的工作代名詞。
調(diào)研公司中的數(shù)據(jù)處理與數(shù)據(jù)分析
數(shù)據(jù)處理 是對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換和傳輸,也包括數(shù)據(jù)組織,數(shù)據(jù)計(jì)算,數(shù)據(jù)檢索,數(shù)據(jù)統(tǒng)計(jì)排序等。數(shù)據(jù)處理是系統(tǒng)工程和數(shù)據(jù)價(jià)值提取的基本環(huán)節(jié)。
數(shù)據(jù)分析 則是與數(shù)據(jù)處理有機(jī)結(jié)合,利用數(shù)據(jù)統(tǒng)計(jì)方法,從錯(cuò)綜復(fù)雜的數(shù)據(jù)關(guān)系中梳理出事物的聯(lián)系,比如發(fā)展趨勢(shì)、影響因素、因果關(guān)系等。甚至建立一些BI,對(duì)一些數(shù)據(jù)的有用信息進(jìn)行可視化呈現(xiàn),并形成數(shù)據(jù)故事。
以缺失值處理為例,由于涉及環(huán)節(jié)過(guò)多,通常有不同的做法,如可考慮直接使用含有缺失值的特征, 或采用刪除缺失特征的方法。當(dāng)然也可對(duì)缺失值進(jìn)行補(bǔ)全。 缺失補(bǔ)全,可以采用均值插補(bǔ),同類均值插補(bǔ),建模預(yù)測(cè),高維映射,多重插補(bǔ),壓縮感知或矩陣補(bǔ)全等。從經(jīng)驗(yàn)的角度來(lái)看,插補(bǔ)處理本身存在主觀性,這種估計(jì)不一定符合客觀事實(shí)。 從技術(shù)角度而言,雖然有各種分析方法,但大多是從理論分析出發(fā),對(duì)缺失值進(jìn)行處理。
現(xiàn)實(shí)的情況是,缺失值本身是無(wú)法預(yù)測(cè)的,也就不可能知道它缺失所屬類型,這就意味著我們無(wú)法量化插補(bǔ)方法的效果。另外由于各行業(yè)或領(lǐng)域的不同,其應(yīng)用效果也存在較大的差異,尤其針對(duì)一些專業(yè)的領(lǐng)域,一些專業(yè)的數(shù)據(jù)分析人員可能通過(guò)他們對(duì)行業(yè)的理解,手動(dòng)對(duì)缺值進(jìn)行補(bǔ)充可能效果反而會(huì)更好。
插補(bǔ)有時(shí)也會(huì)存在誤區(qū),以建模預(yù)測(cè)插補(bǔ)為例 ,當(dāng)其缺失值與其它特征無(wú)關(guān)時(shí),用預(yù)測(cè)的方法就變得毫無(wú)意義; 但換過(guò)角度來(lái)看,如果預(yù)測(cè)結(jié)果相當(dāng)準(zhǔn)確,那就說(shuō)明選用的特征與缺失值存在相關(guān),這時(shí)這些缺失值反而可以考慮不納入后數(shù)據(jù)集合中。
因?yàn)樾袠I(yè)不同,數(shù)據(jù)處理有些環(huán)節(jié)并不是一定會(huì)存在一個(gè)明確答案,所以這也需要數(shù)據(jù)處理人員有一個(gè)宏觀認(rèn)識(shí)。尤其團(tuán)隊(duì)合作時(shí),需要由相關(guān)的有相當(dāng)技術(shù)和業(yè)務(wù)經(jīng)驗(yàn)的人員主導(dǎo)和協(xié)調(diào),避免項(xiàng)目產(chǎn)生失誤甚至錯(cuò)誤。 從經(jīng)驗(yàn)上講,數(shù)據(jù)處理人員的經(jīng)驗(yàn)和感知, 業(yè)務(wù)的理解,將對(duì)后期數(shù)據(jù)的分析有著關(guān)鍵的影響。
因此我們認(rèn)為數(shù)據(jù)處理是數(shù)據(jù)分析之前的必要環(huán)節(jié)。在這個(gè)階段,往往需要針對(duì)原始數(shù)據(jù)收集,提取,特征屬性的建立,維度的設(shè)定。 這些都將直接決定了后續(xù)數(shù)據(jù)分析的成敗,乃至數(shù)據(jù)分析方法或模型的選取。 如果數(shù)據(jù)處理階段的設(shè)計(jì)不完善或失誤,會(huì)大幅提高整個(gè)分析項(xiàng)目失敗風(fēng)險(xiǎn)。
市場(chǎng)調(diào)研公司內(nèi)部一般數(shù)據(jù)處理和數(shù)據(jù)分析部門是分開的。因?yàn)轫?xiàng)目類型較多,同時(shí)多個(gè)項(xiàng)目在進(jìn)行,客戶往往要求的時(shí)間比較趕,所以數(shù)據(jù)處理員在每個(gè)項(xiàng)目投入的精力非常有限, 易導(dǎo)致很多加班加點(diǎn)。調(diào)研公司中數(shù)據(jù)處理人員一般較少涉及到研究部門早期的問(wèn)卷設(shè)計(jì),部門之間分割過(guò)于清晰。在這種數(shù)據(jù)處理與數(shù)據(jù)分析被分割的狀態(tài)中,如果早期的問(wèn)卷設(shè)計(jì)不完善或嚴(yán)謹(jǐn),最終原始數(shù)據(jù)可能存在不結(jié)構(gòu)化、業(yè)務(wù)邏輯前后矛盾的現(xiàn)象,后期數(shù)據(jù)處理中會(huì)出現(xiàn)諸多問(wèn)題,整個(gè)過(guò)程可能會(huì)在處理要花費(fèi)大量的工時(shí)成本。 如果再加上客戶要求的項(xiàng)目時(shí)間限定,整體處理可能限入不完善和不嚴(yán)謹(jǐn)?shù)那闆r,對(duì)于后期的數(shù)據(jù)分析的結(jié)果可能帶來(lái)致命的影響,就算付出更多努力,都達(dá)不到預(yù)想的效果。
不論傳統(tǒng)行業(yè),或當(dāng)下的大數(shù)據(jù)時(shí)代,經(jīng)驗(yàn)表明數(shù)據(jù)處理往往在數(shù)據(jù)分析產(chǎn)業(yè)鏈中占到80% -90% 以上的工時(shí)消耗。有的公司更是出于成本考慮,將整體數(shù)據(jù)處理業(yè)務(wù)單獨(dú)外包,使得原始數(shù)據(jù)缺乏積累和數(shù)據(jù)管理混亂。這是市場(chǎng)調(diào)研行業(yè)發(fā)展的一個(gè)隱患。
數(shù)據(jù)技術(shù)的應(yīng)用與發(fā)展
相對(duì)于早期的傳統(tǒng)統(tǒng)計(jì)處理思維,大數(shù)據(jù)時(shí)代著實(shí)給我們帶來(lái)了新的興奮點(diǎn)。 在傳統(tǒng)統(tǒng)計(jì)分析中,尤其對(duì)小數(shù)據(jù)的推斷性分析而言, 傳統(tǒng)的思想我們很多時(shí)候會(huì)去考慮P值的大小。 而在大數(shù)據(jù)時(shí)代,這個(gè)樣本數(shù)據(jù)量是劇增的,當(dāng)樣本很大時(shí),傳統(tǒng)的P值檢驗(yàn)顯得不再那么重要,轉(zhuǎn)而更多的處理和分析手段, 變成了對(duì)目標(biāo)函數(shù)的優(yōu)化問(wèn)題。由于優(yōu)化技術(shù)和計(jì)算機(jī)性能的大幅提升,傳統(tǒng)統(tǒng)計(jì)分析方法的工作流程被突破。
在傳統(tǒng)分析中,通常我們會(huì)先收集數(shù)據(jù),然后人工或半自動(dòng)化的去進(jìn)行數(shù)據(jù)清理,然后采用不同的手段進(jìn)行分析,然后再后驗(yàn)證結(jié)論的有效性,以及測(cè)試模擬的效果。而當(dāng)優(yōu)化技術(shù)和計(jì)算機(jī)性能的提升,并應(yīng)用現(xiàn)代IT技術(shù),輔以統(tǒng)計(jì)學(xué)思想加上數(shù)學(xué)的發(fā)展,使這一切變得更加自動(dòng)化, 從而能實(shí)現(xiàn)實(shí)時(shí)或近實(shí)時(shí)的分析,進(jìn)而幫助我們進(jìn)入機(jī)器學(xué)習(xí)時(shí)代。 當(dāng)我們把這些機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析成果,連接至硬件,并輔以相應(yīng)的應(yīng)用邏輯,就可以使機(jī)器變得更加智能,從而幫助我們快速進(jìn)人工智能領(lǐng)域, 這些都是數(shù)據(jù)處理,數(shù)據(jù)分析和IT技術(shù)發(fā)展的成果。
隨著近年來(lái)大數(shù)據(jù)的興起,數(shù)據(jù)分析環(huán)境和工具上也出現(xiàn)了一些新的變化,使得數(shù)據(jù)處理和數(shù)據(jù)分析的界定也不再那么明顯,數(shù)據(jù)人才也被更多的要求數(shù)據(jù)處理和分析均需擅長(zhǎng),新的分析平臺(tái)也在不斷演進(jìn)。以大數(shù)據(jù)應(yīng)用為例,從早期的Java +Hadoop +Map Reduce 平臺(tái), 逐浙過(guò)度到了(R/Python/ Scala/ Java) + Hadoop +Spark 環(huán)境等。同時(shí)也出現(xiàn)了包括一些流式數(shù)據(jù)的處理和分析的方案,Storm, Kafka,F(xiàn)lume等工具的應(yīng)用,使得流式數(shù)據(jù)的處理和分析變得更有效,甚至實(shí)時(shí)或近實(shí)時(shí)的響應(yīng)。在數(shù)據(jù)倉(cāng)庫(kù)方面, 也由傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)SQL, 擴(kuò)展到了非結(jié)構(gòu)數(shù)據(jù),如:Hive,Mongodb,Spark Sql,Redshift, Elastic Search等工具的應(yīng)用,使數(shù)據(jù)處理和數(shù)據(jù)分析的應(yīng)用變得也更為緊密,處理和分析功能上也更加完善和統(tǒng)一。在這種改變之下,一些數(shù)據(jù)處理和分析場(chǎng)景變得可在同一平臺(tái)上,利用集群進(jìn)行快速處理、計(jì)算和分析。另外,由于很多新型平臺(tái)由開源社區(qū)維護(hù),更新迭代很快,因而技術(shù)坑也不少,數(shù)據(jù)處理和分析人員還因此需要針對(duì)環(huán)境和平臺(tái)的變化,進(jìn)行更多的知識(shí)的積累。所有這些對(duì)于數(shù)據(jù)處理和分析的從業(yè)人員,也提出了更高的要求。
在這種形勢(shì)的變化下,數(shù)據(jù)處理和分析更應(yīng)成為一個(gè)整體,建立獨(dú)立的機(jī)構(gòu)/單元,分享其知識(shí)庫(kù),使其能在一致的需求目標(biāo)下發(fā)揮更高的效率,避免各自為陣。應(yīng)從整體數(shù)據(jù)業(yè)務(wù)流上,使其從原始數(shù)據(jù)收集,質(zhì)量控制,特征建立,模型選擇實(shí)現(xiàn)一體化,從而提升其目標(biāo)問(wèn)題的可控性和保證信息提取的有效性。
結(jié)束語(yǔ)
數(shù)據(jù)處理看似簡(jiǎn)單,真正做好則不易。數(shù)據(jù)處理與分析只有進(jìn)行有效的前后銜接,才能真正挖掘出數(shù)據(jù)的價(jià)值。
版權(quán)聲明:
本文轉(zhuǎn)載自消費(fèi)者研究,如原作者如不愿意本網(wǎng)站刊登使用相關(guān)素材,請(qǐng)及時(shí)通知本站,我們將在最短時(shí)間內(nèi)予以處理,聯(lián)系010-53572272。
(本文轉(zhuǎn)載自 ,如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)
* 文章為作者獨(dú)立觀點(diǎn),不代表MBAChina立場(chǎng)。采編部郵箱:news@mbachina.com,歡迎交流與合作。
備考交流

掃碼關(guān)注我們
- 獲取報(bào)考資訊
- 了解院?;顒?dòng)
- 學(xué)習(xí)備考干貨
- 研究上岸攻略
最新動(dòng)態(tài)
推薦項(xiàng)目
活動(dòng)日歷
- 01月
- 02月
- 03月
- 04月
- 05月
- 06月
- 07月
- 08月
- 09月
- 10月
- 11月
- 12月
- 07/03 預(yù)約席位 | 7月3日交大安泰EMBA招生說(shuō)明會(huì)
- 07/05 最高可獲得2萬(wàn)元獎(jiǎng)學(xué)金| 上理管院專業(yè)學(xué)位項(xiàng)目2026聯(lián)合招生發(fā)布會(huì)&MBA/MPA/MEM職業(yè)賦能工坊第三期開放申請(qǐng)中!
- 07/05 財(cái)務(wù)人必修的戰(zhàn)略思維課|復(fù)旦MPAcc公開課報(bào)名
- 07/05 財(cái)務(wù)人必修的戰(zhàn)略思維課|復(fù)旦MPAcc公開課報(bào)名!
- 07/05 【預(yù)告| 7.5北大國(guó)發(fā)院EMBA體驗(yàn)日】“導(dǎo)師·同學(xué)共話會(huì)” 邀您走進(jìn)北大承澤園
- 07/05 上海場(chǎng) | 清華-康奈爾雙學(xué)位金融MBA項(xiàng)目上海場(chǎng)公開課暨招生說(shuō)明會(huì)誠(chéng)邀您參與!
- 07/05 上海交大MTT招生開放日
- 07/05 鄭州活動(dòng)預(yù)告 | 7月5日交大安泰MBA全國(guó)巡展即將來(lái)到中原大地,招生政策、考生激勵(lì)、項(xiàng)目生態(tài)一場(chǎng)活動(dòng)全掌握!
- 07/05 海π智鏈 商道新生 | 2026東華大學(xué)MBA/EMBA/MPAcc/MEM/MF/MIB培養(yǎng)體系煥新發(fā)布會(huì)即將啟幕!
- 07/05 活動(dòng)報(bào)名 | 7月5日深圳招生直通車,15年零售餐飲O2O行業(yè)學(xué)長(zhǎng)以夢(mèng)為馬,為何選擇交大安泰MBA?