亚洲欧美中文日韩在线v日本,亚洲精品永久在线观看,亚洲av日韩av永久无码色欲,亚洲成a人片777777,亚洲人成网站在线播放942

數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)與數(shù)據(jù)處理的重要性

MBAChina
2017-08-07 12:24 瀏覽量: 6028
?智能總結(jié)

近年隨著大數(shù)據(jù)的興起,數(shù)據(jù)價(jià)值這名詞隨處可見,儼然成了一個(gè)新的風(fēng)口。在這種風(fēng)口下,數(shù)據(jù)科學(xué)家這個(gè)名詞在這種潮流下越來(lái)越顯得高大上,數(shù)據(jù)處理一詞卻成了枯燥泛味的工作代名詞。數(shù)據(jù)處理看似簡(jiǎn)單,真正做好則不易。數(shù)據(jù)處理與分析只有進(jìn)行有效的前后銜接,才能真正挖掘出數(shù)據(jù)的價(jià)值。

MBAChina網(wǎng)訊】近年隨著大數(shù)據(jù)的興起,數(shù)據(jù)價(jià)值這名詞隨處可見,儼然成了一個(gè)新的風(fēng)口。在這種風(fēng)口下,數(shù)據(jù)科學(xué)家這個(gè)名詞在這種潮流下越來(lái)越顯得高大上,數(shù)據(jù)處理一詞卻成了枯燥泛味的工作代名詞。




調(diào)研公司中的數(shù)據(jù)處理與數(shù)據(jù)分析


數(shù)據(jù)處理 是對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換和傳輸,也包括數(shù)據(jù)組織,數(shù)據(jù)計(jì)算,數(shù)據(jù)檢索,數(shù)據(jù)統(tǒng)計(jì)排序等。數(shù)據(jù)處理是系統(tǒng)工程和數(shù)據(jù)價(jià)值提取的基本環(huán)節(jié)。


數(shù)據(jù)分析 則是與數(shù)據(jù)處理有機(jī)結(jié)合,利用數(shù)據(jù)統(tǒng)計(jì)方法,從錯(cuò)綜復(fù)雜的數(shù)據(jù)關(guān)系中梳理出事物的聯(lián)系,比如發(fā)展趨勢(shì)、影響因素、因果關(guān)系等。甚至建立一些BI,對(duì)一些數(shù)據(jù)的有用信息進(jìn)行可視化呈現(xiàn),并形成數(shù)據(jù)故事。




以缺失值處理為例,由于涉及環(huán)節(jié)過(guò)多,通常有不同的做法,如可考慮直接使用含有缺失值的特征, 或采用刪除缺失特征的方法。當(dāng)然也可對(duì)缺失值進(jìn)行補(bǔ)全。 缺失補(bǔ)全,可以采用均值插補(bǔ),同類均值插補(bǔ),建模預(yù)測(cè),高維映射,多重插補(bǔ),壓縮感知或矩陣補(bǔ)全等。從經(jīng)驗(yàn)的角度來(lái)看,插補(bǔ)處理本身存在主觀性,這種估計(jì)不一定符合客觀事實(shí)。 從技術(shù)角度而言,雖然有各種分析方法,但大多是從理論分析出發(fā),對(duì)缺失值進(jìn)行處理。


現(xiàn)實(shí)的情況是,缺失值本身是無(wú)法預(yù)測(cè)的,也就不可能知道它缺失所屬類型,這就意味著我們無(wú)法量化插補(bǔ)方法的效果。另外由于各行業(yè)或領(lǐng)域的不同,其應(yīng)用效果也存在較大的差異,尤其針對(duì)一些專業(yè)的領(lǐng)域,一些專業(yè)的數(shù)據(jù)分析人員可能通過(guò)他們對(duì)行業(yè)的理解,手動(dòng)對(duì)缺值進(jìn)行補(bǔ)充可能效果反而會(huì)更好。




插補(bǔ)有時(shí)也會(huì)存在誤區(qū),以建模預(yù)測(cè)插補(bǔ)為例 ,當(dāng)其缺失值與其它特征無(wú)關(guān)時(shí),用預(yù)測(cè)的方法就變得毫無(wú)意義; 但換過(guò)角度來(lái)看,如果預(yù)測(cè)結(jié)果相當(dāng)準(zhǔn)確,那就說(shuō)明選用的特征與缺失值存在相關(guān),這時(shí)這些缺失值反而可以考慮不納入后數(shù)據(jù)集合中。


因?yàn)樾袠I(yè)不同,數(shù)據(jù)處理有些環(huán)節(jié)并不是一定會(huì)存在一個(gè)明確答案,所以這也需要數(shù)據(jù)處理人員有一個(gè)宏觀認(rèn)識(shí)。尤其團(tuán)隊(duì)合作時(shí),需要由相關(guān)的有相當(dāng)技術(shù)和業(yè)務(wù)經(jīng)驗(yàn)的人員主導(dǎo)和協(xié)調(diào),避免項(xiàng)目產(chǎn)生失誤甚至錯(cuò)誤。 從經(jīng)驗(yàn)上講,數(shù)據(jù)處理人員的經(jīng)驗(yàn)和感知, 業(yè)務(wù)的理解,將對(duì)后期數(shù)據(jù)的分析有著關(guān)鍵的影響。




因此我們認(rèn)為數(shù)據(jù)處理是數(shù)據(jù)分析之前的必要環(huán)節(jié)。在這個(gè)階段,往往需要針對(duì)原始數(shù)據(jù)收集,提取,特征屬性的建立,維度的設(shè)定。 這些都將直接決定了后續(xù)數(shù)據(jù)分析的成敗,乃至數(shù)據(jù)分析方法或模型的選取。 如果數(shù)據(jù)處理階段的設(shè)計(jì)不完善或失誤,會(huì)大幅提高整個(gè)分析項(xiàng)目失敗風(fēng)險(xiǎn)。


市場(chǎng)調(diào)研公司內(nèi)部一般數(shù)據(jù)處理和數(shù)據(jù)分析部門是分開的。因?yàn)轫?xiàng)目類型較多,同時(shí)多個(gè)項(xiàng)目在進(jìn)行,客戶往往要求的時(shí)間比較趕,所以數(shù)據(jù)處理員在每個(gè)項(xiàng)目投入的精力非常有限, 易導(dǎo)致很多加班加點(diǎn)。調(diào)研公司中數(shù)據(jù)處理人員一般較少涉及到研究部門早期的問(wèn)卷設(shè)計(jì),部門之間分割過(guò)于清晰。在這種數(shù)據(jù)處理與數(shù)據(jù)分析被分割的狀態(tài)中,如果早期的問(wèn)卷設(shè)計(jì)不完善或嚴(yán)謹(jǐn),最終原始數(shù)據(jù)可能存在不結(jié)構(gòu)化、業(yè)務(wù)邏輯前后矛盾的現(xiàn)象,后期數(shù)據(jù)處理中會(huì)出現(xiàn)諸多問(wèn)題,整個(gè)過(guò)程可能會(huì)在處理要花費(fèi)大量的工時(shí)成本。 如果再加上客戶要求的項(xiàng)目時(shí)間限定,整體處理可能限入不完善和不嚴(yán)謹(jǐn)?shù)那闆r,對(duì)于后期的數(shù)據(jù)分析的結(jié)果可能帶來(lái)致命的影響,就算付出更多努力,都達(dá)不到預(yù)想的效果。




不論傳統(tǒng)行業(yè),或當(dāng)下的大數(shù)據(jù)時(shí)代,經(jīng)驗(yàn)表明數(shù)據(jù)處理往往在數(shù)據(jù)分析產(chǎn)業(yè)鏈中占到80% -90% 以上的工時(shí)消耗。有的公司更是出于成本考慮,將整體數(shù)據(jù)處理業(yè)務(wù)單獨(dú)外包,使得原始數(shù)據(jù)缺乏積累和數(shù)據(jù)管理混亂。這是市場(chǎng)調(diào)研行業(yè)發(fā)展的一個(gè)隱患。



數(shù)據(jù)技術(shù)的應(yīng)用與發(fā)展


相對(duì)于早期的傳統(tǒng)統(tǒng)計(jì)處理思維,大數(shù)據(jù)時(shí)代著實(shí)給我們帶來(lái)了新的興奮點(diǎn)。 在傳統(tǒng)統(tǒng)計(jì)分析中,尤其對(duì)小數(shù)據(jù)的推斷性分析而言, 傳統(tǒng)的思想我們很多時(shí)候會(huì)去考慮P值的大小。 而在大數(shù)據(jù)時(shí)代,這個(gè)樣本數(shù)據(jù)量是劇增的,當(dāng)樣本很大時(shí),傳統(tǒng)的P值檢驗(yàn)顯得不再那么重要,轉(zhuǎn)而更多的處理和分析手段, 變成了對(duì)目標(biāo)函數(shù)的優(yōu)化問(wèn)題。由于優(yōu)化技術(shù)和計(jì)算機(jī)性能的大幅提升,傳統(tǒng)統(tǒng)計(jì)分析方法的工作流程被突破。


在傳統(tǒng)分析中,通常我們會(huì)先收集數(shù)據(jù),然后人工或半自動(dòng)化的去進(jìn)行數(shù)據(jù)清理,然后采用不同的手段進(jìn)行分析,然后再后驗(yàn)證結(jié)論的有效性,以及測(cè)試模擬的效果。而當(dāng)優(yōu)化技術(shù)和計(jì)算機(jī)性能的提升,并應(yīng)用現(xiàn)代IT技術(shù),輔以統(tǒng)計(jì)學(xué)思想加上數(shù)學(xué)的發(fā)展,使這一切變得更加自動(dòng)化, 從而能實(shí)現(xiàn)實(shí)時(shí)或近實(shí)時(shí)的分析,進(jìn)而幫助我們進(jìn)入機(jī)器學(xué)習(xí)時(shí)代。 當(dāng)我們把這些機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析成果,連接至硬件,并輔以相應(yīng)的應(yīng)用邏輯,就可以使機(jī)器變得更加智能,從而幫助我們快速進(jìn)人工智能領(lǐng)域, 這些都是數(shù)據(jù)處理,數(shù)據(jù)分析和IT技術(shù)發(fā)展的成果。




隨著近年來(lái)大數(shù)據(jù)的興起,數(shù)據(jù)分析環(huán)境和工具上也出現(xiàn)了一些新的變化,使得數(shù)據(jù)處理和數(shù)據(jù)分析的界定也不再那么明顯,數(shù)據(jù)人才也被更多的要求數(shù)據(jù)處理和分析均需擅長(zhǎng),新的分析平臺(tái)也在不斷演進(jìn)。以大數(shù)據(jù)應(yīng)用為例,從早期的Java +Hadoop +Map Reduce 平臺(tái), 逐浙過(guò)度到了(R/Python/ Scala/ Java) + Hadoop +Spark 環(huán)境等。同時(shí)也出現(xiàn)了包括一些流式數(shù)據(jù)的處理和分析的方案,Storm, Kafka,F(xiàn)lume等工具的應(yīng)用,使得流式數(shù)據(jù)的處理和分析變得更有效,甚至實(shí)時(shí)或近實(shí)時(shí)的響應(yīng)。在數(shù)據(jù)倉(cāng)庫(kù)方面, 也由傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)SQL, 擴(kuò)展到了非結(jié)構(gòu)數(shù)據(jù),如:Hive,Mongodb,Spark Sql,Redshift, Elastic Search等工具的應(yīng)用,使數(shù)據(jù)處理和數(shù)據(jù)分析的應(yīng)用變得也更為緊密,處理和分析功能上也更加完善和統(tǒng)一。在這種改變之下,一些數(shù)據(jù)處理和分析場(chǎng)景變得可在同一平臺(tái)上,利用集群進(jìn)行快速處理、計(jì)算和分析。另外,由于很多新型平臺(tái)由開源社區(qū)維護(hù),更新迭代很快,因而技術(shù)坑也不少,數(shù)據(jù)處理和分析人員還因此需要針對(duì)環(huán)境和平臺(tái)的變化,進(jìn)行更多的知識(shí)的積累。所有這些對(duì)于數(shù)據(jù)處理和分析的從業(yè)人員,也提出了更高的要求。




在這種形勢(shì)的變化下,數(shù)據(jù)處理和分析更應(yīng)成為一個(gè)整體,建立獨(dú)立的機(jī)構(gòu)/單元,分享其知識(shí)庫(kù),使其能在一致的需求目標(biāo)下發(fā)揮更高的效率,避免各自為陣。應(yīng)從整體數(shù)據(jù)業(yè)務(wù)流上,使其從原始數(shù)據(jù)收集,質(zhì)量控制,特征建立,模型選擇實(shí)現(xiàn)一體化,從而提升其目標(biāo)問(wèn)題的可控性和保證信息提取的有效性。


結(jié)束語(yǔ)


數(shù)據(jù)處理看似簡(jiǎn)單,真正做好則不易。數(shù)據(jù)處理與分析只有進(jìn)行有效的前后銜接,才能真正挖掘出數(shù)據(jù)的價(jià)值。


版權(quán)聲明:

本文轉(zhuǎn)載自消費(fèi)者研究,如原作者如不愿意本網(wǎng)站刊登使用相關(guān)素材,請(qǐng)及時(shí)通知本站,我們將在最短時(shí)間內(nèi)予以處理,聯(lián)系010-53572272。

編輯:

(本文轉(zhuǎn)載自 ,如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)

* 文章為作者獨(dú)立觀點(diǎn),不代表MBAChina立場(chǎng)。采編部郵箱:news@mbachina.com,歡迎交流與合作。

收藏
訂閱

備考交流

  • 2024考研英語(yǔ)二備考群: 678595048
  • 2024管理類聯(lián)考復(fù)試調(diào)劑②群: 814776983
  • 2024海外碩士交流群: 895560072
  • 2024年MBA/MEM/MPAcc聯(lián)考備考群: 769561411
  • 免聯(lián)考調(diào)劑咨詢①群: 796631901
  • 2024考研政治沖刺群: 863373153
  • 海外碩士咨詢③群: 850595383
  • 免聯(lián)考碩士入學(xué)咨詢?nèi)海? 711046255
  • 2024考研復(fù)試調(diào)劑交流群: 902176003
免費(fèi)領(lǐng)取價(jià)值5000元MBA備考學(xué)習(xí)包(含近8年真題) 購(gòu)買管理類聯(lián)考MBA/MPAcc/MEM/MPA大綱配套新教材

掃碼關(guān)注我們

  • 獲取報(bào)考資訊
  • 了解院?;顒?dòng)
  • 學(xué)習(xí)備考干貨
  • 研究上岸攻略

最新動(dòng)態(tài)

    活動(dòng)日歷

    2022年度
    • 01月
    • 02月
    • 03月
    • 04月
    • 05月
    • 06月
    • 07月
    • 08月
    • 09月
    • 10月
    • 11月
    • 12月