大數(shù)據(jù)分析的概念已經(jīng)成為我們社會(huì)不可或缺的一部分。眾多公司和機(jī)構(gòu)已經(jīng)開(kāi)發(fā)了大數(shù)據(jù)應(yīng)用程序,取得了不同程度的成功。社交媒體平臺(tái)和傳感器等技術(shù)正在以前所未有的速度生成數(shù)據(jù),就像一條裝配線。如今,幾乎所有東西都是物聯(lián)網(wǎng)的一部分:智能藥丸、智能電表、智能飛機(jī)發(fā)動(dòng)機(jī)以及更多的設(shè)備在不斷地創(chuàng)造實(shí)時(shí)數(shù)據(jù)。這些數(shù)據(jù)通常是非結(jié)構(gòu)化的,并且以巨大的數(shù)量生成,這就需要進(jìn)行有效的管理和分析。這就引出了一個(gè)問(wèn)題:你如何為大數(shù)據(jù)分析制定高效且有效的政策?以及你需要采取哪些步驟才能讓大數(shù)據(jù)為你服務(wù)?本頁(yè)面解釋了大數(shù)據(jù)的要點(diǎn)以及大數(shù)據(jù)分析的最佳策略。
什么是大數(shù)據(jù)?
大數(shù)據(jù)是非常龐大或非結(jié)構(gòu)化的數(shù)據(jù)。它是最難分析的數(shù)據(jù)。為此,你需要先進(jìn)的大數(shù)據(jù)技術(shù)和能夠處理大量非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)解決方案(工具)。
為什么要進(jìn)行大數(shù)據(jù)分析?答案很簡(jiǎn)單:大數(shù)據(jù)中常常隱藏著豐富的信息,這些信息可以幫助你的企業(yè)或機(jī)構(gòu)表現(xiàn)得更好。你會(huì)突然開(kāi)始看到一些用常規(guī)數(shù)據(jù)分析無(wú)法發(fā)現(xiàn)的模式。你進(jìn)行大數(shù)據(jù)研究,偶然發(fā)現(xiàn)新的知識(shí),這些知識(shí)可以給你帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)或大幅提高你的服務(wù)質(zhì)量。
決定大數(shù)據(jù)應(yīng)用成敗的相關(guān)問(wèn)題
每天我們都被大量的數(shù)據(jù)淹沒(méi)。不知何故,你感覺(jué)你的組織能夠并且必須對(duì)這些數(shù)據(jù)做些什么。畢竟,競(jìng)爭(zhēng)不會(huì)停滯不前,技術(shù)在快速發(fā)展,市場(chǎng)也在不斷變化。于是出現(xiàn)了一些具體的問(wèn)題:
1. 我的組織可以并且應(yīng)該用大數(shù)據(jù)分析做什么?
2. 一個(gè)成功的項(xiàng)目是什么樣的?你何時(shí)以及如何讓利益相關(guān)者參與到一個(gè)項(xiàng)目中?
3. 大數(shù)據(jù)科學(xué)有哪些風(fēng)險(xiǎn)、陷阱以及利弊?
4. 在我的組織中可以確定哪些大數(shù)據(jù)應(yīng)用,其影響是什么?
5. 有哪些新的商業(yè)模式支持大數(shù)據(jù)分析?
6. 哪些大數(shù)據(jù)例子引人遐想,你能從中學(xué)到什么?
7. 我在哪里以及如何存儲(chǔ)大數(shù)據(jù)?什么時(shí)候需要數(shù)據(jù)湖?
8. 有哪些大數(shù)據(jù)分析工具可用?
9. 我的員工需要具備哪些技能才能管理好數(shù)據(jù)?
10. 我的組織應(yīng)該如何處理任何大數(shù)據(jù)隱私問(wèn)題?
11. 需要考慮哪些相關(guān)法律法規(guī)?
大數(shù)據(jù)是易變的、復(fù)雜的、大量的和非結(jié)構(gòu)化的
大數(shù)據(jù)對(duì)任何組織都可能具有前所未有的價(jià)值。但這些數(shù)據(jù)也很難分析和應(yīng)用。為什么呢?因?yàn)榇髷?shù)據(jù)是易變的、復(fù)雜的、規(guī)模龐大且非結(jié)構(gòu)化的。例如,想想衛(wèi)星圖像、系統(tǒng)日志文件或聲音片段,你可以分析它們以提取信息。
大數(shù)據(jù)管理領(lǐng)域特別有趣,因?yàn)槟憧梢蚤_(kāi)始創(chuàng)建預(yù)測(cè)模型、更新你的商業(yè)模式(從被動(dòng)變?yōu)橹鲃?dòng))并實(shí)施顛覆性創(chuàng)新。
大數(shù)據(jù)示例與應(yīng)用
為了向其他組織學(xué)習(xí)并作為靈感來(lái)源,我們?cè)诖颂峁┮恍┰诙鄠€(gè)領(lǐng)域中具有吸引力的大數(shù)據(jù)應(yīng)用示例。引人注目的是,公共部門的大數(shù)據(jù)應(yīng)用示例數(shù)量很多。對(duì)此有一個(gè)合理的解釋:公共空間本身非常龐大,大致包括你的家、辦公室和其他目的地之間的所有區(qū)域。
此外,如今拍攝照片和視頻圖像很容易,甚至可以通過(guò)讓無(wú)人機(jī)攜帶(紅外)攝像頭自動(dòng)飛行來(lái)實(shí)現(xiàn)。例如,照片可以顯示樹(shù)木是否生病、花園是否整潔以及雜草是否過(guò)高。但這些照片也可以顯示停車位是否被沒(méi)有有效許可證的汽車占用,或者它們可以指示戶外區(qū)域物體的維護(hù)狀態(tài)。在醫(yī)療保健領(lǐng)域也有許多大數(shù)據(jù)的例子。在醫(yī)療保健領(lǐng)域,越來(lái)越常見(jiàn)的是使用大數(shù)據(jù)分析使專家能夠早期檢測(cè)疾病。
首先考慮一個(gè)有用的大數(shù)據(jù)應(yīng)用
都柏林的案例非常清楚地表明,他們事先提出了一個(gè)相關(guān)的應(yīng)用。這是在你開(kāi)始進(jìn)行大數(shù)據(jù)管理并構(gòu)建一個(gè)成熟架構(gòu)之前最關(guān)鍵的一步。基于這些數(shù)據(jù),你可以做出哪些更好或更快的決策呢?在這個(gè)領(lǐng)域中,人們往往過(guò)于關(guān)注數(shù)據(jù)存儲(chǔ)或大數(shù)據(jù)工具,而不是它能產(chǎn)生什么以及它能實(shí)現(xiàn)哪些新的商業(yè)模式。
大數(shù)據(jù)的原則和特征:五個(gè) V。
大數(shù)據(jù)具有一些特征,我們稱之為五個(gè) V。以下一種或多種情況可被視為大數(shù)據(jù):
1. 容量(Volume):大數(shù)據(jù)有多大?數(shù)據(jù)量非常大,以至于不再適合傳統(tǒng)的 SQL 數(shù)據(jù)庫(kù)。數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)或所謂的 NoSQL 數(shù)據(jù)庫(kù)中。提取的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。
2. 速度(Velocity):數(shù)據(jù)出現(xiàn)得很快,并且可能很快再次消失。例如,推特會(huì)將較舊的推文移至檔案中。那些數(shù)據(jù)很快就消失了。機(jī)器數(shù)據(jù)(物聯(lián)網(wǎng)大數(shù)據(jù))甚至幾乎立即消失。所以,你必須非常迅速地獲取數(shù)據(jù)。
3. 多樣性(Variety):數(shù)據(jù)在結(jié)構(gòu)、容量和意義上有很大的變化。
4. 準(zhǔn)確性(Veracity):不同的數(shù)據(jù)質(zhì)量以及對(duì)數(shù)據(jù)可靠性的懷疑使得大數(shù)據(jù)的使用存在問(wèn)題。
5. 價(jià)值(Value):這才是真正重要的,大數(shù)據(jù)將為你的客戶和你的組織帶來(lái)什么價(jià)值?
你可以用大數(shù)據(jù)的特征來(lái)闡明大數(shù)據(jù)的原則,但這并不能說(shuō)明全部情況。特別是在圖像處理方面。由于這個(gè)特定的應(yīng)用,我們也把攝影稱為新的通用語(yǔ)言,因?yàn)榛谡掌?,你可以非常精確和快速地相對(duì)容易地識(shí)別出產(chǎn)品中的缺陷,還可以檢測(cè)出人類、動(dòng)物或植物中的初期疾病。圖像處理的應(yīng)用可能性是巨大的,特別是與機(jī)器人、人工智能和無(wú)人機(jī)結(jié)合使用時(shí)。
大數(shù)據(jù)分析:八步流程。
為了從大數(shù)據(jù)中獲取大量?jī)r(jià)值,你需要采取特定的一系列步驟。這些步驟有助于你構(gòu)建項(xiàng)目結(jié)構(gòu),并確保你從一個(gè)業(yè)務(wù)問(wèn)題開(kāi)始。這一點(diǎn)至關(guān)重要,因?yàn)樵S多項(xiàng)目在實(shí)際中并未顯示出回報(bào)。通常,會(huì)收集大量數(shù)據(jù),但幾乎沒(méi)有進(jìn)行分析和應(yīng)用。以下是大數(shù)據(jù)分析的八個(gè)步驟以及關(guān)于如何通過(guò)大數(shù)據(jù)取得成功的解釋:
1. 確定并定義業(yè)務(wù)問(wèn)題:在這里,你和你的同事將探討哪些業(yè)務(wù)問(wèn)題適合進(jìn)行大數(shù)據(jù)分析。在這個(gè)過(guò)程中,首先使用你所在組織或業(yè)務(wù)流程中最重要的關(guān)鍵績(jī)效指標(biāo)(KPI)。
2. 收集并準(zhǔn)備相關(guān)數(shù)據(jù):基于業(yè)務(wù)問(wèn)題,你將選擇一個(gè)初始數(shù)據(jù)集,并在相關(guān)情況下進(jìn)行清理。
3. 探索和分析數(shù)據(jù):現(xiàn)在你將進(jìn)行大數(shù)據(jù)分析,并使用商業(yè)智能工具探索數(shù)據(jù),以便了解數(shù)據(jù)以及它是否能夠解決業(yè)務(wù)問(wèn)題。你還將以各種方式可視化數(shù)據(jù)。
4. 整理出最終的數(shù)據(jù)集:你執(zhí)行步驟 1、2 和 3,直到你擁有一個(gè)良好的數(shù)據(jù)集。
5. 構(gòu)建大數(shù)據(jù)模型:你將構(gòu)建一個(gè)模型,其中算法基于訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)測(cè)。
6. 驗(yàn)證模型:現(xiàn)在需要由領(lǐng)域?qū)<议_(kāi)始驗(yàn)證模型;他們確定算法給出的預(yù)測(cè)結(jié)果是否正確。
7. 將模型投入生產(chǎn):如果模型有效,考慮到初始情況和業(yè)務(wù)問(wèn)題,并且你已經(jīng)控制了數(shù)據(jù)質(zhì)量,那么你將大數(shù)據(jù)模型投入生產(chǎn)。
8. 評(píng)估模型的結(jié)果:定期測(cè)試模型的預(yù)測(cè)是否仍然準(zhǔn)確,并查看它產(chǎn)生了哪些結(jié)果?;诖嗽u(píng)估,你將創(chuàng)建一個(gè)更復(fù)雜的模型版本,能夠進(jìn)行更準(zhǔn)確的預(yù)測(cè)。
這大數(shù)據(jù)分析的八個(gè)步驟有助于你始終將業(yè)務(wù)問(wèn)題置于技術(shù)項(xiàng)目的中心,并通過(guò)負(fù)責(zé)的角色組織治理(大數(shù)據(jù)治理)。此外,路線圖明確表明這不是一次性的練習(xí),而是一個(gè)持續(xù)改進(jìn)和完善模型的過(guò)程。最后,在大數(shù)據(jù)中尋找模式不能再使用傳統(tǒng)的分析工具,因?yàn)閿?shù)據(jù)太大或太復(fù)雜。你將不得不開(kāi)發(fā)一種算法,例如神經(jīng)網(wǎng)絡(luò)(人工智能),它將以高效有效的方式為你完成這項(xiàng)工作。
從傳統(tǒng)商業(yè)智能到大數(shù)據(jù)科學(xué)
傳統(tǒng)上,商業(yè)智能(BI)處理結(jié)構(gòu)化數(shù)據(jù),你可以相對(duì)容易地存儲(chǔ)和訪問(wèn)這些數(shù)據(jù)。你可以基于這些數(shù)據(jù)創(chuàng)建數(shù)據(jù)儀表板。商業(yè)智能大數(shù)據(jù)科學(xué)涉及處理(大量)非結(jié)構(gòu)化數(shù)據(jù)和算法。你如何正確處理這些數(shù)據(jù),以及如何構(gòu)建良好的大數(shù)據(jù)分析?還有哪些方面你應(yīng)該注意?
由 Hadoop 組成的計(jì)算機(jī)集群提供巨大的計(jì)算能力
一個(gè)眾所周知的技術(shù)是 Hadoop。它提供了一個(gè)框架來(lái)訪問(wèn)和過(guò)濾大量數(shù)據(jù)。在由許多計(jì)算機(jī)組成的集群上的 Hadoop 提供巨大的計(jì)算能力。這使得這些計(jì)算機(jī)能夠以閃電般的速度將特定數(shù)據(jù)提供給最終用戶的商業(yè)智能工具。
大數(shù)據(jù)與零數(shù)據(jù)
我們堅(jiān)信大數(shù)據(jù)可以為你的組織增加巨大的價(jià)值。然而,你不應(yīng)局限于目前列出的可能性。有時(shí),你沒(méi)有記錄的關(guān)于你的客戶或流程的數(shù)據(jù),即所謂的零數(shù)據(jù),比大數(shù)據(jù)包含更大的價(jià)值。
超越你自己的數(shù)據(jù)
還建議不要局限于您自己的數(shù)據(jù)。在你的分析中包括外部數(shù)據(jù)源和開(kāi)放數(shù)據(jù)。這樣,你可以用相關(guān)的背景信息豐富內(nèi)部視角??紤]人口統(tǒng)計(jì)(客戶)數(shù)據(jù)和市場(chǎng)信息、競(jìng)爭(zhēng)分析,還有諸如天氣、交通流量或社交媒體上的情緒等因素。如今,您更有可能從外到內(nèi)而不是從內(nèi)到外看待問(wèn)題或機(jī)會(huì)。
采取雙軌策略:大數(shù)據(jù)科學(xué)不僅僅是大數(shù)據(jù)策略。
當(dāng)然,你需要開(kāi)始制定政策和策略,以便在你的組織中啟動(dòng)大數(shù)據(jù)預(yù)測(cè)分析,但快速開(kāi)始嘗試大數(shù)據(jù)科學(xué)也至關(guān)重要。這是一個(gè)復(fù)雜的領(lǐng)域,通過(guò)嘗試,你將學(xué)習(xí)并更好地理解這個(gè)主題、風(fēng)險(xiǎn)、利弊以及潛在回報(bào)。因此,建議采取雙軌政策,即制定政策和進(jìn)行實(shí)驗(yàn)。你希望在大數(shù)據(jù)挖掘中取得成功,因此了解主要風(fēng)險(xiǎn)并盡早預(yù)測(cè)它們是有好處的:
1. 技術(shù)驅(qū)動(dòng)的旅程:國(guó)際數(shù)據(jù)集團(tuán)(IDG)的研究表明,組織在大數(shù)據(jù)技術(shù)上的投資中,超過(guò)一半與大數(shù)據(jù)應(yīng)用以及這些應(yīng)用對(duì)流程、工作方式和人員的影響無(wú)關(guān)。這與我們?cè)趯?shí)踐中的經(jīng)驗(yàn)相符。因此,始終從業(yè)務(wù)角度啟動(dòng)一個(gè)項(xiàng)目,并確保不是技術(shù)在主導(dǎo),而是你的業(yè)務(wù)策略、關(guān)鍵績(jī)效指標(biāo)和業(yè)務(wù)流程。
2. 數(shù)據(jù)的復(fù)雜性和規(guī)模:照片、文本、機(jī)器數(shù)據(jù)和視頻圖像可能很快就需要數(shù) TB 的存儲(chǔ)空間。雖然如今存儲(chǔ)空間的成本不高,但容量仍然是一個(gè)問(wèn)題。此外,由于大數(shù)據(jù)分析可能會(huì)很快因數(shù)據(jù)的復(fù)雜性而陷入困境。因此,你需要大量的 “強(qiáng)大” 和智能計(jì)算能力來(lái)建立一個(gè)良好的系統(tǒng),以便你能夠快速且敏捷地開(kāi)發(fā)應(yīng)用程序。該系統(tǒng)必須是可擴(kuò)展的、面向未來(lái)的和可測(cè)試的。
3. 數(shù)據(jù)質(zhì)量:在許多組織中仍然是一個(gè)很大且未被充分暴露的問(wèn)題。計(jì)算表明,由于數(shù)據(jù)質(zhì)量差,大約 10% 的組織利潤(rùn)會(huì)消失。在大數(shù)據(jù)挖掘中,數(shù)據(jù)質(zhì)量的挑戰(zhàn)變得更大,因?yàn)橥度肷a(chǎn)的機(jī)器學(xué)習(xí)模型通常像一個(gè)黑箱一樣運(yùn)行。此外,在數(shù)據(jù)湖中,幾乎沒(méi)有可用的設(shè)施來(lái)全面測(cè)量和提高數(shù)據(jù)質(zhì)量。
4. 倫理與大數(shù)據(jù)隱私:當(dāng)涉及到個(gè)人數(shù)據(jù)的處理和分析時(shí),法律法規(guī),如《通用數(shù)據(jù)保護(hù)條例》(AVG),可能會(huì)很快成為成功應(yīng)用大數(shù)據(jù)機(jī)器學(xué)習(xí)的一個(gè)相當(dāng)大的障礙。
大數(shù)據(jù)和人工智能(AI)或大數(shù)據(jù)上的機(jī)器學(xué)習(xí)是兩個(gè)獨(dú)立的領(lǐng)域,但它們之間有很多關(guān)聯(lián)。如果你想在沒(méi)有人工智能的情況下分析大量數(shù)據(jù),那么作為一名數(shù)據(jù)分析師,你可能會(huì)花費(fèi)數(shù)年時(shí)間試圖將其全部整合在一起。如果你想在沒(méi)有機(jī)器學(xué)習(xí)模型的情況下分析大量非結(jié)構(gòu)化數(shù)據(jù),錯(cuò)誤的幾率會(huì)很大,或者你會(huì)很快忽略一些事情。而且,人工智能會(huì)獲得更多價(jià)值,因?yàn)槟愕乃惴梢杂么罅繑?shù)據(jù)進(jìn)行訓(xùn)練。這增加了獲得可靠且準(zhǔn)確模型的機(jī)會(huì)。大數(shù)據(jù)與人工智能的結(jié)合產(chǎn)生了完美的相互作用,增加了你在大數(shù)據(jù)分析中取得顯著成功的機(jī)會(huì)。
分析大數(shù)據(jù)是新的黃金,新的石油。
如果你的大數(shù)據(jù)中隱藏著一些眾所周知的黃金寶藏呢?例如,你的公司比你的競(jìng)爭(zhēng)對(duì)手提前一個(gè)月知道一種商品的價(jià)格將會(huì)上漲。或者飛機(jī)發(fā)動(dòng)機(jī)的傳感器數(shù)據(jù)顯示,在特定高度和特定不利天氣條件下,飛機(jī)在飛行中出現(xiàn)了故障。在許多情況下,發(fā)動(dòng)機(jī)故障意味著災(zāi)難。正是這些關(guān)鍵應(yīng)用以及新的商業(yè)模式使大數(shù)據(jù)變得極其有趣。因此,大數(shù)據(jù)也被稱為新的黃金或新的石油,因?yàn)樗碇薮蟮膬r(jià)值。
通過(guò)大數(shù)據(jù)管理發(fā)現(xiàn)新機(jī)會(huì)并降低風(fēng)險(xiǎn)。
或者想想對(duì)數(shù)百萬(wàn)張精神病患者的相機(jī)圖像進(jìn)行分析。然后,你可以構(gòu)建一個(gè)模型,讓你能夠快速注意到患者的異常行為。這些模式告訴你,某個(gè)特定的人很有可能 “脫離正軌”,并帶來(lái)所有相關(guān)風(fēng)險(xiǎn)。通過(guò)及早發(fā)現(xiàn)這種行為變化,你可以及時(shí)進(jìn)行(額外的)檢查和控制。這就是為什么組織渴望挖掘那座數(shù)據(jù)之山、發(fā)現(xiàn)機(jī)會(huì)并管理風(fēng)險(xiǎn)。我們希望幫助你基于大數(shù)據(jù)預(yù)測(cè)分析從被動(dòng)工作轉(zhuǎn)變?yōu)橹鲃?dòng)工作。
大數(shù)據(jù)解決方案和分析工具
只有選擇并獲得正確的工具、儀器和解決方案,你才能成功挖掘出黃金或其他有價(jià)值的資源。大數(shù)據(jù)也是如此。你需要特殊的大數(shù)據(jù)解決方案或大數(shù)據(jù)分析工具來(lái)存儲(chǔ)、分析和可視化大量數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)。這些大數(shù)據(jù)工具分為三類:
1. 存儲(chǔ)大數(shù)據(jù):想象一下Hadoop、MongoDB、Apache Cassandra 和 NoSQL,你將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖中。
2. 處理數(shù)據(jù):這是一個(gè)中間層,用于快速分析數(shù)據(jù),無(wú)論數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖的何處。例如,Knime 是一個(gè)非常適合數(shù)據(jù)集成的開(kāi)源環(huán)境。
3. 分析、報(bào)告和可視化大數(shù)據(jù):這類軟件允許你深入挖掘數(shù)據(jù)、進(jìn)行分析并創(chuàng)建數(shù)據(jù)可視化、算法和報(bào)告。例如 Datawrapper、Watson Analytics 和 FusionCharts。
市場(chǎng)上還有更多的大數(shù)據(jù)分析工具:IBM Cognos Analytics、SAP BusinessObjects、SAP HANA、Microsoft BI 和 Power BI、Oracle BI、WebFOCUS、Style Intelligence、Yellowfin、Pentaho BI、SAS、BOARD、MicroStrategy、QlikView、Qlik Sense、Sisense、TIBCO JasperSoft、Tableau Software、Infor Birst。
大數(shù)據(jù)分析成功案例
越來(lái)越多的關(guān)于大數(shù)據(jù)與分析的成功案例正在迅速涌現(xiàn)。這些案例也不再被媒體忽視。阿姆斯特丹消防隊(duì)使用大數(shù)據(jù)預(yù)防火災(zāi)的事實(shí)已經(jīng)登上了荷蘭國(guó)家電視臺(tái)的晚間新聞和英國(guó)廣播公司。阿姆斯特丹警方能夠在罪犯犯罪之前將其抓獲,這使他們?cè)?“荷蘭最聰明的組織” 中登上領(lǐng)獎(jiǎng)臺(tái)。
都柏林市利用大數(shù)據(jù)優(yōu)化交通流量這一事實(shí),對(duì)所有公共機(jī)構(gòu)來(lái)說(shuō)都是一個(gè)光輝的榜樣。他們現(xiàn)在更好地理解到,你可以極大地改善對(duì)公民的服務(wù)。簡(jiǎn)而言之:這些成功案例令人信服地表明,大數(shù)據(jù)預(yù)測(cè)分析可以區(qū)分愚蠢的組織和聰明的組織,區(qū)分失敗者和成功者。
違法和不良信息舉報(bào)投訴電話:0377-62377728 舉報(bào)郵箱:fbypt@ex12580.com
網(wǎng)絡(luò)警察提醒你 a>
中國(guó)互聯(lián)網(wǎng)舉報(bào)中心
網(wǎng)絡(luò)舉報(bào)APP下載
掃黃打非網(wǎng)舉報(bào)專區(qū)