互聯網時代,PC、Pad、智能手機等設備無處不在,數以億計的用戶通過微博、微信、SNS、博客等途徑産生(shēng)大(dà)量的自媒體(tǐ)數據,電(diàn)商(shāng)、新聞類網站、 搜索引擎每時每刻都在記錄着豐富的用戶行爲信息,海量的數據促進了雲計算,分(fēn)布式技術的發展,而這些技術反過來不僅推動了Web和移動互聯網的革新,也推動了物(wù)聯網的飛速前進。現在,我(wǒ)們正逐漸邁入物(wù)聯網時代,實現萬物(wù)互聯的願景,如果說之前人是信息生(shēng)産的主體(tǐ),那麽或許不久的将來設備将成爲主角,它們将 源源不斷地産生(shēng)與人相關的衣食住行信息,這些信息會通過雲計算、數據挖掘等技術實現價值的升華從而爲用戶提供更優質、貼心的服務。那麽物(wù)聯網時代會産生(shēng)什 麽樣的數據,應該采用什麽樣的大(dà)數據策略呢?
THINKstrategies的總經理Jeff Kaplan在自己的博文《當物(wù)聯網遇見大(dà)數據》中(zhōng)寫道:“你不能使用現在的策略,因爲可以被捕獲、管理并利用的數據将更加多樣化,同時用例也會更加豐富。附加到各種設備和對象上的傳感器會産生(shēng)各種類型的數據。這些數據将會用于各種響應式的、主動的或者創造性的目的。IT部門的任務就是與業務部門一(yī)起工(gōng)作,完全理解物(wù)聯網方面的用例,然後尋找滿足業務需求的技術。特别是,IT部門必須識别出最優的分(fēn)析平台和工(gōng)具,讓業務用戶能夠獲取到需要的數據,分(fēn)析數據的含義并快速地做出響應。”
Gartner公司的副總裁、著名分(fēn)析師Joe Skorupa認爲:“分(fēn)布在世界各地的物(wù)聯網設備将産生(shēng)大(dà)量的輸入數據,将所有的數據傳送到一(yī)個位置進行處理無論從技術上還是從經濟上都是無法實現的。最近的趨勢—— 将應用程序集中(zhōng)起來以便于降低成本并增強安全性——并不适合物(wù)聯網。組織必須将數據集中(zhōng)到多個分(fēn)布式的小(xiǎo)型數據中(zhōng)心中(zhōng),在此對數據進行初步的處理并發送到 一(yī)個中(zhōng)心站點進行額外(wài)的處理。數據中(zhōng)心管理員(yuán)需要在這些區域部署更加具有前瞻性的容量以滿足業務發展的需要。”
Patrick McFadin則在自己的博文《物(wù)聯網:數據都去(qù)了哪裏?》中(zhōng)闡述了一(yī)個具體(tǐ)的數據策略解決方案。他認爲整個過程可以分(fēn)爲三個階段:産生(shēng)數據并通過Internet傳遞、中(zhōng)央系統收集并組織數據、持續的數據分(fēn)析與使用。
第一(yī)階段需要決定數據創建的标準以及如何通過網絡進行傳遞。Patrick McFadin認爲可以通過HTTP、MQTT和CoAP三種常用的标準協議傳遞數據。HTTP通用程度高,但是它的頭中(zhōng)包含大(dà)量冗餘信息,不太适合帶寬 比較低的場景。MQTT基于發布/訂閱模型,新的設備或者服務能夠非常容易地連到中(zhōng)央系統上消費(fèi)消息。另外(wài),它在消息大(dà)小(xiǎo)上比HTTP更輕量,但是缺點是 不包含加密标準。CoAP适合于低功耗、低帶寬的場景,與MQTT的訂閱模式相比它更側重于一(yī)對一(yī)的連接。
第二階段則需要根據設備、網絡以及功耗的限制決定是實時地收集數據還是在某個時間批量收集,同時還需要決定如何存儲數據。如果是實時收集,那麽必須要考慮數據庫的寫入速度,這對于傳統的數據庫而言可能是一(yī)個挑戰,但是像Cassandra這樣的NoSQL數據庫卻能夠輕松應對。
一(yī)旦完成了數據的收集與存儲,接下(xià)來就是分(fēn)析了,這才是整個過程最核心的部分(fēn)。此時需要考慮需要何時使用分(fēn)析結果,是否需要立即或近乎實時 的分(fēn)析,還是僅僅需要對曆史數據進行處理。越來越多的人在使用Apache Spark分(fēn)析大(dà)數據,使用Spark Streaming滿足近乎實時的要求,如果将這些技術與Cassandra這樣的NoSQL數據庫結合在一(yī)起使用,那麽開(kāi)發者就能夠處理并分(fēn)析大(dà)規模、 快速移動的數據集。
那麽是不是所有的物(wù)聯網廠商(shāng)都需要自己去(qù)構建相關的數據解決方案呢?也不盡然,在雲計算的時代大(dà)可以利用雲服務提供商(shāng)的資(zī)源,以降低相關的成本,對小(xiǎo)公司或初創公司更是如此。Mike Kavis最近在自己的博文《物(wù)聯網将徹底改變你的大(dà)數據策略》中(zhōng)闡述了自己的方案,他認爲:“在物(wù)聯網時代,面對PB級的數據,企業将難以以一(yī)己之力完成基礎設施的建設。物(wù)聯網所産生(shēng)的大(dà)量數據不僅會驅動現在的數據中(zhōng)心發生(shēng)根本性的變化, 同時也會驅動相關企業采用新的大(dà)數據策略。由于缺乏相關技能以及持續增長的數據對基礎設施采購的需求,企業将逐步放(fàng)棄DIY模式,轉而使用PaaS和托管 的解決方案,借助于數據庫即服務(例如Amazon的Redshift、Hortonworks和Cloudera的企業級Hadoop)、托管的大(dà)數據 服務(例如Treasure Data)以及矩陣式的數據中(zhōng)心服務(例如GoGrid)實現自己的物(wù)聯網數據分(fēn)析方案。
總之,物(wù)聯網的價值在于數據。企業對數據的分(fēn)析工(gōng)作啓動地越快,挖掘出的業務價值就越多。而雲服務提供商(shāng)的目的就是通過加大(dà)相關的投入,消除數據收集、管理的風險以及複雜(zá)性,讓客戶能夠專注于分(fēn)析。”