大數(shù)據(jù)(big data),是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
隨著云時(shí)代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。
實(shí)際案例:
電器月活躍度統(tǒng)計(jì)報(bào)表,消息隊(duì)列
技術(shù)方案: kafka (阿里服務(wù)) +HBase(阿里服務(wù))+ X-pack spark + postgre
開發(fā)內(nèi)容:
大數(shù)據(jù)服務(wù)器技術(shù)調(diào)查及方案選定
消息隊(duì)列調(diào)查及方案選定
大數(shù)據(jù)平臺測試環(huán)境搭建,kafka測試環(huán)境搭建
業(yè)務(wù)代碼實(shí)裝
生產(chǎn)環(huán)境搭建,大數(shù)據(jù)平臺以及kafka消息隊(duì)列壓力測試