在傳統(tǒng)的數(shù)據(jù)處理流程中,總是先收集數(shù)據(jù),然后將數(shù)據(jù)放到DB中。當(dāng)人們需要的時(shí)候通過DB對(duì)數(shù)據(jù)做query,得到答案或進(jìn)行相關(guān)的處理。這樣看起來雖然非常合理,但是結(jié)果卻非常的緊湊,尤其是在一些實(shí)時(shí)搜索應(yīng)用環(huán)境中的某些具體問題,類似于MapReduce方式的離線處理并不能很好地解決問題。這就引出了一種新的數(shù)據(jù)計(jì)算結(jié)構(gòu)---流計(jì)算方式。它可以很好地對(duì)大規(guī)模流動(dòng)數(shù)據(jù)在不斷變化的運(yùn)動(dòng)過程中實(shí)時(shí)地進(jìn)行分析,捕捉到可能有用的信息,并把結(jié)果發(fā)送到下一計(jì)算節(jié)點(diǎn)。本書講解流計(jì)算原理。
如今,流式數(shù)據(jù)是大數(shù)據(jù)中的一個(gè)大問題。 隨著越來越多的企業(yè)試圖掌控遍布全球的無限海量數(shù)據(jù)集,流式系統(tǒng)終于到了足以被主流接納的成熟度。通過這本實(shí)用指南,數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和開發(fā)人員將學(xué)習(xí)到如何以概念化和無關(guān)于平臺(tái)的方式處理流式數(shù)據(jù)。基于對(duì)Tyler Akidau的熱門博文《Streaming 101》和《Streaming 102》的拓展,本書將帶你從入門到細(xì)致入微地理解實(shí)時(shí)數(shù)據(jù)流處理的what、where、when和how。你還將與合著者Slava Chernyak和Reuven Lax一起深入了解水印和exactly-once處理。
你將學(xué)習(xí)到:如何比較流式和批量數(shù)據(jù)處理模式健全的亂序數(shù)據(jù)處理背后的核心原理和概念水印如何在無限數(shù)據(jù)集中跟蹤進(jìn)度和完整性exactly-once數(shù)據(jù)處理技術(shù)如何確保正確性流和表的概念如何構(gòu)成批量和流式數(shù)據(jù)處理的基礎(chǔ)用現(xiàn)實(shí)世界的例子演示強(qiáng)大的持久狀態(tài)機(jī)制背后的實(shí)用動(dòng)機(jī)時(shí)變關(guān)系(time-varying relations)如何將流處理和熟悉的SQL及關(guān)系代數(shù)世界聯(lián)系起來
Tyler Akidau是Google的高級(jí)軟件工程師,擔(dān)任著Data Processing Languages & Systems小組技術(shù)負(fù)責(zé)人的職務(wù)。他也是Apache Beam PMC的創(chuàng)始成員。
Slava Chernyak是Google的高級(jí)軟件工程師。他花了六年時(shí)間研究Google內(nèi)部的大規(guī)模流式數(shù)據(jù)處理系統(tǒng)。
Reuven Lax是Google的高級(jí)軟件工程師,在過去十年間一直在幫助制定Google的數(shù)據(jù)處理和分析策略,同時(shí)他也是Apache Beam PMC的成員。