構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)？

本文內(nèi)容主要梳理了“大數(shù)據(jù)生態(tài)構(gòu)建”廠商共建專場的重點(diǎn)內(nèi)容，絕對的飽滿干貨。

參與大數(shù)據(jù)技術(shù)實(shí)踐分享的廠商有：通聯(lián)數(shù)據(jù)、明略數(shù)據(jù)、FreeWheel、七牛云、百度開放云、易觀和鏈家網(wǎng)。演講話題點(diǎn)包含機(jī)器學(xué)習(xí)、數(shù)據(jù)存儲(chǔ)、用戶畫像、數(shù)據(jù)查詢、數(shù)據(jù)遷移和數(shù)據(jù)分析等關(guān)鍵技術(shù)點(diǎn)，完整的詮釋了構(gòu)建大數(shù)據(jù)生態(tài)必備的技能和構(gòu)建生態(tài)最終的目的。具體內(nèi)容往下看!

機(jī)器學(xué)習(xí) & 金融投資

作為金融投資領(lǐng)域的實(shí)踐者，通聯(lián)數(shù)據(jù)在投研管理業(yè)務(wù)場景中有較多的經(jīng)驗(yàn)可以分享，尤其是在信息搜集、分析判斷、投資決策和后續(xù)跟蹤方面，將大數(shù)據(jù)吸收并用于投資活動(dòng)的“小數(shù)據(jù)”。

而完成這一系列動(dòng)作就需要一個(gè)分析能力特別強(qiáng)的平臺(tái)，平臺(tái)架構(gòu)底層聚合多行業(yè)的數(shù)據(jù)，包括財(cái)務(wù)數(shù)據(jù)和社交數(shù)據(jù)等等，但是我們更為關(guān)注的是這個(gè)投研平臺(tái)的機(jī)器學(xué)習(xí)技術(shù)框架，因?yàn)檫@樣一個(gè)框架基本上展現(xiàn)出了其技術(shù)的組成部分和核心技術(shù)點(diǎn)。(如下圖)

放大圖片

圖1 機(jī)器學(xué)習(xí)技術(shù)框架

從圖上可以簡單的看出，平臺(tái)底層有海量的數(shù)據(jù)不斷積累、不斷增長，包括宏觀數(shù)據(jù)、行業(yè)的數(shù)據(jù)、場合數(shù)據(jù)，官方數(shù)據(jù)，也包括各種通過爬蟲爬來的各種數(shù)據(jù)。接下來會(huì)通過數(shù)據(jù)生產(chǎn)、數(shù)據(jù)清洗、數(shù)據(jù)上線等過程，將這些表面上看似沒什么關(guān)聯(lián)的數(shù)據(jù)通過自然語言處理和算法建立起一個(gè)知識(shí)圖譜和關(guān)系。通過設(shè)定某些規(guī)則來檢測不斷流動(dòng)的數(shù)據(jù)流或者文本流信息，關(guān)注不斷出現(xiàn)的事件，對帶有關(guān)鍵詞或帶監(jiān)控的主題進(jìn)行監(jiān)控，可以實(shí)時(shí)監(jiān)控大事件。通過包括神經(jīng)網(wǎng)絡(luò)在內(nèi)的算法方式，對數(shù)據(jù)進(jìn)行建模和歸類，把大量的信息進(jìn)行過濾，過濾成有用的“小數(shù)據(jù)”。

除此之外，蔡弘博士還提到了通過機(jī)器學(xué)習(xí)向用戶推薦準(zhǔn)確的新聞資訊;通過智能搜索，對關(guān)鍵詞的分詞、同義詞、精密度和重要度進(jìn)行數(shù)據(jù)清洗和建模，完成用戶的精準(zhǔn)信息搜索需求。

社會(huì)化數(shù)據(jù) & 混合存儲(chǔ)

在講到社會(huì)化數(shù)據(jù)這一塊內(nèi)容的時(shí)候，來自明略數(shù)據(jù)的任鑫琦解釋說，社會(huì)化數(shù)據(jù)的特點(diǎn)就是：收集更困難，質(zhì)量難保證，數(shù)據(jù)非結(jié)構(gòu)化，數(shù)據(jù)處理性能差。所以說，要把這樣的社會(huì)化數(shù)據(jù)存儲(chǔ)起來是有難度的。接下來看看社會(huì)化關(guān)系網(wǎng)絡(luò)的存儲(chǔ)架構(gòu)，基于Hadoop分析框架和流式計(jì)算框架形成一整套數(shù)據(jù)處理框架，主要用于數(shù)據(jù)查詢。

放大圖片

圖2 社會(huì)化關(guān)系網(wǎng)絡(luò)的存儲(chǔ)架構(gòu)

查詢完數(shù)據(jù)該如何存儲(chǔ)下來呢?當(dāng)然是用混合存儲(chǔ)體系，(如上圖)這個(gè)存儲(chǔ)實(shí)現(xiàn)框架的底層都是基于一些開源的技術(shù)，最底層是基于HDFS，數(shù)據(jù)庫存儲(chǔ)用的是HBase，數(shù)據(jù)倉庫用的是Hive，圖形數(shù)據(jù)庫用的是開源的Titan。之所以用開源的Titan，原因在于其索引分析系統(tǒng)是Elastic Search，除了需要較多的業(yè)務(wù)應(yīng)用之外，還有一些批量或者是離線、在線任務(wù)的計(jì)算，還要提供上層應(yīng)用的服務(wù)層，能提供整體的一個(gè)接口。

此外，任老師還講了一些他所遇到的坑，包括邊爆炸問題，Super Node問題，多點(diǎn)查詢效率，索引性能和靈活度，導(dǎo)入數(shù)據(jù)性能等問題。

用戶畫像 & 標(biāo)注噪聲處理

說起用戶畫像，這是計(jì)算廣告領(lǐng)域一個(gè)非常經(jīng)典的問題。FreeWheel的童有軍老師在開講時(shí)介紹了用戶畫像在廣告投放平臺(tái)的重要地位。廣告的受眾定向和測量都會(huì)涉及到用戶畫像的相關(guān)工作。而受眾定向則是根據(jù)用戶畫像生成的用戶興趣細(xì)分標(biāo)簽對廣告進(jìn)行精準(zhǔn)定向。

但是童老師也說到，在用戶畫像上，缺乏質(zhì)量較高的標(biāo)注來源，而FreeWheel選擇了一種基于貝葉斯的方法來近似的標(biāo)注用戶。這種方法的基本思路就是通過用戶觀看過的視頻在各個(gè)分類上的分布來推測這個(gè)用戶的類別。對標(biāo)注集合的噪聲處理方法主要是Boosting方法、Bagging方法和半監(jiān)督方法。

Bagging方法中又分別嘗試了CV方法和有放回的Bagging方法。

放大圖片

圖3 用戶畫像與噪聲處理

最后，童老師也介紹了用戶畫像和標(biāo)注噪聲的系統(tǒng)架構(gòu)，(如上圖)從HDFS開始，到MR，SPARK，然后同時(shí)做特征工程，和貝葉斯算法。將算出后的數(shù)據(jù)，dump到server上，做Lable Noise，然后把數(shù)據(jù)插入到Aerospike中，用來做測試和使用。

百度 & 即席查詢

在大數(shù)據(jù)即席查詢技術(shù)的演講中，百度大數(shù)據(jù)架構(gòu)師孫垚光分別講了BigSQL的定位和特點(diǎn)，BigSQL的架構(gòu)和關(guān)鍵技術(shù)、以及在百度內(nèi)部應(yīng)用的案例。

首先BigSQL的定位是一個(gè)即席查詢服務(wù)平臺(tái)，是PaaS形態(tài)的產(chǎn)品，它的特點(diǎn)是支持半結(jié)構(gòu)化數(shù)據(jù)格式，使用多樣化接口，兼容開源SparkSQL/HQL語法集，同時(shí)還有靈活的權(quán)限管理，支持不同用戶之間共享、協(xié)同工作。

下圖是BigSQL的整體架構(gòu)圖，分成接入層和引擎層兩部分，最上面是用戶可以接觸到的各種API，中間是提供RestAPI的server，還有負(fù)責(zé)session管理和調(diào)度的master，監(jiān)控job運(yùn)行的worker等，下面是真正的計(jì)算引擎和存儲(chǔ)引擎。

放大圖片

圖4 BigSQL整體架構(gòu)圖

接下來簡單說一下BigSQL的關(guān)鍵技術(shù)：高性能Shuffle。關(guān)鍵技術(shù)：高性能Shuffle。(如下圖)

放大圖片

圖5 高性能Shuffle

將基于磁盤的pull模式，改變成基于內(nèi)存的push模式，因?yàn)楹芏鄰?fù)雜的項(xiàng)目對工程質(zhì)量要求很高，所以這個(gè)改變并不容易。它的好處就是數(shù)據(jù)在map端全內(nèi)存，到一個(gè)專用的Shuffle模塊上去聚合，聚合多個(gè)map的Shuffle模塊，產(chǎn)出的數(shù)據(jù)極大減少了磁盤IO和隨機(jī)讀，并且對于只需要分組不需要排序的Query，甚至可以做到流式處理，提高了時(shí)效性。

在最后的BigSQL后續(xù)規(guī)劃上，孫老師說到，在性能方面還會(huì)持續(xù)提升，包括存儲(chǔ)、計(jì)算、Query翻譯優(yōu)化等各個(gè)層面的工作，比如更智能/細(xì)粒度的數(shù)據(jù)緩存層，數(shù)據(jù)的實(shí)時(shí)更新，向量執(zhí)行，有效的提高CPU cache命中率，還有利用一些統(tǒng)計(jì)信息做cost based Optimizer等等。

大數(shù)據(jù)分析技術(shù) & 房產(chǎn)領(lǐng)域

最后的一場演講是來自房產(chǎn)領(lǐng)域的鏈家網(wǎng)，其大數(shù)據(jù)架構(gòu)師蔡白銀為大家分享了鏈家網(wǎng)是如何使用分析技術(shù)來價(jià)值最大化海量用戶數(shù)據(jù)的。蔡白銀在開頭就講到了，現(xiàn)在房產(chǎn)O2O領(lǐng)域存在很多痛點(diǎn)，包括精準(zhǔn)數(shù)據(jù)收集以及辨別虛假信息等方面。

那么鏈家網(wǎng)是怎么解決這些痛點(diǎn)的呢？結(jié)合(下圖)大數(shù)據(jù)方面的技術(shù)架構(gòu)圖一起來看一下。

放大圖片

圖6 鏈家網(wǎng)大數(shù)據(jù)技術(shù)架構(gòu)

從下往上看，其黃色部分是數(shù)據(jù)采集層，HDFS是鏈家網(wǎng)內(nèi)部業(yè)務(wù)數(shù)據(jù)存儲(chǔ)層，采集到的數(shù)據(jù)通過ETL傳輸?shù)紿DFS。同樣日志流經(jīng)過Kafka進(jìn)入HDFS，基于Yam提供計(jì)算的服務(wù)，計(jì)算完之后放入Hive進(jìn)行分析，分析結(jié)果再存儲(chǔ)到Hbase，供其他業(yè)務(wù)方獲取。最上面的一層是應(yīng)用挖掘?qū)�，鏈家網(wǎng)目前基于這些數(shù)據(jù)做了比如市場解讀報(bào)告，后續(xù)的市場情況，客源解讀等方面的服務(wù)提供。

在應(yīng)用挖掘?qū)�，蔡老師挑出兩個(gè)案例做了進(jìn)一步解釋。用戶畫像應(yīng)用主要是對用戶畫像進(jìn)行選型，HBase和Spark是整個(gè)選型過程中最關(guān)鍵的技術(shù)。放入Elastic Search的熱數(shù)據(jù)會(huì)被放入磁盤，HBase可以存儲(chǔ)線上所有用戶數(shù)據(jù)。在技術(shù)選型上，從左到右基于Hive、HDFS，到了Spark，將數(shù)據(jù)處理完之后會(huì)把結(jié)果批量放到Elastic Search。另外，通過Kafka傳過來的日志流在進(jìn)入到Spark之后會(huì)建立索引，這些索引會(huì)全量放入Elastic Search，數(shù)據(jù)最終會(huì)放在HBase。但是為了應(yīng)對與日劇增的龐大日志量，會(huì)把熱數(shù)據(jù)放在Elastic Search，將冷數(shù)據(jù)移出。

說在最后

大數(shù)據(jù)之所以能引領(lǐng)一場革命，原因并不在于“大”，而在于“有用”，它能夠?qū)?shù)據(jù)與現(xiàn)實(shí)社會(huì)有機(jī)融合，能真正意義上產(chǎn)生對社會(huì)有價(jià)值的變革。這也正應(yīng)了業(yè)界流傳的那句話：三分技術(shù)，七分?jǐn)?shù)據(jù)，得數(shù)據(jù)者得天下。大數(shù)據(jù)公司在爭搶數(shù)據(jù)源的同時(shí)，對數(shù)據(jù)處理的技術(shù)也在不斷的升級和多功能化。

從全天的演講內(nèi)容來看，幾乎涵蓋了所有對大數(shù)據(jù)生態(tài)構(gòu)建起作用的關(guān)鍵技術(shù)，以技術(shù)加實(shí)踐經(jīng)驗(yàn)的方式來輸出技術(shù)干貨，確實(shí)是一件對大數(shù)據(jù)技術(shù)交流有幫助的事情，整體的將數(shù)據(jù)分布式處理技術(shù)、存儲(chǔ)技術(shù)、感知技術(shù)、數(shù)據(jù)挖掘等技術(shù)統(tǒng)一到一起，建設(shè)良性增益的大數(shù)據(jù)閉環(huán)生態(tài)，也是所有開發(fā)者或架構(gòu)師等技術(shù)人員所關(guān)心的問題。

文章熱詞：大數(shù)據(jù)管理專題； ·大數(shù)據(jù) ·云生態(tài)

作者：不詳；上傳用戶：minghao；上傳時(shí)間：2016-5-9；來源：raincent

構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)？

構(gòu)建大數(shù)據(jù)生態(tài)需要哪些核心技術(shù)？