亚洲美女激情在线播放_亚洲七久久之综合七久久_久久综 ,亚洲成av人片在线观看天堂无,亚洲毛片视频一级,77

首頁

物聯(lián)資訊

低代碼數據平臺BI大屏定制文章

大數據處理系統(tǒng)架構簡介

作者：網友投稿

閱讀數：313

更新時間：2024-02-23 20:34:50

div class="richTextContainer">

大數據技術已經逐步應用到大小各類企業(yè)和組織，那么大數據處理系統(tǒng)架構是怎樣的，大數據技術的完整系統(tǒng)架構是怎么樣的？本篇文章，我們介紹下企業(yè)大數據處理平臺的架構

一、整體框架

數據產生 ——> 數據傳輸 ——> 數據存儲，去到不同的場景(業(yè)務數據、實時數據、離線數據) ——> 進行數據分析。

二、數據產生

通過數據埋點SDK(可以理解為一個能夠捕獲用戶數據的工具，可以是公司自研，也可以向專門的公司進行購買)，研發(fā)開發(fā)對應程序，將用戶產生的各種行為記錄下來，并上報上來。這里可以研究的部分很多。比如上報邏輯，上傳是網絡環(huán)境是否會有問題。一些臟數據可能會在此產生。

三、數據傳輸

http協(xié)議到達服務器

四、數據存儲過程

tips:大部分你看到的大數據組件都是在這塊產生的。

數據通過網絡協(xié)議傳輸到對應的網關，寫入對應數據庫。

1. 什么是databus。

在大數據系統(tǒng)架構中，數據系統(tǒng)通常分為兩種類型，一種是真實數據系統(tǒng)，作為基礎數據庫，存儲用戶產生的寫操作；第二種是衍生數據庫或索引，提供讀取和其他復雜查詢操作。后者通常衍生自主數據存儲，會對其中的數據做轉換，有時還要包括復雜的業(yè)務邏輯處理（數據分析師用sql干這活，你懂的）。衍生數據庫(或緩存)也來自主數據存儲，當主數據存儲發(fā)生變化，衍生數據庫（或緩存）中的數據就需要刷新，或是轉為無效。

這樣架構自然而然的一個問題就是如何保障基礎數據庫和其它數據存儲方的數據一致性。一個想法是雙寫，在有數據進來的時候就同時更新基礎數據庫和衍生數據庫(或緩存),但這種方式如果沒有很強的協(xié)議來保證，就還是會有一致性問題，比如說主數據庫寫入成功但是衍生數據庫(或緩存)寫入失敗。另外的一個方案就是只寫基礎數據庫，其它衍生數據庫(緩存)通過監(jiān)聽基礎數據庫的變化來進行數據變更，這個方案要求能有一個工具能監(jiān)聽基礎數據庫的變更并且能夠及時的通知衍生數據庫(緩存)具體的變化，而Databus就是這樣的一個系統(tǒng)。

Databus是一個實時的低延時數據抓取系統(tǒng)。它將數據庫作為唯一真實數據來源，并將變更從事務或提交日志中提取出來，然后通知相關的衍生數據庫或緩存。

Databus傳輸層端到端的延遲是微秒級別的，這意味著每臺服務器每秒可以處理數千次數據吞吐變更事件,同時還支持無限回溯能力和豐富的變更訂閱功能，目前從實踐中來看，單個DB寫入QPS達到1.5k就要進行拆庫，而到達2k就會出現比較明顯的主從延遲，而relay雖然要串行解析單個庫的binlog，但是也可以扛到2.2k。下面的圖是大概的結構：

上圖展示Search Index、Read Replicas系統(tǒng)是Databus的消費者。當Primary DB發(fā)生數據變更的時候，連接其上的中繼系統(tǒng)會將數據拉取到中繼上去。嵌入在Search Index或緩存中的Databus消費者客戶端就會從中繼拉取數據并更新緩存或數據庫。

DataBus提供以下功能：

來源獨立：Databus提供多種數據來源的變更抓取，包括mysql和oracle。oracle的適配器在開源版本中有提供，mysql的將在后面提供。
可擴展和高度可用：Databus能擴展到支持數千消費者和事務數據來源，并保持高度可用性。
事務按序提交：Databus能保持來源數據庫中的事務完整性，并按照事務分組和來源的提交順尋交付變更事件。
低延遲、支持多種訂閱機制：數據源變更完成后，Databus能在微秒級內將事務提交給消費者。同時，消費者使用Databus中的服務器端過濾功能，可以只獲取自己需要的特定數據。
無限回溯：這是Databus最具創(chuàng)新性的組件之一，對消費者支持無限回溯能力。當消費者需要產生數據的完整拷貝時（比如新的搜索索引），它不會對主OLTP數據庫產生任何額外負擔，就可以達成目的。當消費者的數據大大落后于來源數據庫時，也可以使用該功能。

Databus系統(tǒng)可對接多種數據源和數據目的地，將數據源的日志同步到數據目的地。常用的數據源有：Kafka、本地文件、ScribeClient等，常用的數據目的地有：Kafka、HDFS等。

2.什么是kafka？

Kafka可以理解為一個消息隊列，用來緩存數據，以供其他訂閱過數據的消費者拿取數據。

在大數據體系中，數據最終會流向多個不同的地方，一般分為離線數據和實時數據兩種類型，可以是es、flink、hive等地方。（后面會一一介紹這些）

要了解kafka是如何將數據給到下游的消費者，我們需要先了解四個概念。

Topic

Kafka將消息分門別類，每一類的消息稱之為一個主題（Topic）、通常會按照公司內部的業(yè)務來分。

Producer

發(fā)布消息的對象稱之為主題生產者（Kafka topic producer），也就是上游數據的來源，例如databus、flume(日志采集組件)或者其他數據庫等等

Consumer

訂閱消息并處理發(fā)布的消息的對象稱之為主題消費者（consumers），下游數據消費者，可以是es、flink、hive等等。

Broker

已發(fā)布的消息保存在一組服務器中，稱之為Kafka集群。集群中的每一個服務器都是一個代理（Broker）。消費者可以訂閱一個或多個主題（topic），并從Broker拉數據，從而消費這些已發(fā)布的消息。

主題和日志（Topic和Log）

讓我們更深入的了解Kafka中的Topic。

Topic是發(fā)布的消息的類別名，一個topic可以有零個，一個或多個消費者訂閱該主題的消息。

對于每個topic，Kafka集群都會維護一個分區(qū)log，就像下圖中所示：

每一個分區(qū)都是一個順序的、不可變的消息隊列，并且可以持續(xù)的添加。分區(qū)中的消息都被分了一個序列號，稱之為偏移量(offset)，在每個分區(qū)中此偏移量都是唯一的。

Kafka集群保持所有的消息，直到它們過期（無論消息是否被消費）。實際上消費者所持有的僅有的元數據就是這個offset（偏移量），也就是說offset由消費者來控制：正常情況當消費者消費消息的時候，偏移量也線性的的增加。但是實際偏移量由消費者控制，消費者可以將偏移量重置為更早的位置，重新讀取消息?？梢钥吹竭@種設計對消費者來說操作自如，一個消費者的操作不會影響其它消費者對此log的處理。

再說說分區(qū)。Kafka中采用分區(qū)的設計有幾個目的。一是可以處理更多的消息，不受單臺服務器的限制。Topic擁有多個分區(qū)意味著它可以不受限的處理更多的數據。第二，分區(qū)可以作為并行處理的單元。

3.什么是hadoop，hadoop和常常聽說的hive和spark又有什么關系？

上面說到數據通過kafka分發(fā)到不同的消費者，其中消費者可以是hive，那hive是什么呢？理解hive前要知道hadoop是什么。

Hadoop是一個大數據框架系統(tǒng)，hadoop的核心功能只有兩個，存儲數據和計算數據。

存儲數據，采用HDFS系統(tǒng)，即分布式文件系統(tǒng)，簡單的理解成，在不同的機器上使用文件存儲數據，能夠解決多臺機器上協(xié)調讀和寫的功能。

計算數據，采用MapReduce，即分布式計算架構，簡單的理解成，解決當數據存儲在不同機器上時，怎么能夠把復雜數據計算邏輯算出來。

Hadoop使用的是java語言，因此如果需要進行數據計算，需要使用java來寫算子，但是這樣的門檻非常高，因此發(fā)明了新的方法，也就是hive，hive是基于Hadoop的一個數據倉庫工具，將結構化的數據文件映射為一張表，并提供類SQL查詢功能。能夠讓大部分人使用sql來查詢數據，降低了使用hadoop的門檻。也是數據倉庫的雛形。

Spark可以理解成MapReduce的2.0升級版，比MapReduce計算更快，因此很多公司也開始逐步使用spark來計算數據。

數據分析師，在hive上使用sql進行清洗和取數，并產生出報表，進行數據分析。

最后，本文簡要介紹了大數據系統(tǒng)架構。速優(yōu)云低代碼平臺提供原生數據治理、數據可視化分析、數據大屏創(chuàng)建等功能，并提供集成多云通用大數據架構解決方案，如有需要，歡迎聯(lián)系。

發(fā)表評論

評論列表

暫時沒有評論，有什么想聊的？

低代碼數據平臺BI大屏定制

釋放數據潛能，智慧展現新高度。定制低代碼數據平臺，打造個性化BI大屏，助您實現數據驅動決策。

會Excel就能開發(fā)軟件

用全域低代碼平臺，可視化拖拉拽/導入Excel，就可以開發(fā)小程序、管理系統(tǒng)、物聯(lián)網、ERP、CRM等應用

不卡诱惑av黄色电影_久久综合久久鬼色_国内午夜国产精品小视频_最新手机日韩AV每天更新亚洲午夜国产精品三级片,日韩一区福利午夜美利坚,久久久精品午夜国产免费,日韩午夜av理论

大數據處理系統(tǒng)架構簡介

一、整體框架

二、數據產生

三、數據傳輸