pos機系統的概念數據模型

 新聞資訊2  |   2023-08-09 10:19  |  投稿人:pos機之家

網上有很多關于pos機系統的概念數據模型,數據倉庫的前世今生的知識,也有很多人為大家解答關于pos機系統的概念數據模型的問題,今天pos機之家(www.bangarufamily.com)為大家整理了關于這方面的知識,讓我們一起來看下吧!

本文目錄一覽:

1、pos機系統的概念數據模型

pos機系統的概念數據模型

數據倉庫的內容非常多,每一個子模塊拎出來都能講很久。這里沒法講太多細節,大致思考了三個備選議題:

數據倉庫的前世今生數據倉庫體系知識介紹數倉開發者的路在何方?

既然是第一次分享,感覺還是跟大家普及下數倉的歷史比較好,最終選了今天的這個話題,主要是給大家做個科普。

“前世今生”,拆解下來,我會從起源、發展、變化、展望四部分來給大家做個介紹。

數倉的起源,主要介紹下數據倉庫概念誕生的大背景、大環境,數倉解決了實際場景中的什么問題,以及數倉的定義。

數倉的發展,我們主要介紹下數據倉庫在我們國內的發展歷程、在主要行業內的應用、我自己經歷過的一些場景,以及當時產生的跟數據倉庫相關的幾個概念。

數倉的變化,隨著大數據時代的到來,人們對數據資產更加重視,數據賦能業務能做的事情其實是更多了。那么傳統數倉向大數據倉庫的演變,對數倉人的基礎能力要求有哪些變化呢?我會在第三部分給大家做個介紹。

目前為止,我們大致處在大數據倉庫的階段,并且已經有很多人在不斷的做著新的嘗試,第四部分我會基于我所看到的,跟大家共同探討下數倉未來的演進方向。

做為科技進步的受益者,大家知道第一臺計算機是什么時候發明的嗎?

1946 年 2 月 14 日,誕生于美國的賓夕法尼亞大學。這臺計算機重達 30 噸,占地 160 平方米,耗電174 千瓦,耗資 45 萬美元,但每秒只能運行 5000 次加法運算。

第一代商用計算機,是 1951 年由雷明頓蘭德公司(現 Unisys )發售的,當時被美國人口普查部門用于人口普查。

但是當時的計算機太過笨重,成本高昂,且硬件損耗極大,比如里邊的發光管,沒幾分鐘就要燒壞一個。所以 1960 年,開發出來了第一款小型機,后續隨著技術進步單臺價格急劇下降,但性能卻急劇上升。當年PC 機的升級速度——壓根用不著像現在一樣,通過軟件降級舊手機的頻逼你升級,當時電腦各方面參數都是每 18 個月翻一番;或者說,每三年,新出的機器每個方面都是你的舊機器性能的 4 倍,六年 16 倍。當然,最近幾年更新換代速度已經開始降下來了。

講到這里了,那么有沒有人想過這樣一個問題:什么是信息化?

百度百科的解釋:

信息化是指培養、發展以計算機為主的智能化工具為代表的新生產力,并使之造福于社會的歷史過程。

通俗點講,就是以計算機網絡為依托,將線下的各種依賴人力腦力的業務流程,使用軟件工具實現,達到大幅度提高效率、節省人工的目的。

隨著計算機科學的快速發展,使信息化的落地逐漸成為可能。

一條線是數據庫技術的誕生發展與逐漸成熟。另一條線是各種 ERP、CRM、辦公自動化、財務系統、供應鏈等軟件解決方案的完善推廣,數據庫技術發展和各種軟件產品推動,共同促使信息化進程不斷的深入。

數據庫技術,經過幾年的三大數據模型(層次模型、網狀模型、關系模型)角逐后,隨著 SQL 語言的誕生使關系模型最終勝出,最終誕生了強大的 DB2、Oracle、SQLServer 等關系型數據庫。。

這里簡單提一下,IBM 最早的層次模型數據 IMS,全稱是信息管理系統(Information Management System),所以數據庫的誕生就是為了更方便的管理使用信息的 。

另外,說到信息化的普及,各種相關軟件供應商也功不可沒。SAP 當然還是世界第一的位置,當時的世界五百強公司 80% 都使用了他們的 ERP,也就是企業資源管理產品,Oracle 當時很牛吧,他們一開始自研但好像不怎么樣,最終還是買了 SAP 的產品。

SAP 直到 1994 年才引進中國,首先做的是自身產品的翻譯工作,后來跟埃森哲、IBM 等咨詢公司合作,快速打開了國內市場,同時也推進了國內的信息化進程。相關國內廠商起步稍晚,直到現在市場份額也小到可以忽略不計,08 年的統計 SAP 和 Oracle 都是百億級年收入,用友是一兩億吧好像是。

那時候國內的有才華的人也都更傾向于進外企,沒辦法那時候人家確實強、福利待遇也很好。

那時候的設備也基本上清一色進口:IBM 的小型機、Oracle/IBM/TD 的數據庫、EMC 的存儲設備。

信息化開展過程中,各種軟件工具存儲下來的數據,真實反應了業務開展過程中的各種信息,雖然會存在一些噪音或者缺失,人們還是開始嘗試從留存數據中尋找各種有用信息,用來了解業務現狀、分析潛在問題與機會、預測未來發展路徑等等。

了解現狀。主要是通過各種運營分析報表以及對應的圖標展示,報表主要是各種維度下的日周月季年匯總,圖標主要是占比分析、同比環比分析等。

輔助決策。經典案例就是“啤酒尿布的故事”。上世紀 90 年代(大概 1993-1995 年之間吧),沃爾瑪嘗試將 Aprior 算法引入到 POS 機數據分析中(實際上是一種商品的關聯分析算法),當時發現跟尿布一起購買最多的商品竟然是啤酒,最后經過進一步市場調研發現,美國的太太們經常叮囑她們的丈夫下班后為小孩買尿布,而丈夫在買完尿布后又隨手帶回了他們喜歡的啤酒。后來,沃爾瑪把尿布與啤酒放到相鄰的貨架上從而實現了啤酒與尿布銷量的雙雙增長。

預測未來。通過對現有數據的分析挖掘,有時候是可以預測出通過改變某個變量后對結果的影響的。比如通過對商品價格的調整,會引起銷量的變化,最終通過合理的定價達到利潤或銷售額最大化的目的。這上邊我還列了一個我剛畢業時候做過的一個案例:廢水經過污水處理廠處理后最終都會流到附近的某條河里,污水處理廠的出口會有水質檢測設備,每條河流上也會有若干個水質檢測站,因為水質的自然凈化因素,距離檢測站點越遠對水質檢測結果的影響越小。當時我們通過一個數學模型去預測想要保證某個檢測站點主要污染物含量達標,結合其上游臨近的若干個污水處理廠的距離,反推各個污水處理廠出口需保證的水質標準。

看了上邊的介紹我們了解到,合理的數據應用,是能夠給業務提供非常多的支撐作用的。但是隨著數據的深度使用,人們逐漸發現了一些問題,一句話描述就是:現有的數據存儲模式不好用了。

總結下來,主要有四類問題:

影響業務。大批量長時間跨度的數據運算、復雜的分析挖掘,往往會占用很多的計算資源,數據混亂。業務邏輯的變化,造成不同時間段的數據含義內容都會有差別,更要命的是沒有人會告訴你這些。數據缺失。業務庫基于性能和硬件成本考慮,都會把歷史數據歸檔并轉移到更廉價的存儲設備去。數據孤島。數據是業務開展過程中各個系統軟件產生并存儲下來的,系統軟件直接往往存在隔離,同時由于缺少統一規劃,同一主數據在不同系統內的定義描述編碼都不一致。大家可以腦補下阿里的 ID-Mapping ,其實是一個道理。

接下來,我們本次分享的主角終于出場了!

事實上,在上世紀 70 年代已經有人提出來需要單獨構建數據分析系統了,但是局限于技術發展一直無法落地(大家可以往前翻到第 4 頁 PPT,那時候的關系型數據還處于啟蒙階段。),直到后來 1991 年“數據倉庫之父”正式確立了數據倉庫基本概念,但直到那時候數據倉庫理論依然不太成熟。

數據倉庫的概念確立以后,有關數據倉庫的實施方法、實施路徑和架構等引發了諸多爭議。

第一階段:直接構建數據倉庫。1994 年前后,實施數據倉庫的公司大都以失敗告終(采用規范化的方式直接構建數據倉庫,對數倉構建者的能力要求過高,Inmon 老爺子當時有 30 年數據從業經驗了,他行其他人能行嗎?)。

第二階段:直接構建數據集市。由于數據集市僅僅是數據倉庫的某一部分,實施難度大大降低,并且能夠滿足公司內部部分業務部門的迫切需求,在初期獲得了較大成功。但隨著數據集市的不斷增多,這種架構的缺陷也逐漸顯現:公司內部獨立建設的數據集市由于遵循不同的標準和建設原則,導致多個數據集市的數據混亂和不一致。

第三階段:靈者為先,兩種建模思想的融合。解決問題的方法只能是回歸到數據倉庫最初的基本建設原則上來。1998 年,Inmon 提出了新的 BI 架構 CIF(Corporation Information Factory,企業信息工廠),新架構在不同架構層次上采用不同的構件來滿足不同的業務需求。

大家看下右邊這個架構圖,展示的是 Inmon 1998 年提出的《企業信息工廠》。

來自多個不同數據源的數據,經 ETL 抽取清洗轉換后,將原子粒度數據以一種規范化的格式集成進企業數據倉庫中,直接對外提供數據服務。同時基于不同需求再往上構建數據集市,以部門級分析多維格式存儲。

這里有兩個重要的基礎概念,大家可以多多理解下:

數倉的定義:

面向主題。主要是給數據分類方便理解和管理。集成。匯總多個源端系統數據甚至是異構數據源,到一個統一的相互兼容的數據存儲內,使后續的分析關聯更加容易。相對穩定。對數據的操作大多是 Insert,很少有 Update、Delete。反應歷史變化。存儲大量的歷史數據,保留歷史所有數據的狀態,進而找出企業經營管理中的規律。我覺得這里應該包含兩個層面:業務的歷史變化規律、維度數據的歷史變化。用于支持管理決策。這是構建數倉的目的。但是發展到現在,數倉已經在別的很多地方開始發揮作用了。

三范式:經典的關系數據模型規范理論

屬性不可拆分。保證列的原子性。例如不能把學生的的學號、名稱、班級號都塞在一個字段里面每個屬性有且僅依賴于主鍵(主鍵的定義:能夠唯一確定一條數據的列或列組合)。屬性不能傳遞依賴于主鍵。如果有就分表。例如行政區劃的省市縣三層劃分必須建三張表,省市的名稱不能放到區縣的那張表里(當然這種情況下,維度建模通常是反三范式的)。

范式建模理論是在數倉建設實踐中演變出來的,因為直接構建數據倉庫和直接構建數據集市都會存在一些問題。

大家請看上圖,原始數據通過 ETL ,轉換成維度指標的形式,以原子粒度存入維度數據倉庫,在此之上匯總成數據集市(數倉的主題區域)。為了保證數據集市間的兼容性,在數據集市之上抽離出來一套標準,就是總線架構。

這里也有兩個重要的基礎概念:

總線架構:類似于主數據管理,就是把維度和指標單獨抽離出來集中管理,各個數據集市只有使用權。

一致性維度:集中管理維度以及維度屬性。保證相同的維度在不同數據集市間的一致性。

一致性事實:集中管理指標的定義、單位、計算方法等。保證統一指標在不同數據集市間的含義是相同的。

維度建模過程:事實上是單張表的構建過程。一張表只說一件事情。但根據此方法建完所有表之后,對于維度完全相同的表是否需要合并,得根據實際情況來定,比如業務相近的就可以合起來。

到這里,我們基本上把數倉概念誕生的歷史背景、發揮的價值、怎么構建數據倉庫大致講完了。隨著歷史進程推進到上世紀九十年代中期,我們國內終于是參與進來了。

接下來,我繼續給大家介紹下數據倉庫引入我們國內后的發展狀況。

請看上邊這頁 PPT,我入行的時候,傳統數倉在國內其實已經非常成熟了。但當時有數倉需求的企業并不多,因為大多數 2B 的中小公司不需要啊,他們數據量也不大,最多也就出幾張實時的業務報表,直連業務系統反而更合適些。

當時的數倉開發甚至大多數的數據從業者,基本都在電信、銀行、保險行業,以及大型央企民企。同時以電信、銀行居多。

傳統數倉,從技術棧上大致分為三類:數據庫+ETL工具+BI工具。并且都被國外企業所壟斷,上圖中我雖然列了 Kettle 這個開源軟件,但當時它的市場份額可以忽略不計。

由于數倉的技術棧,基本被外國企業把控,市場競爭中,外企也是通殺國內企業的。

請看上邊這張 PPT,從左到右,軟硬件提供商+解決方案提供商+外包公司,這些都是傳統數倉的主要參與者。大概場景是這樣的:解決方案提供商拿著外企的一眾產品簡單包裝以后,在國內接項目,然后帶著一大堆外包公司做實施。當然上邊的分界也不是特別明顯,華為也提供硬件、TD 也會做實施。

再往細分的話,華為亞信在電信行業做的比較出名,TD 主要是金融行業,IBM 埃森哲等咨詢公司在大型央企民企做的比較多。當然軟通當時也有保險事業部也會直接接一些項目,文思這兩年好像銀行項目接了很多,這兩年群里有人瘋狂招人的。雖然近些年大家吐槽外包的很多,但當時確實也養活了不少數倉從業者,因為第一第二梯隊畢竟能容納的人也有限,不去外包公司也沒別的選擇了。數倉項目通常也都是長期做的,所以也沒有現在說的這么差。

相信很多人都對數倉有所了解,那么大家有沒有仔細想過,什么是數倉?數倉的邊界在哪里?

數據管理大體可以分為四部分:集成、計算、存儲、應用。狹義的數倉只包含集成計算和存儲。但是沒有上層應用的數倉根本毫無意義,所以數據應用對數倉來說也是至關重要的。

基于以上的原因,我們在談項目的時候通常會提一些高大上的概念,比如我們要建設一個企業級的數據中心,我們要搭建一個數據平臺等等,其實實質上都是:數據倉庫+上層應用。

數據中心:就是把散落在組織各個地方的數集起來統一存儲、分發、應用。

運營分析系統:是在數據中心的基礎之上,根據業務需要做一些運營分析報表,直接服務于各個業務部門。

數據平臺:這個概念更大,在數據中心的基礎之上,考慮引入外部數據?;跀祿脚_開放各種內外部賬戶,所有用戶都可以基于該平臺做數據交換或者數據買賣。

數據中臺:是最近幾年提出的概念,已數據倉庫和大數據技術平臺為底座,以能力復用為目標構建。

伴隨大數據時代的到來,帶來了數據技術架構的重大變革,同時賦予分析挖掘更大的能力。

比如華爾街根據民眾情緒拋售股票、谷歌根據網民搜索關鍵詞的變化提前預測流感。

這個時候人們的思維方式已經開始慢慢發生變化了,同時數據倉庫已經不僅僅局限于之前的分析挖掘了,數據開始更直接的參與到業務活動中來了。

互聯網、大數據、云計算,帶來了新的業務形態、新的開發氛圍。所有互聯網企業都開始認識到數據的重要價值,都開始構建自己的數倉或者數據集市了。

上邊這頁 PPT 提到的零散內容,相信互聯網從業者都深有體會吧?

大數據時代,數據倉庫相關技能反而更重要了。

數倉技能重要性提高的同時,對數倉從業者的能力要求,應該也是更高了。除了需要熟悉數倉理論、熟悉業務外,還需要足夠的開發功底,而且大數據組件太多了,根本學不過來。

我是從傳統數倉轉型過來了,之前基本沒寫過代碼,轉型大數據一開始根本沒有方向,甚至到后來我還學習了兩周的 Spring。

不過現在回頭看看,這才是最優的學習路線:

通過 Hive 先入大數據的門,這個沒啥難度,都是 SQL 嘛。學習 Hadoop、Hive、Spark 等的基本原理,同時多多實踐。惡補 Java 基礎,多敲代碼。同時可以看看 Hadoop、Hive 源碼(網上源碼講解的太多了)。大數據計算組件看的差不多了,可以再學學大數據存儲組件,主要是一些 OLTP 組件,比如 CK 等等。離線計算掌握差不多了,可以再學習下流式計算,直接上手 Flink 就好了。

數倉轉大數據的一點心得:

大數據組件千萬別貪多,抓住幾個主流的學透就好了。開發能力很重要,但不用啥都學,掌握 JavaSE 足夠了?;颈P是數據倉庫,一定要絕對精通。面試時候開發相關不一定會問,但數倉絕對少不了。

最后,大家有沒有想過,數據倉庫的未來會是哪里呢?

只要數據還有價值,那么數倉就不會消亡,只會不斷進化。

數倉背后的這一套數據管理和應用的方法論,以及數倉從業者的數據思維,必將使其終身受益。

實時數倉,離我們已經很近了,甚至很多企業已經在做了,但是想要完全替代離線數倉,還是有很多路要走的,比如數據準確性、數據的更新插入問題、不可加累積數據的計算問題等。

批流一體方面,目前 Flink、Spark 都實現了公用一套計算框架。但是公用一套存儲還不太成熟,公用一套代碼還沒有實現。

數據湖概念,已經提出好多年了,雖然阿里華為也在吹,但目前市面上還沒有出來真正意義上的方案。用網友的話說就是:我看好數據湖的未來,但不看好它的現在。

就像我 PPT 上總結的,數據湖還有很多問題沒有解決。就算以后數據湖普及了,那么核心數據還是要進數據倉庫的。因為數據湖里數據準確性很難保證,同時查詢性能、對計算資源的消耗,數據倉庫也是完敗數據湖的。

以上就是關于pos機系統的概念數據模型,數據倉庫的前世今生的知識,后面我們會繼續為大家整理關于pos機系統的概念數據模型的知識,希望能夠幫助到大家!

轉發請帶上網址:http://www.bangarufamily.com/newsone/96317.html

你可能會喜歡:

版權聲明:本文內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容, 請發送郵件至 babsan@163.com 舉報,一經查實,本站將立刻刪除。