數據倉庫范文

時間:2023-04-04 18:28:37

導語:如何才能寫好一篇數據倉庫,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1

關鍵詞:數據倉庫;體系結構;維度

中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)15-20998-02

The Summary of the Data Warehouse Technology

WANG Min1,2, ZHOU Cong-jun2,DU Cheng-Long2

(1. Hubei University of Technology,Wuhan,430068;2.Hubei Professional College of Land Resource,Jingzhou,434003)

Abstract: Data warehouse is a new progressing direction of database technology,and is also a popular research fields currently.This paper introduces the data warehouse definition,architecture and characters.The article also analyzes the procedure of building Data Warehouse .In the end,it describes the application of data warehouse to the national economy fields and the prospect of the data warehouse in the future.

Key words: data warehouse;architecture of the warehouse;dimension

1 引言

在過去的幾十年中,人們為了能夠收集、存儲和處理大量的業務數據而開發了數據庫管理系統(DBMS)。由于數據庫系統的開發和使用,為企業記錄和處理業務提供了極大的方便,使得這種技術得以迅速的發展和應用。但隨著數據庫系統記錄和處理的數據越來越多,人們不再滿足僅僅使用數據庫系統來記錄企業的業務活動數據和對數據進行簡單處理,人們需要對企業業務活動的數據進行各種分析,以便找出影響企業成功的要素和企業未來的發展趨勢。而如何將這些大量的數據轉化為對企業管理者有用的,可供輔助決策的信息,也逐漸成為研究的熱點。

2 數據倉庫技術

2.1 數據倉庫的定義

數據倉庫的概念是由W.H.Inmon博士在1992年出版的《建立數據倉庫》(Building the Data Warehouse)一書中提出的。他在書中對數據倉庫是這樣說明的:“數據倉庫(data warehouse)是一個面向主題的、集成的、穩定的、不同時間的數據集合,它用于支持經營管理中的決策制定過程。”[1]實際上可以理解為數據倉庫就是從多個數據源收集數據,存儲于一個統一的數據模式下的數據體。從本質上講,數據倉庫就是一種信息集成技術。數據倉庫從多個信息源中獲取原始數據,經整理加工后,存儲在數據倉庫的內部數據庫中,通過向用戶提供訪問工具,向數據倉庫用戶提供統一、協調和集成的信息環境,從企業的角度來支持用戶的決策和幫助企業的管理進行深入綜合分析。[2]

2.2 數據倉庫與數據庫的區別

數據倉庫是在數據庫的基礎上發展起來的,因此數據倉庫與數據庫有著本質的區別,主要體現在以下幾個方面:

(1)數據庫中存儲的都是當前使用的值,而數據倉庫的建立是一個企業日積月累的建立過程因而其存儲的數據都是一些歷史的、存檔的數據,另外由于要提供分析決策,還需要存儲一些歸納的、計算的數據;

(2)數據庫的數據主要是面向業務操作程序的,可以重復處理,主要是用來進行事務處理的。而數據倉庫卻是面向主題,主要是用來分析與應用的;

(3)數據庫的數據結構是高度結構化的,比較復雜,適合于操作計算。而數據倉庫的數據卻比較簡單,適合于分析處理;

(4)數據庫中的數據的使用頻率是很高的。數據倉庫中的數據的使用則不是很高;

(5)通常對數據庫中的事務的訪問,只需要訪問少量的記錄數據。而對數據倉庫的事務的訪問就可能需要訪問大量的記錄;

(6)對數據庫的響應時間一般要求比較高,通常是以秒為單位。而對數據倉庫的響應時間要求則較低,通常比較長。

2.3 數據倉庫的主要特點

從數據倉庫的定義我們可以看出,它的特點主要體現在以下幾個方面:

(1)數據倉庫是面向主題的。也就是說數據是按其自然屬性來進行組織的。主題通常是在一個較高層次上將數據歸類的標準,每個主題對應一個宏觀分析領域。比如,在學生的學籍管理成績系統中,數據常被組織成“學生”、“課程”、“學生成績”等關系模式,描述了各個學生、各門課程以及學生學習各門課程的詳細信息。而在數據倉庫中,我們則要對學生、課程、學生成績進行綜合分析,以便進行決策,因而應重新組織數據,完成業務數據向主題數據的轉換。主題的抽取則應根據分析的要求進行確定。[3]如針對學生成績分析數據倉庫就可以設置以下主體:學生、課程、教師等。

(2)數據倉庫是集成的。數據在進入數據倉庫之前,必須經過加工與集成。對不同來源的數據進行數據結構統一編碼。統一原始數據中的所有矛盾之處,如字段的同名異義,單位不統一,字長不一致等情況。即將原始數據結構做一個從面向應用到面向主題的大轉變。[4]

要將決策分析建立在數據倉庫之上,數據系統就需要定期從各院系、各部門抽取適宜于進行決策分析的細節數據,然后按照不同的粒度要求匯總到各級數據集市或數據倉庫中。以“教師”主題為例,關于教師的完整信息是分散在各個院系、各部門的,每個部門都沒有關于“教師”的完整信息,而且這些數據可能是不一致的。比如:“教師”主題中的教師編號在“圖書管理系統”和“科研信息系統”中可能不同;性別在各部門中的表示方法也可能不同,在“科研信息系統”中用“M”、“F”來表示,而在“教師基本信息系統”中用“0”和“1”來表示。在經過了面向主題的數據組織后,消除同名異義、異名同義、單位不統一、字長不統一等數據不一致之處,按照元數據的定義形成關于教師的完整、一致的信息集合。[3]

2.4 數據倉庫的體系結構

數據倉庫系統通常由數據倉庫(DW)、倉庫管理和分析工具三部分組成,其結構形式如下圖所示。

(1)源數據:數據倉庫的數據來源多個不同的數據源,它可以是通常的數據庫系統,也可以是非傳統的數據,如文件、HTML文件、知識庫等。

(2)倉庫數據管理系統(DWMS):倉庫的管理主要包括對數據的案例、歸檔、備份、維護以及恢復等工作,這些工作需通過數據倉庫管理系統來完成。

(3)分析工具:數據倉庫的查詢不是指對記錄級數據的查詢,而是指對分析要求的查詢。一般包含兩種工具。一種是查詢工具,用來對分析要求的查詢。一種是挖掘工具,用于在大量數據中進行挖掘有規律性的知識。

2.5 數據倉庫的實施

數據倉庫的開發要以數據為中心,可大體分為以下幾個步驟:

(1)明確目標,制訂計劃

根據需求確定相應的數據倉庫的設計目標,并制定實施計劃,用發展的眼光創立架構方案。

(2)建立技術環境

建立支撐平臺建立技術環境,選擇實現數據倉庫的軟硬件資源,包括開發平臺、DBMS、網絡通信、開發工具、終端訪問工具等等。

(3)確定主題

通過對用戶、管理層的需求進行深入的了解與分析,然后對這些需求中比較迫切、重要程度初步確定幾個主題。

(4)概念模型設計

概念模型設計是主觀與客觀之間的橋梁,通過概念模型,可以用適合計算機世界的模型和語言對客觀世界中的問題進行具體的描述。主要包括事實的定義、維度的定義和級別的定義。所謂事實,即指決策者分析的目標數據,可以幫助決策者了解全局,作出相應決策。也稱為度量值。而維度,即指事實的屬性信息。也稱為考察事實的角度。

(5)邏輯模型設計

邏輯模型的設計是指根據事實、維度和級別之間的關系確定所采用的架構。通常采用星型構架進行設計,也就是以事實表為中心,四周與每個維度相關聯,不存在維度與維度相關聯的情況。

(6)物理模型設計

物理設計主要完成開發決策工具的選擇、數據表的創建與索引的創建。數據表主要包括事實表與維度表的創建。一般對維度都創建了主鍵索引,對事實表則設置了組合主鍵索引。

(7)數據轉換程序

實現從數據源中抽取、清理、聚集、轉換數據并加載數據等過程的設計。

(8)定義元數據

即定義數據的意義及系統各組成部件的關系。

(9)運行與維護

管理數據倉庫環境,定期進行數據的更新,使數據倉庫正常運行。

3 數據倉庫技術的應用

目前,國內數據倉庫的需求主要表現在如下方面:

(1)由于銀行商業化的步伐正在加大,各大、中型銀行開始重新考慮自身的業務,特別是加強對自身的信貸風險的管理,因而對有關信貸風險管理和風險規避的決策支持系統的需求逐漸多了起來。

(2)由于電子商務的迅速發展,不少網站開始考慮如何提高對顧客的忠誠度,為客戶提供更進一步的“貼身”服務。

(3)各大型企業如移動通信局等開始考慮著手進行決策支持以及數據倉庫規則。

4 結束語

雖然目前國內的數據倉庫市場經過了多年的發展,但是比起國外大企業所建的巨型企業級數據倉庫來講,還只能算是剛剛起步,還存在很多的不足之處,主要表現在計算機應用水平較低,無法提出決策支持需求,所以很多企業無法馬上實施數據倉庫。

但相信隨著相關計算機技術的進步,數據倉庫技術也一定能得到不斷的發展,為企業在商業競爭中提供更好的幫助。

參考文獻:

[1] w.H.Inmon.數據倉庫管理[M].北京:機械工業出版社,1999,8-9.

[2] 鐘愛軍,宋麒.基于數據倉庫的醫院決策支持系統的構建.數理醫藥學雜志,2007,13-19.

篇2

信息技術的不斷推廣應用,將企業帶入一個信息爆炸的時代。每時每刻都有潮水般的信息出現在管理者的面前,等待管理者去處理、去使用。這些管理信息的處理類型主要分事務型(操作型)處理和信息型(分析型)處理兩大類。事務型處理也就是通常所說的業務操作處理。這種操作處理主要是對管理信息進行日常的操作,對信息進行查詢和修改等,目的是滿足組織特定的日常管理需要。在這類處理中,管理者關心的是信息能否得到快速的處理,信息的安全性能否得到保證,信息的完整性是否遭到破壞。信息型處理則是指對信息做進一步的分析,為管理人員的決策提供支持。

1.1 數據倉庫的定義

業界公認的數據倉庫概念創始人W.H.Inmon在《數據倉庫》(Building the Data Warehouse)一書中對數據倉庫的定義是:數據倉庫就是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定。

數據倉庫是將原始的操作數據進行各種處理并轉換成綜合信息,提供功能強大的分析工具對這些信息進行多方位的分析以幫助企業領導做出更符合業務發展規律的決策。因此,在很多場合,決策支持系統也成了數據倉庫的代名詞。建立數據倉庫的目的是把企業的內部數據和外部數據進行有效的集成,為企業的各層決策和分析人員使用。

1.2 數據倉庫的特點

從W.H.Inmon關于數據倉庫的定義中可以分析出數據倉庫具有這樣一些重要的以下特性。

1.2.1 面向主題性

面向主題性表示了數據倉庫中數據組織的基本原則,數據倉庫中的所有數據都是圍繞著某一主題組織展開的。由于數據倉庫的用戶大多是企業的管理決策者,這些人所面對的往往是一些比較抽象的、層次較高的管理分析對象。

1.2.2 集成性

所謂集成性是指在數據進入數據倉庫之前,必須經過數據加工和集成,這是建立數據倉庫的關鍵步驟。

1.2.3 時變性

所謂時變性是指數據倉庫中的信息并不只是關于企業當時或某一時點的信息,而是系統地記錄了企業從過去某一時點到目前的數據,主要用于進行時間趨勢分析。

1.2.4 非易失性

數據倉庫總是物理地分離存放數據,這些數據源于操作環境下的應用數據。

1.3 數據倉庫的技術體系結構

一個數據倉庫系統的技術體系結構總體來說包括后臺數據預處理,數據倉庫,數據管理和數據倉庫的前臺查詢服務三大部分。

數據倉庫中的數據來自企業內部不同的業務系統甚至企業外部的商業數據庫,這些數據庫對于數據倉庫來說被稱為數據源。數據源中的數據在數據的組織方式、數據格式等許多方面與數據倉庫對數據的要求有很大的差別,因此這些數據不可能直接載入數據倉庫的數據庫中,為此必須進行數據的預處理操作。數據的預處理包括數據源的定義、從數據源提取數據到預處理數據區(數據準備區)、在數據準備區中對數據進行凈化處理、作必要的轉換、再將數據加載到數據倉庫,等等。實現這部分功能的是數據倉庫的后臺數據預處理部分。

數據倉庫的應用服務部分提供了各種應用工具,使用這些工具可以對數據倉庫中的數據進行復雜的查詢分析和知識挖掘等等。沒有一種工具可以滿足所有的應用需求。可選擇的工具大致分為:數據挖掘工具:數據挖掘是基于人工智能來分析數據的一種技術,通過對數據倉庫中數據的分析去發現一些用戶可能沒有想到的模式和數據關系。特別查詢工具:特別查詢提供了一種能力,使得分析人員可以提交一些特別的問題,并產生相應的結果。在線分析處理(OLAP,On-Line Analytical Processing):在線分析處理以數據立方體或多維的方式來查看數據,允許用戶進行鉆取以獲得更詳細或更概括的數據,或者對不同的“維”如時間、商品等進行切片操作。OLAP工具可用于對商業問題進行分析,是最常用的輔助決策工具。

2、數據挖掘

2.1 數據挖掘的概念

數據挖掘是指從大量的數據中提取有用的信息和知識的過程。所發現的信息和知識是潛在的并隱藏在大量數據背后的,是用戶感興趣的、可理解、可運用的知識。所以,數據挖掘有時也被人們稱為知識挖掘、知識提取、知識發現等。

數據挖掘也可視為是一類深層次的新型數據分析方法,它與傳統的數據分析的本質區別在于:數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識,所得到的信息通常是預先未知的、也是很難預料到的,甚至與人的直覺是相背的,但又是非常有用的;而傳統的數據分析得到的信息則是浮在表面的、人的直覺能夠感受到的、或與人的直覺較為相近的。

2.2 數據挖掘的過程

數據挖掘過程,可以概括為數據準備、數據挖掘及結果的解釋和評價三部分。

2.2.1 數據準備

數據準備一般包括三個子步驟:數據集成、數據選擇、數據預處理。數據集成將多文件或多數據庫運行環境中的數據進行合并處理,解決語義模糊性、處理數據中的遺漏和清洗“臟數據”等。數據選擇的目的是辨別出需要分析的數據集合,即目標數據(Target Data),是以用戶需求驅動的從原始數據庫中抽取的一組數據,它使處理范圍縮小,提高數據挖掘的質量。數據預處理一般包括消除噪聲、推導計算缺值數據、消除重復記錄、完成數據類型轉換,預處理目的是為了克服目前數據挖掘工具的局限性。

2.2.2 數據挖掘

數據挖掘階段首先要決定挖掘的任務或目標,確定了任務或目標之后我們才能決定使用什么樣的挖掘方法。確定挖掘任務后選擇合適的算法,可進行數據挖掘操作,獲取相應的模式。

2.2.3 結果的解釋和評價

經過數據挖掘階段后,獲得了一些模式結果,但通常存在冗余或無關的模式。有可能這些模式不滿足用戶要求,這時則需退回到發現過程的前面階段,可能需要獲取新的數據,采用新的數據預處理方法,換一種挖掘方法等等。

2.3 數據挖掘技術

數據挖掘技術主要分為:關聯分析、時序模式、聚類、分類、偏差檢測和預測等。

2.3.1 關聯分析

關聯分析用來發現關聯規則。它是從數據庫中發現知識的一類重要方法。關聯分析廣泛用于購物籃或事務數據分析。

2.3.2 時序模式

時間序列模式是用變量過去的值來預測未來的值。比如可以用前六天的數據來預測第七天的值,這樣就建立了一個區間大小為7的窗口。

2.3.3 聚類

聚類是把整個數據庫分成不同的組群。它的目的是使得群與群之間差別很明顯,而同一個群內的數據盡量相似。劃分出來的組群具有一定的意義,我們稱為類。在同一類別中,個體之間的距離較小,而不同類別的個體之間的距離較大。

2.3.4 分類

數據挖掘應用最多的任務要屬分類。分類找出描述并區分數據類或概念的模型,以便能夠使用模型預測類標記未知的對象類。該模式能把數據庫中的元組映射到給定類別中的某一個。

2.3.5 偏差檢測

所謂偏差檢測就是在數據分析中發現有很多異常情況存在于數據庫中,我們根據這種異常情況可以獲得很多有用的信息

2.3.6 預測

預測可以利用歷史數據或數據分布依據一定的模型計算出數值數據或識別出未來分布趨勢等。

2.4 數據挖掘面臨的主要問題及對策

2.4.1 數據挖掘面臨的主要問題

數據挖掘在不斷的實際應用中,正不斷地吸取各種領域的經驗而逐漸成熟。從目前的情況來看,在運用現代數據挖掘技術時還需要注意一些問題,如數據挖掘任務、數據挖掘方法、用戶交互、挖掘性能和數據類型多樣性等問題。

2.4.2 主要對策

針對數據挖掘現在面臨的主要問題,所應用的對策有以下一些:(1)與數據倉庫技術結合。數據倉庫可以為數據挖掘提供經過清洗的和轉換的、完整的數據資源。(2)挖掘多種類型的知識。數據挖掘除了最常見的關聯與分類之外,還有許多重要的任務待進一步的開發,包括聚合、預測模型以及時間相關分析等等。(3)發現語言的形式化描述,即研究專門用于知識發現的數據挖掘語言,如SQL語言一樣的形式化和標準化。(4)可視化數據挖掘。尋求數據挖掘過程中的可視化方法,使知識發現的過程便于用戶的理解,也便于在知識發現的過程中進行人機交互。(5)高效的數據挖掘。高效性和可伸縮性是目前數據挖掘算法的焦點之一,隨著并行的、分布式的以及增長式的數據挖掘技術的研究與發展,這種趨勢將會繼續得到進一步的發展。(6)數據挖掘的應用。更加廣泛的將數據挖掘技術應用于現實世界也是一個非常重要的研究方向。

3、數據挖掘與數據倉庫的關系

3.1 數據挖掘是數據倉庫發展的必然結果

隨著大量數據被收集,從原始數據中得到有價值的決策信息越來越困難,于是新的數據庫的體系結構產生了,即出現了數據倉庫。數據倉庫中存放的是從原始數據中經過計算和統計后得到的滿足決策者需要的數據,這種數據也被稱為是信息型或分析型數據。聯機分析處理工具是基于數據倉庫的信息分析處理過程,具有匯總、合并和聚集功能,以及從不同的角度觀察信息的能力,但對于深層次的分析,如數據分類、聚類和數據隨時間變化的特性,仍然需要其他分析工具。數據挖掘可以看作是聯機分析處理的高級階段。

3.2 數據倉庫為數據挖掘提供應用基礎

從數據挖掘的定義可以看出,數據挖掘包含一系列旨在從數據庫中發現有用而未發現的模式的技術,如果將其與數據倉庫緊密聯系在一起,將獲得意外的成功。

4、結語

本章主要介紹了數據倉庫的概念、特點和體系結構,以及數據挖掘的概念、數據挖掘的過程和數據挖掘的技術,和數據挖掘面臨的主要問題及對策,最后分析了數據挖掘與數據倉庫的關系。為數據挖掘與數據倉庫的實際運用打下堅實的理論基礎。

參考文獻

[1]吳慶慧.在金融數據庫營銷中的一種數據挖掘與決策分析的方法.中國科學技術大學學報,2009,39(2):208~214.

[2]高祥濤.數據挖掘在水文相似年查找中的應用研究.計算機工程與應用,2009,45(5):243~245.

篇3

(1)本單位的基本情況,包括本單位組織結構、人員構成、經營業務范圍規模、科研生產經營管理情況,單位在行業中的地位、優勢、特色,以及取得的各種榮譽和獎勵等。(2)本單位目前執行的各種法規制度和內控制度。(3)歷年財務數據,包括會計科目余額匯總表、明細科目、全年每張憑證的明細內容;還可能包括基建賬目的會計科目余額匯總表和序時賬,以及固定資產計提折舊、大修理基金的匯總表,分攤到各個科研項目設備費的分攤明細數據和分攤依據說明;每年的管理費用分攤表及其明細表,以及對分攤依據進行說明,等等。(4)被審計項目的文件資料。(5)有關基礎數據。如固定資產增減變動情況表、原材料出入庫匯總表和入庫單、領料單明細表、固定資產采購合同、進口設備結算單、施工合同、施工圖、工程預結算書、設計變更、工程洽商及現場鑒證資料、單項工程質量評定材料、竣工驗收文件,中介機構提供的工程結算審核報告、客戶名錄、招投標數據庫、各類合同,等等。(6)接受外部檢查的資料。如審計報告、審計意見書和專項審核報告等以及稅務、財政、社保、環保、消防安全機構、質量體系、集團公司等對單位各項檢查結果檢查的結論性意見。(7)內部審計的資料。(8)所屬子公司和附屬單位的數據資料。總之,滿足審計需要的數據,眾多且龐雜。

二、建立和管理審計數據倉庫

數據倉庫的建設是以現有業務系統的積累為基礎。數據倉庫建設是一個工程,是一個過程。數據倉庫建立不是一蹴而就的,一成不變的,需要平時不斷地收集和整理。根據數據倉庫的特點,數據內容是歷史的、存檔的、歸納的、計算的數據。在管理中需要注意以下幾點:1.傳統操作型數據庫中的數據要抽取、凈化和轉換成“干凈”數據后才能進入數據倉庫。源數據可能有很多與審計無關的信息,經過凈化和轉換的數據才是審計有用的數據。2.數據倉庫的數據特性是歷史的、靜態的、定時添加的,數據倉庫內已經存在的數據不會改變,要定期持續對有關內容進行維護,產生的新數據要及時添加補充,單位若有新的規章制度也需添加進去。3.數據倉庫里的數據和資料,一般可按年度來建立,跨年度的被審計項目數據就可以方便地從各個年度數據倉庫中提取。4.數據倉庫里的數據是有時效性的,而被審計項目往往跨越幾個年度,不同時期所遵循實施的標準和管理規定也不盡相同。在數據倉庫中要合理劃分不同時間區段。5.遇審計項目內容的,只提供給有保密資質的外審人員,并簽署保密協議;若外部審計單位沒有審計資質,則需要刪除數據倉庫中的信息后轉化為非密版本,即可按和非準備兩套版本,根據不同需要提供不同的版本。6.建立數據倉庫需要各個部門的大力溝通配合共同建設。建立數據倉庫之后,審計部門將所有收集來的審計相關信息存放在一個唯一的地方——數據倉庫。倉庫中的數據按照一定的方式組織,從而使得審計信息容易存取并且有使用價值,從而大大提高審計效率。

三、數據分析應用于數據倉庫

篇4

數據倉庫十多年前開始出現在企業中,其承諾相當誘人:將關鍵數據集中在容易發現的統一站點,這樣所有的商業人士就可根據具體的事實分析作出決策,而不是在信息不充分的條件下憑直覺作出決策。現在,數據倉庫仍是實力雄厚的公司的奢侈品,這些公司具有足夠的資金、員工以及耐心來購買、安裝和維護數據倉庫。

而開源,這種破壞性的力量完全顛覆了數據倉庫和其它許多市場。開源交付的特許軟件成本很低或者根本無需成本,即使對再小的公司也開放性能;而且對網絡社區開放代碼和功能,只要社區能保證解決方案切實滿足主要標準,解決方案在部署時變得更加直接、靈活,不再花里胡哨。

數據倉庫的開源方案

現在,開源的革命已經滲入數據倉庫領域。不僅有工具和技術可在實施數據倉庫時構建模塊,同時數據倉庫本身也已成為開源。下面是支持數據倉庫的開源方案。

第一,數據庫系統。成功部署數據倉庫時,開源構建模塊(building blocks)的數量取得了巨大增長,這表明采用開源數據倉庫的時機已經成熟。例如,Gartner公司的報告指出:近幾年,開源FIRMS引擎已顯著增長。Gartner還發現,47%的受調查公司已經采用開源數據倉庫,19%的公司正考慮在12個月內采用開源數據倉庫。

在許多情況下,開源數據倉庫正得到廣泛采用的市場正是大型數據庫供應商長期忽略的市場。但是,如果公司以活躍的商業數據庫實施項目為主導,那么公司內部也會存在開源數據倉庫。一項針對獨立Oracle用戶組(IOUG)226個成員的研究表明,超過三分之一(35%)的站點也擁有開源數據庫,如運行MySQL。

第二,ETL工具。與開源數據庫同時出現的還有ETL、開源分析/商業智能工具,這些工具在企業中逐步得到應用。Gartner估計,大約11%的受調查公司正在使用開源ETL工具,16%的公司正考慮在未來幾個月內采用這類工具。開源ETL工具包括Pentaho公司的KETL、Talend、Clover.ETL以及Octopus等。

第三,商業智能。在商業智能和分析工具領域,Gartner指出,9%的受調查公司已經采用開源BI解決方案,18%的公司正考慮在未來12個月內采用開源方案。目前,市場中存在許多開源BI或分析程序,以Pentaho和JasperSoft等供應商為主導。同時,Ventana Research對500家公司的調查結果證實:BI受到廣泛關注,并且這種趨勢在繼續增長;對開源商業智能感興趣的公司中有21%已部署開源程序。顯然,仍有許多公司聲稱他們未來沒有此類項目,因為他們不會考慮開源商業智能。

使用如此廣泛、客戶如此滿意,并且擁有開源數據庫和開源分析工具,開源數據倉庫在此時興起也就不足為奇了。之前,供應商根據開源數據庫(如MysQL、PostgreSQL和Ingres)生產數據倉庫專有產品,現在,供應商開始引入全面的開源數據倉庫解決方案及其伴隨社區。

最近的產品ICE(Infobright Communicy Edition)及其在的伴隨社區就是一個很好的例子。論壇帖子表明社區用戶在不斷增加,其中一些用戶對數據庫非常了解,但是對數據倉庫相對陌生。MySQL擴展了數據庫市場,ICE等開源產品亦如此,因為數據卷快速增長,分析需求也不斷增加。

開源數據倉庫的優勢

開源數據倉庫可以解決當前諸多問題,而且足跡較少、運作的管理資源較少。開源模型運用到數據倉庫的優勢為:

第一,開源數據倉庫在前期耗費較少,維護和支持費也較少。目前,市場中的開源軟件產品通常比相應的特許產品更加便宜。另外,開發人員和IT管理人員可以下載開源產品的源代碼,也可以定制產品或修改產品,從而進一步簡化操作。

第二,開源數據倉庫采用的技術很容易在市場中獲得。因此,公司如果具備現有數據庫或數據倉庫的專業知識,在實施新的開源數據庫工程時,就不必進一步研究。

第三,開源數據倉庫大大促進了標準化。開源代碼透明、支持社區,因此,一些重要的標準就可獲得各種版本和實施方式的一致性支持。專有形式不能也不會在這些設置中獲得支持。

第四,開源數據倉庫相當靈活。開源許可方式使得企業能夠將解決方案擴展給無數用戶,而不像專有軟件包那樣:按用戶或處理器收取費用。公司只需花費很少甚至無需花費就可添加用戶或者擴展工程。另外,終端用戶公司不必擔心被某個供應商的強制升級路徑鎖定,相反可以選擇系統的新版本。

第五,開源數據倉庫能從網絡社區效應中獲利。開源解決方案利用開發人員和創新人員的社區促進發展。將新代碼和新特性貢獻給社區,不斷為終端用戶提供各種可用的新方案。網絡社區的方法也可應用到數據倉庫――開創新領域,將能很好地適應環境,因為有許多系統和數據種類需要集成到數據倉庫中。單個供應商提供的解決方案很難解決所有的集成問題。另外,公司可以依靠社區快速修復bug或安全缺陷,通常只需花費幾天時間,而不必等待幾個星期甚至幾個月,直到供應商再次提供安全補丁或服務補丁。

第六,開源數據倉庫可以逐步實施。對于一項大型工程,切忌好大喜功。數據管理人員即使需要實施全新功能,也不必向預算委員會尋求資金支付公司昨天所需的性能。工程可以從小做起,在成功實施的基礎上逐步完成。這也可以緩解“承諾過多”的問題――在確定數據倉庫項目的最佳資金時,“承諾過多”是不得已而為之。開源數據倉庫無需大量啟動資金,而是首先瞄準最迫切的商業問題,隨著收效增長而增加資金人投入。

實施開源數據倉庫的建議

如果中小企業需要管理和觀察大型數據卷,但是缺乏實施和支持大型專有數據庫所需的資金或資源,那么開源數據倉庫就非常合適。另外,開源數據倉庫提供專門針對大型企業的某些部門或業務單元的解決方案,一旦產生商業問題,就可快速解決可以部署的解決方案。以下建議可以幫你最大程度地實施開源數據倉庫。

第一,開源和專有數據倉庫需要共存。開源數據倉庫將會增加,但是不會取代專有數據倉庫。如前所述,調查中有超過三分之一的Oracle的公司采用MysQL等開源數據庫。通常,這些數據倉庫能夠很好地滿足策略需求,補充許多專有數據庫無法快速或有效滿足的新需求。

第二,尋找產品背后大型的活躍社區。不管是開源數據倉庫還是專有數據倉庫,都是非常復雜的工程,因為需要涉及企業中所有的數據。充分互動的社區是必不可少的資料來源。

第三,終端用戶應該無法見到開源數據倉庫。操作型數據倉庫的數據與生產數據密切相關,是市場中增長最快的數據倉庫。數據倉庫的數據需要與前端用戶實時合作,但是幾乎無需終端用戶的輸入。在許多情況下,這些“普遍的BI”用戶沒有技術背景,操作應該盡可能簡單。相比之下,數據倉庫的主要使用人員――分析人員或“超級用戶”――在過去擅長構建大量的查詢方式。開源數據倉庫應該只需少量調整,就能支持普遍的BI用戶。

第四,開源數據倉庫應該一如既往地支持開源標準。之前市場中的“開源”數據倉庫都是根據開源數據庫,開發專有接口,與開源的本意背道而馳。開源數據倉庫應該與相關的開源環境兼容。

第五,尋找快速的部署方式和簡便的使用方法。尋找這樣的開源數據倉庫工具和平臺:具有數據壓縮功能,擁有較少的硬件和軟件足跡,只需較少的服務器和存儲空間就可支持TB級的數據。否則,維護費用可能上升到專有數據倉庫的水平。

篇5

關鍵詞:地理信息系統;空間數據倉庫;數據倉庫;認知過程

0引言

進入21世紀后,對空間數據倉庫的研究方興未艾,在許多次的國際學術會議上都有相關[1~3]。例如在泰國召開的ISPRS第三屆動態與多維GIS會議暨CPGIS第十屆地理信息年會、北京召開的第20屆國際制圖協會國際學術會議、南非召開的第21屆國際制圖協會國際學術會議等。還有一些ESRI公司的白皮書、全球性用戶大會、SSD國際會議、數字地球國際會議、GIS國際會議等也開始討論空間數據倉庫問題[4~8]。將空間數據倉庫技術引入到我國大概是20世紀90年代末,文獻[9~14]的發表開創了我國空間數據倉庫理論與技術研究的新局面,此后又陸續出現了一些這方面的論文。

總體說來,上述工作對空間數據倉庫的理論和方法進行了初步研究,在概念、原理、結構、操作與算法等方面進行了初步論述,已取得了卓有成效的成績。但是到目前為止,空間數據倉庫的概念框架和認知過程等方面還是缺乏系統的論述,沒有形成一套比較完整的空間數據倉庫概念框架體系和認知過程體系。

1概念框架

空間數據倉庫是GIS技術和數據倉庫技術相結合的產物,其定義很多,但中心思想包含三方面內容:①空間數據倉庫是在網絡環境下,實現對異地、異質、異構不同源數據庫中地理空間數據、專題數據及時間數據的統一、整合、集成處理,形成用戶獲取數據的共享操作模式;②空間數據倉庫可根據需求對這些數據再進行測繪專業處理,提供多種空間數據產品,滿足用戶更高層次——對數據產品的需求;③基于空間數據產品,空間數據倉庫可從多維的角度進行空間數據立方體分析和空間數據挖掘分析,提供綜合的、多維的、面向分析的空間輔助決策支持信息,滿足用戶空間決策分析的需求。

空間數據倉庫的概念框架分為外部結構、內部結構。外部結構主要描述空間數據倉庫與外部系統的關系;內部結構主要描述空間數據倉庫的內部功能模塊組成。

1.1外部結構

數據庫系統處于空間數據倉庫系統的最底層,管理著若干種不同的地理空間數據庫和專題數據庫,它們各自獨立,形成了各式各樣的異地異質異構的數據庫系統,它們主要為空間數據倉庫提供數據源。應用系統處于空間數據倉庫系統的最上層,它通過一個標準的接口從空間數據倉庫中提取地理空間數據、空間數據產品和空間輔助決策分析信息,為應用系統服務。其具體外部結構如圖1所示。

1.2內部結構

空間數據倉庫的內部組成應由八個獨立功能模塊構成,分層次實現空間數據倉庫系統。其中,第一層次的功能模塊是空間數據倉庫的基礎處理模塊,由多源空間數據抽取、多源空間數據整合、多源空間數據統一、空間數據倉庫元數據組成;第二層次的功能模塊是空間數據倉庫的服務模塊,由空間數據產品服務、空間數據立方體分析、空間數據挖掘分析組成;第三層次的功能模塊是空間數據倉庫的對外數據接口模塊,由對外數據交換格式組成。第一層次的功能模塊為第二層次的功能模塊服務,第二層次的功能模塊為第三層次的功能模塊服務。其具體內部結構圖如圖2所示。

當應用系統提出需求時:①多源空間數據抽取功能模塊從各源數據庫系統中抽取出相應地理范圍(矩形、多邊形、橢圓)的不同種類的地理空間數據、專題數據;②多源空間數據整合功能模塊對這些由圖幅范圍組織的地理空間數據進行相應地理范圍的裁剪、拼接、接邊、圖形編輯、拓撲重組等整合處理,形成裁剪拼接和接邊好的、具有完整拓撲關系的、物理上無縫的、按區域范圍組織的地理空間數據;③多源空間數據統一功能模塊對這些整合處理好的地理空間數據進行數學基礎、數據編碼、數據格式、數據精度等方面的統一處理,形成能相互疊加的地理空間數據;④將經抽取、整合、統一處理好的地理空間數據提交給空間數據產品服務功能模塊,經過集成、融合、派生和關聯等測繪專業算法處理,生成應用系統所需的各種空間數據產品;⑤基于已生成的空間數據產品,進行空間數據立方體分析和空間數據挖掘分析,得到面向空間輔助決策分析的結果;⑥將這些空間數據產品和空間輔助決策分析結果,以對外數據交換格式的形式提交給應用系統使用。

2認知過程

2.1認知過程概念圖

空間數據倉庫是描述地理現象的一個重要分支,其認知過程應與地理空間信息的認知過程基本一致,不同之處在于其描述的內容和范圍大小的區別。因此,建立空間數據倉庫的認知過程,實際上是要經過一個地理現象認識、抽象、組織、分析和應用的過程。其具體的認知過程概念框圖如圖3所示。

2.2認知過程描述

這14個世界模型和13個轉換算子的組合構成了三個層次世界,即實體世界、目標世界和產品世界。其中,現實世界、地理現實世界、地理工程現實世界和地理工程概念世界這四個世界模型,以及命名、選擇、抽象這三個轉換算子,共同構成實體世界;地理工程尺度世界、地理要素分類世界、地理要素編碼世界、地理要素幾何世界和地理要素集合世界這五個世界模型,以及度量、分層、編碼、測量和聚集這五個轉換算子,共同構成目標世界;地理空間抽取世界、地理空間整合世界、地理空間統一世界、地理空間產品世界、地理空間決策世界這五個世界模型,以及提取、處理、變換、計算、分析這五個轉換算子,共同構成產品世界。

數據庫概念設計階段、地理空間數據庫實現階段和空間數據倉庫實現階段構成了空間數據倉庫系統實現過程的三個階段,這三個階段分別對應著三個層次世界,即實體世界、目標世界和產品世界。其中,前兩個階段是為地理空間數據庫的建立服務的,由它們實現實體世界向目標世界的轉換;后一個階段是為空間數據倉庫的建立服務的,由它們實現目標世界向產品世界的轉換。

由此可見,空間數據倉庫的認知過程主要就是這14個世界模型通過這13個轉換算子的轉換實現三個層次世界的過程。這個認知過程指導了空間數據倉庫的實現。

3認知的概念定義

3.1世界模型

實際上,這些世界模型主要是依靠具體的實體模型或數據模型描述來實現的。每個世界模型均有其描述的地理空間對象,因此這些世界模型描述的內容大不相同,必須定義出這些世界模型。

3.1.1現實世界模型

現實世界中,人們能看到一系列物質和現象,對于這些物質和現象,不管是否能叫上名字,它們都是客觀存在的,并且相互之間通過它們的關系組成了自然界的千差萬別。由此可見,能將現實世界中所有物質和現象集合以及它們之間的相互關系用一定的形式進行描述就是現實世界模型。

現實世界的物質和現象集合中,隱含著許多不同的地理現象類,如地質、礦產、石油、自然地理等地理現象類。地理現象類是現實世界的一個子集。由此可見,能將現實世界中所有地理現象類集合以及它們之間的相互關系用一定的形式進行描述就是地理現實世界模型。

本文原文

3.1.3地理工程現實世界模型

地理現實世界的地理現象類集合中,特指一個或若干個地理現象就是地理工程現實世界,如自然地理等。地理工程現實世界是地理現實世界的一個子集。由此可見,能將地理現實世界指的地理現象以及它們之間的相互關系用一定的形式進行描述就是地理工程現實世界模型。

3.1.4地理工程概念世界模型

要用計算機來描述地理工程現實世界中的地理現象,就必須對它們進行抽象描述,形成地理現象在人們頭腦中的反映,生成概念模型。由此可見,能將地理工程現實世界指的地理現象以及它們的內部關系用一定的形式進行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

將地理現象抽象成概念模型,僅有這些還遠遠不夠,因為現實世界中的所有地理現象均是有度量的,所以用計算機描述這些地理現象時,也必須是可度量的。度量主要包括描述地理現象的歐幾里德幾何坐標系和數學單位尺度。由此可見,對地理工程概念世界中的抽象地理現象進行歐幾里德幾何坐標系和數學單位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分類世界模型

按照GIS理論,概念中的地理現象最終都是通過多種地理要素來表達的,因此如何對地理要素進行合理的設計和劃分就顯得十分重要。根據ARC/INFO的分層理論,只有將這些地理要素進行分類分級,才能高效地處理它們。由此可見,對地理工程尺度世界中具有尺度度量的地理現象進行地理要素的分類分級描述就是地理要素分類世界模型。

3.1.7地理要素編碼世界模型

要使計算機能識別和處理地理要素,就必須給這些地理要素進行分類分級編碼,即用一串數字來表示它們,該分類分級編碼就成為該地理要素在計算機中的唯一標志符,以便計算機能識別和處理。由此可見,對地理要素分類世界中具有明確分類分級定義的地理要素進行分類分級編碼描述就是地理要素編碼世界模型。

3.1.8地理要素幾何世界模型

為了便于計算機的存儲和管理,必須將地理要素細分為幾何目標。地理要素幾何目標包括基本目標和復合目標。基本目標按地理要素的空間特征劃分為點狀目標、線狀目標、面狀目標、體狀目標和表面狀目標等五種;復合目標由基本目標集合嵌套構成。由此可見,對地理要素編碼世界中具有明確分類分級編碼的地理要素進行幾何目標的劃分和描述就是地理要素幾何世界模型。

3.1.9地理要素集合世界模型

因為地理要素在一定的條件下由相同或不同的點、線、面、表面和體等五類空間目標組合而成,所以在實際使用中,必須通過計算機系統把數據庫中存儲的基本目標、復合目標還原成地理要素。由此可見,對地理要素幾何世界中具有基本目標、復合目標描述的地理要素進行數據庫的幾何目標集合操作就是地理要素集合世界模型。

定義9地理要素集合世界模型。設Con中地理要素點狀目標、線狀目標、面狀目標、體狀目標、表面目標集合分別表示為Po、Lo、Ao、To、So,Atr為地理要素的某一地理特征集合,則地理要素集合世界模型為Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空間抽取世界模型

地理空間抽取的主要功能就是從源數據庫中按地理區域范圍(矩形、橢圓、多邊形等)抽取出滿足一定條件的不同種類的地理空間數據。由此可見,對地理要素集合世界中的地理空間數據按一定地理區域范圍和地理特征進行抽取的操作描述就是地理空間抽取世界模型。

3.1.11地理空間整合世界模型

數據庫中存儲的地理空間數據是以圖幅為單位組織的,但應用系統使用數據是無圖幅概念的,是以地理區域范圍為組織的。由此可見,對地理空間抽取世界中抽取出的地理空間數據進行圖形裁剪、圖形拼接、圖形接邊、圖形編輯和拓撲重組等整合處理,形成以地理區域范圍為組織的無縫數據集合操作就是地理空間整合世界模型。定義11地理空間整合世界模型。設Con中圖形裁剪、圖形拼接、圖形編輯、圖形接邊、拓撲重組功能分別表示為Cut、Stitch、Meet、Edit和Topology,整合功能集合表示為Fun={Cut,Stitch,Meet,Edit,Topology},則地理空間整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空間統一世界模型

實現地理空間數據整合后,必須對來自不同源數據庫中的地理空間數據進行統一,因為地理空間數據存在著差異。這些差異表現在如下方面,即數學基礎差異、數據編碼差異和數據格式差異、數據精度差異。由此可見,對地理空間整合世界中的地理空間數據進行數學基礎、數據編碼、數據格式、數據精度的統一操作和描述就是地理空間統一世界模型。

3.1.13地理空間產品世界模型

隨著應用的深入,單純的地理空間數據已越來越不能滿足用戶的需求,用戶更加希望使用的是經過測繪專業處理的、經過二次加工處理的地理空間數據產品,后者在實際中具有更大的應用價值。由此可見,對地理空間統一世界中的地理空間數據進行測繪專業處理生成空間數據產品的操作就是地理空間產品世界模型。

定義13地理空間產品世界模型。設Con中單一、集成、融合、派生和關聯的功能分別表示為Single、Integrate、Fuse、Derive和Relate,測繪專業處理算法集合為Fru={Single,Integrate,Fuse,Derive,Relate},則地理空間產品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空間決策世界模型

建立空間數據倉庫的最終目的是為空間決策支持服務,為用戶提供大量的具有空間決策支持的信息,這可通過空間數據倉庫中的空間數據立方體分析和空間數據挖掘分析來實現。由此可見,對地理空間產品世界中的空間數據產品進行空間數據立方體分析和空間數據挖掘分析,生成空間決策支持信息的操作和描述就是地理空間決策世界模型。

定義14地理空間決策世界模型。設Con中的空間數據立方體分析和空間數據挖掘分析分別表示為Scube、Smine,空間決策分析算法集合為Sdss={Scube,Smine},則地理空間決策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2轉換算子

在空間數據倉庫的認知過程中,14個世界模型的變換離不開13個轉換算子,即命名、選擇、抽象、度量、分層、編碼、測量、聚集、提取、處理、變換、計算和分析,由它們實現每兩個世界模型的轉換。這些轉換算子主要是依靠元數據來實現的,因為每個世界模型均有描述它的元數據,要實現兩個世界模型的轉換,通曉這兩個世界的元數據是轉換的前提。雖然這些轉換算子的具體定義不同,但它們都是實現每兩個世界模型的轉換,從數學的定義上說就是由某個世界模型通過函數轉換到另一個世界模型上,因此這些轉換算子的宏觀數學定義是一致的。

4結束語

目前,空間數據倉庫理論和技術研究才剛剛起步,其目標是支持數字地球發展、空間數據集成、空間決策支持發展的需求。因此應該抓住這個千載難逢的好機會,將我國的空間數據倉庫研究與建立邁上一個新臺階,以支持我國的空間數據基礎設施建設。本文對空間數據倉庫的概念框架和認知過程體系進行了一定程度的技術探討,希望能起到拋磚引玉的作用。

參考文獻:

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]趙霈生,楊崇俊.空間數據倉庫的技術與實踐[J].遙感學報,2000,4(2):157-160.

[10]李琦,楊超偉.空間數據倉庫及其構建策略[J].中國圖像圖形學報,1999,4(11):984-990.

[11]楊群,閭國年,陳鐘明.地理信息數據倉庫的技術研究[J].中國圖像圖形學報,1999,4(8):621-626.

[12]周炎坤,李滿春.大型空間數據倉庫初探[J].測繪通報,2000,22(8):22-23.

篇6

關鍵詞:空間數據倉庫

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)33-9532-02

The Application of Spatial Data Warehouse Technology

HUANG Hai-yan

(Faculty of Information Science and Technology,Jiujiang University,Jiujiang 332005,China)

Abstract: The article elaborate conception, characteristic and function of spatial Data Warehouse.It analyzes how spatial Data Warehouse help moden enterprise make decision.

Key words: spatial Data Warehouse

隨著企業管理技術的不斷提升和信息系統的廣泛應用和逐趨完善,企業相應的信息數據量也得到了極速增長。同時,隨著數據庫技術應用的發展,企業決策人對于數據的應用提出了更高的要求,己不僅僅滿足于對事務處理的電子化與自動化,還希望能夠提供更多的對于數據進行分析、統計、趨勢預測,從而對于管理決策提供支持。由此,數據倉庫及相關技術應運而生。

1 空間數據倉庫的簡述

空間數據倉庫是今年來數據倉庫思想在空間信息科學領域延伸的產物。數據倉庫是一個面向主題的、集成、穩定的、包含歷史數據的數據集合,用于支持經營管理中的決策制定過程。傳統的數據庫是聯機事務處理系統,處理和存儲日常業務數據,無法實現更高層次的分析處理各種類型信息的任務。而數據倉庫從各數據庫中按專題和內容等提取數據,并對所提取的數據進行預處理,可以支持在線分析處理,利用存儲在數據倉庫中的數據完成各種分析操作,以直觀易懂的形式將分析結果返回給決策分析分員。目前,數據倉庫在許多需要大型數據庫管理海量數據和對數據進行分析的行業如通信、金融等領域得到了成功的應用。

空間數據倉庫的特點:與傳統空間數據庫面向應用進行數據組織的特點相對應,空間數據倉庫的數據是面向主題進行數據組織的。它在較高層次上將企業信息系統中的數據進行綜合、歸類,并加以抽象地分析利用。空間數據倉庫的數據是從原有的空間數據庫數據中抽取來的。因此在數據進入空間數據倉庫之前,必然要經過統一與綜合,這一步是空間數據倉庫建設中最關鍵、最復雜的一步,所要完成的工作包括消除源數據中的不一致性和進行數據綜合計算。空間數據倉庫中的數據主要供決策分析之用,所涉及的數據操作主要是數據查詢,一般情況下并不進行修改操作。空間數據倉庫的數據反映的是一段相當長的時間內的數據內容,是不同時間的空間數據庫快照的集合和基于這些快照進行統計、綜合和重組導出的數據,而不是聯機處理的數據。空間數據庫中進行聯機處理的數據經過集成輸入到空間數據倉庫中,一旦空間數據倉庫存放的數據已經超過空間數據倉庫的數據存儲期限,這些數據將從空間數據庫中刪去。空間數據倉庫的數據是隨時間的變化不斷變化的,它會不斷增加新的數據內容,不斷刪去舊的數據內容,不斷對數據按時間段進行綜合。

2 空間數據倉庫的應用

2.1 空間數據倉庫的功能

空間數據倉庫在數據倉庫基礎上引入空間維,根據主題從不同的GIS應用系統中截取從瞬態到區段直到全球系統的不同規模時空尺度上的信息。空間數據倉庫主要實現三個功能:1) 從分布式空間數據庫中獲取空間數據;2) 對數據進行動態綜合、集成、管理和分析;3) 提供空間信息訪問。通過空間數據倉庫技術,可以將來自不同專業領域的相關數據,按照選定的主題轉換成統一的格式,集成、存儲在一起,實現空間和非空間的分析操作,然后借助各種專業模型通過數據挖掘技術從數據中發現知識,為輔助決策提供支持。

2.2 空間數據倉庫的作用

空間數據倉庫是分析型數據庫,根據主題通過專業模型中不同空間數據庫中的原始業務數據進行抽取和聚集,為用戶提供一個多視角、綜合、全面的分析決策支持環境。空間數據倉庫是一種基于空間數據管理和利用的綜合性技術,它使得現有的傳統空間數據系統由操作型向分析型轉變。在競爭日益激烈的市場中,能否迅速做出更好的決策關系到銀行是茍且偷生還是繁榮興旺。銀行需要對各種壓力迅速做出反應,包括不斷加劇的競爭、行業的無規律發展、企業并購、產品和市場革新、傳統系統的重組等。 如今大多數企業并不缺少決策的數據,這些數據包括:聯機交易的歷史數據、研究分析結果、Internet提供的數據……數據幾乎無處不在。因此,關鍵不在于數量,而在于質量――是否一致、準確、具有時效性和復雜度。 在過去幾年中,許多企業認識到了這一問題,并開發了各種系統,如決策支持系統、管理信息系統、運作信息系統。這些系統從各種源系統中下載數據,通過運行一些相應的程序進行查詢等操作。 但由于這些系統基本上都是基于主機的,功能有限,比如:聯機無法進行數據分析;數據是離散的、冗余的;用戶訪問過于復雜;用戶訪問降低了業務操作的效率。聯機系統一般的設計原則是以最快速度更改一條記錄,而不是用于數據分析,也不是按照某一標準瀏覽數據和對數據進行排序,以及對數據進行計算。 與之相比,數據倉庫卻能夠實現快速數據查詢,幫助銀行挖掘其傳統系統中潛在的無法被直接利用的信息。

3 結束語

空間數據倉庫的構建是一個處理過程,空間數據倉庫是―個從多個數據源收集的信息存儲庫,存放在一個一致的模式下并且通常駐留在單個站點。數據倉庫通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新過程來構造。數據倉庫系統由數據倉庫、數據倉庫管理系統、數據倉庫工具三個部分組成。在整個系統中,DW居于核心地位,是信息挖掘的基礎;數據倉庫管理系統負責管理整個系統的運作;數據倉庫工具則是整個系統發揮作用的關鍵,包含用于完成實際決策問題所需的各種查詢檢索工具、多維數據的OLAP分析工具、數據挖掘DM工具等,以實現決策支持的各種要求。

參考文獻:

[1] 鄒逸江.空間數據倉庫研究綜述[J].測繪學院學報,2002(3).

[2] 陳文偉.數據倉庫與數據挖掘教程[M].北京:清華大學出版社,2006.

篇7

關鍵詞:數據庫技術;聯機分析

中圖分類號:TP311 文獻標識碼:A文章編號:1007-9599 (2011) 16-0000-01

The Analysis of Data Warehouse Technology and Application

Fu Shuguang

(Qingdao Hismile College,Qingdao266100,China)

Abstract:with the development of society,information has become an important feature of today's society, a lot of information and data are required to have a scientific technology to study and analysis,database technology will emerge as the times require,is a product of the development of the computer,business and other fields play a vital role.This article from the database technology and the characteristics of the development of analysis,analysis of the database in various fields of application.

Keywords:Database Technology;Online Analysis

數據倉庫技術作為一門計算機應用技術,是新興的技術,也是這個時代對信息化管理發展的一個產物,數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合數據倉庫,英文名稱為Data Warehouse,可簡寫為DW。在市場競爭日益加劇的今天,不管是企業還是社會團體,都需要把市場經營或者社會服務同各種需求相聯系起來,把市場上的各種數據進行有效的統計和分析,從而做出科學正確的決策。所以,對于數據倉庫技術在各個企業和社會團體進行收集、存儲和研究各種數據的環節就起到了尤為重要的作用。

一、數據倉庫技術概述

(一)含義

數據倉庫概念創始人W.H.Inmon對數據倉庫的定義:數據倉庫是面向主題的、集成的、相對穩定的、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程、數據倉庫中的數據面向主題,與傳統數據庫面向應用相對應。

(二)數據倉庫的發展

數據倉庫技術是信息化高速發展的產物,它是基于信息系統業務發展的需要,基于數據庫系統技術發展而來、并逐步獨立的一系列新的應用技術。它是在傳統的數據庫技術的基礎上發展而來的新的應用技術,傳統的數據庫技術是一種單一的數據資源,是以數據庫為中心,進行事務處理以及批處理再到決策分析的各種類數據處理工作。而數據倉庫技術不單單是這種單一的數據資源,實現了對決策主題的存儲和綜合等特點。隨著數據倉庫技術在應用過程中的不斷深入,近些年,數據倉庫技術得到了長足的發展,各行各業已經能夠接受“整合數據,從數據中找知識,運用數據知識、用數據說話”等新的關系到改良生產活動各環節、提高生產效率、發展生產力的理念。

(三)數據倉庫的作用

建立數據倉庫系統,可以更加科學的收集、存儲以及管理業務中的各種數據,從而不斷分析市場已經各種因素,不斷改善和提高工作人員的工作效率,更科學的分析數據用來指導管理過程中的各種行為,如在客戶的研究方面,在應用系統和企業行為方面,以Internet和電子商務、專家系統、多媒體數據挖掘和人工智能以及呼叫中心等信息技術為基礎,從而實現企業識別、保留以及挽回最具價值的客戶,從而提升企業的核心競爭力。

二、企業數據倉庫的應用

數據倉庫的應用主要表現在數據的抽取、數據的存儲和管理、信息的探索、集成和轉換以及避免臟數據的進入、質量的管理和數據。總的來說,企業數據倉庫是一個環境,是通過有效的信息來不斷滿足企業的決策的制定過程,換言之就是通過企業數據倉庫來對企業的一些決策進行指導。也可以說是一個企業的數據庫的平臺,這些數據來源于各種各樣的數據源,并經過一定的過程如抽取篩選清晰以及轉換后根據用戶的查詢適時的提供給用戶的這么一個平臺。企業數據倉庫包含綜合數據、分粒度的數據、歷史數據、共享數據,是一個企業決策的基礎,擁有大的存儲量,對企業來說具有極其重要的作用。

數據倉庫應用在不同的企業和單位,在資源環境企業中的應用,能夠利用空間數據倉庫技術不斷規范、提煉和集成環境數據,按照不同的決策主題來組織數據,而且還能用于支持環境管理制定決策,使相關部門利用決策支持分析工具從資源環境的信息池中提取、分析數據,為資源環境的發展做出有利的貢獻。在公路交通方面的應用,公路數據倉庫是一項綜合且復雜的信息化系統工程,是公路工程、大地測量、地理學、計算機科學、系統工程、統計學、管理學等學科還有技術的結晶,它改變了傳統的信息處理的方式,使交通規劃、建設、運營和管理變得直觀、輕松和高效。可以說數據倉庫是公路交通管理步入數字化的標志。數據倉庫在醫院中的應用,現代醫院中,電子病歷廣泛使用,,挖掘海量病案數據中所潛藏的信息進行支持決策是醫院提高管理水平的一個重要的手段,通過數據倉庫在病案數據的分析中的應用,如,根據某醫院常發疾病的治療和新生兒出生的情況,建立病案數據倉庫,借助聯機分析技術來對對病案中的發病率、治愈情況等進行分析,為疾病的預防、醫院的管理決策,提供可靠的數據支持。數據倉庫技術在銀行業的應用,解決客戶關系以及企業在收入、成本、預算方面的分析,一些收入的發展、項目的狀況及預算狀況進行全面分析,使領導能夠及時的得到企業發展情況報告。

三、結論

隨著數據倉庫技術應用的不斷擴大,各行各業都已經通過數據倉庫技術來對各種數據進行分析以不斷地提升自身的各種競爭力和競爭水平。在信息化如此發達的今天,數據倉庫技術已經作為一門新興的技術在各個領域內發揮著極其重要的作用,企業如何根據自己企業自身的情況來應用這種技術,如何在競爭如此強烈的市場占有一席之地,應用好數據倉庫不斷解決企業發展中遇到的問題,將對企業有著積極的作用。

參考文獻:

[1]張維明等.數據倉庫原理與應用[M].北京:電子工業出版社,2002

[2]彭木根.數據倉庫技術與實現[M].北京:電子工業出版社,2002

篇8

【關鍵詞】數據倉庫;科研管理;應用

在科研項目質量管理中,科研數據以及科研資源的管理、科研檔案管理等等,都是其中的重要組成部分,通過數據庫,實現對科研管理的規范化、科學化,同時,也應當努力規范和提高科研管理運行機制,健全約束機制,完善科研項目的管理評標體系,這都是提高我國科研管理水平行之有效的途徑。

一、數據倉庫概述

數據采集是數據倉庫構建中的重要內容,從數據源中抽取所需要的數據,然后對抽取到的數據進行清洗,將其按照一定的數據倉庫的模型,放到數據倉庫中。數據采集中的數據抽取其實就是數據源接口,數據源接口從不同的系統中抽取所需要的數據,將其作為數據倉庫的輸入數據,數據轉換是對不同系統中生成的數據源進行處理,保證這些不同的數據源可以按照規定的要求輸入到數據倉庫中。數據清洗是對所有的數據進行處理,使得數據集中的所有數據值保持一致,并可以正確的對這些數據進行記錄。而數據的裝載是按照一定的模型將以上經過數據抽取、轉換、清除的所有數據裝入數據倉庫中,在數據進入數據倉庫的過程中還包括了將數據域清除、對數據進行有效的檢查等。

二、數據倉庫在科研管理中的應用研究

(一)數據倉庫的核心技術――ETL技術

在科研管理中,管理人員需要隨時獲取所需要的數據和信息,因此,通過數據倉庫,將外部數據和內部數據進行整理和儲存,并且為數據的查詢提供了極大的便利。但是這些數據信息有不同的來源,具有數量、不清潔等諸多不良特點,進而不能直接對這些數據進行使用,也不能直接將這些數據輸入到數據倉庫中,所以需要對這些數據先進行處理分析,然后再將這些數據以高質量輸入到數據倉庫中供用戶使用。因此,數據倉庫的核心技術――ETL技術負責對數據信息進行清洗、轉換等,保證數據信息質量的一種技術,ETL技術可以將數據分散、數據不清等問題進行解決,保證數據信息可以高質量的輸入到數據倉庫中供企業的各部門安全使用。

(二)數據倉庫用于科研數據的快速檢索、查詢

數據倉庫是為了實現數據的存儲、檢索以及表達,例如當數據倉庫中的數據需要從一種形式轉換成另一種形式時,ETL的數據轉換就需要進行考慮,同時ETL中的數據抽取、轉換、裝載等都需要變成轉換操作,所以對于數據倉庫而言數據轉換是其核心部分。數據倉庫實質上是一個獨立的數據環境,它需要從不同的系統中抽取所需要的數據,然后通過ETL技術將這些數據進行處理,處理過后的數據信息才可以安全的輸入到數據倉庫中。ETL技術主要涉及到互連、復制、轉換、監控等方面的內容,在數據倉庫中的數據不需要和處理系統中、或者其他相關系統中的數據保持同步,盡量保證數據倉庫中信息的有效性。

為了將數據冗余等問題進行避免,在抽取的數據進入到數據倉庫之前,需要對其進行有效性檢查,這項工作在數據倉庫數據輸入中非常重要,如果沒有對這些即將輸入到數據倉庫的數據進行有效性檢查,就會對整個數據倉庫的完整性產生破壞,或者將其破壞的幾率大大的增加。對數據進行有效性檢查最好的方法就是源系統。在源系統中有專業的和非專業的技術知識人員,但是數據有效性檢查是一項費時又不可省略的一個環節,所以可以進行自動化的檢查。

(三)通過數據倉庫實現科研數據的清除及轉換

由于數據倉庫中的數據來自不同的數據源,這些數據源可能出現不同的平臺上,有不同的操作系統,所以這些數據會以不同的形式輸入到數據倉庫中。如何將這些數據加載,是數據倉庫建立中需要考慮的一個問題,在進行數據遷移的過程中,會將數據以一種適合數據倉庫的格式轉入數據倉庫中,這就是數據的格式化,對數據的處理是數據倉庫成功建立的關鍵,所以在數據提取的過程中,對數據進行格式化,從操作中實現數據資源的共享。ETL技術進行的數據有效性檢查是對數據進行標準給定的過程,如果數據的給定沒有在界定的范圍之內,那么它就是需要清除的對象。數據的清除包括了在給定界限范圍之外的數據,對這些數據采取一定的糾正措施。

通過數據倉庫,實現科研數據的轉換,是為了體現這些數據的價值,使其更加有意義,進一步推動科研工作的進程。在數據轉換的過程,使用最好的方法保證數據從原始儲存器到數據倉庫的過程是同步的,將數據轉換的重點放在語言的標準化、數據移動、通信等方面,數據的轉換除了自動化轉換以外,還具有一定的復雜性,所以在ETL數據轉換工具、技術不斷更新的同時,還需要將其復雜性進行解決。

(四)數據倉庫與科研數據動態更新

隨著科研進程的推進,數據倉庫也需要伴隨著科研數據的動態進行更新,這樣,才有助于實現數據的時效性。對檢查驗收之后的業務數據進行相應的更新,其他的數據都是在年底的時候才進行統一的更新。兩項或者兩項以上的、連續生產經營活動的變化和更新,都會被看作是多次變化,需要分別進行更新。數據倉庫更新方法主要是主鍵關聯法,主鍵關聯法就是要求被更新的數據庫和更新數據庫具有相同標識的小班唯一鍵值,然后才可以進行一對一的關聯,最后才可以進行數據倉庫數據的更新,主要更新的手段是字段更新。在對數據倉庫進行更新時,必須保證的是一對一的關聯,要不然會產生錯誤的邏輯關系。

(五)數據倉庫在科研檔案管理中的應用

通過數據倉庫來實現科研的檔案管理工作,對完善科研檔案管理具有重大的意義。對科研課題檔案資源進行研究和開發利用,檔案管理人員要注意聯合課題研究人員一起,及時的對各種課題檔案進行整理,通過數據倉庫,對檔案資源進行整合。然后積極的利用各種信息化技術,有效實現檔案資源的共享。并努力的深入研究開發各種檔案資源,更好的為經濟建設提供服務,最大程度的妥善利用各種檔案資源,保證科研究成果的最大化利用。從而有效的實現通過合理的利用促進科研工作的快速發展的目的,取得較大的經濟社會價值。

三、結語

針對現階段我國研究所科研項目管理工作中存在的問題,積極運用數據倉庫,來實現對科研數據資源的整合及管理。依靠數據倉庫實現科研檔案的規范化管理,以科研動態為基礎,及時更新數據倉庫,保持數據倉庫的時效性。數據倉庫在科研管理中的應用,進一步優化了我國科研管理工作,提高了科研管理的質量和效率。努力提升我國科研管理能力,完善科研項目管理程序,使該管理體系逐步趨向規范化、成熟化。

參考文獻:

[1]焦振.基于Oracle的人事科研數據倉庫設計與實現[J].安陽師范學院學報,2013,(2):46-50.

[2]湯雪,趙衛東,呂萬里等.高校教職工科研管理系統數據倉庫設計[J].福建電腦,2010,26(2):119-119,102.

[3]肖紅玉,黃靜,陳海等.數據庫技術在科研管理系統中的應用[J].制造業自動化,2010,32(10):68-70.

[4]巫莉莉,張波,李濤等.高校科研管理系統智能分析模塊的分析與實現[J].計算機工程與設計,2010,31(11):2641-2644.

[5]胡君.基于數據倉庫的科研管理系統設計與實現[D].中國地質大學(武漢),2011.

篇9

隨著社會的進步與科技水平的提高,互聯網在各個領域被廣泛的使用,為了實現更好的組織決策和服務,互聯網管理人員對大數據的重視程度越來越高,對大數據進行了詳細的獲取、應用以及分析的深入研究。就目前而言,手機使用率與普及程度已經達到了很高的程度,移動互聯網APP的用戶也在不斷的增加。為了有效的開發和改良APP軟件,時其可以更好的服務于客戶,相關的APP管理人與開發人員需要針對用戶群體進行高度分析與調查,認識客戶的需求,如此大量的數據分析也就需要構建相應移動互聯網APP數據倉庫,開發人員也需要對這項工作高度的重視。本文通過分析移動互聯網APP數據倉庫的應用,提出有效的具體策略,以供開發者參考與借鑒。

【關鍵詞】移動互聯網 APP 數據倉庫 應用分析

網絡信息技術如今正處于高速發展的階段,大數據逐漸被社會各界重視起來,數據倉庫作為數據挖掘和分析的重要平臺,在各個行業中被廣泛的使用。數據倉庫可以記錄每一個人網絡中進行的操作與行為,并以數據的形式存儲起來,為開發者與管理者提供了大量的數據信息,穩定了數據來源。移動互聯網APP自身具備便捷、用戶流量較小、數據變化快速等特點,對于此特點使用現有的大型數據倉庫并不合適,可以針對移動互聯網APP的特點開發適用于其的數據倉庫,對移動互聯網的用戶行為與需求進行有效的收集和存儲。

1 建立適用于移動互聯網數據倉庫的必要性

數據挖掘與分析是目前人工智能與數據倉庫的熱門要點,目前這樣的數據處理技術是通過數據庫,將其中的有價值的、隱藏的數據抽離出來,為開發者與管理者策略提供相應的線索。數據倉庫則是實現這一技術的重要平臺,其通過將用戶的行為與需求已數據的形式進行記錄,建立龐大的數據集合,為開發者與管理者提供有效的信息。

目前,智能手機的普及程度在不斷的上升,移動互聯網的用戶也在不斷的增加,可以說現在每一個人都可以使用手機在互聯網上進行活動,已經成為了人們日常生活當中不可缺少的必須品。手機具有通信、娛樂、購物等眾多的功能,占據了人們日常生活的大部分空間與時間。為了跟隨時代的腳步,更好的為手機用戶提供服務,移動互聯網的開發者開始著手于對數據倉庫的建設,利用先進的數據技術,對用用戶的需求進行詳細的分析與研究,就手機用戶流量小、數據變動較快、數據復雜的特點而言,構建適用于移動互聯網的數據倉庫迎合了時代的腳步又滿足了用戶的需求,是十分必要的。

2 移動互聯網APP數據倉庫的應用需求

關于移動互聯網APP的數據挖掘與分析,其自身具有一定的用戶使用的規律與特點,因此要構建適合移動互聯網APP的數據倉庫。首先,移動互聯網APP其自身的數據規模并不是很大,由此可見數據倉庫的構建并不需要大型的,要更加的靈巧、便捷,并且不會占用大量的儲存空間,能夠及時的反應用戶的行為。再者,移動互聯網APP的數據是在時刻變動的,沒有相應的規律可循,這就需要數據庫頻繁的上傳數據,盡快對實時的用戶數據進行分析和處理,為開發者和管理者留有充裕的時間做出決策。最后,數據倉庫要具有一定的安全性與有效性,避免數據丟失與遺漏的情況出現,為移動互聯網APP開發者上傳有效可觀的數據資料,保持其數據、信息與參數的高度統一,確保數據的準確性與可行性。

3 移動互聯網APP數據倉庫的設計思慮

在滿足移動互聯網APP數據倉庫的需求之后,開發者對數據倉庫的設計思路只要符合移動互聯網APP的特點與數據的規律就可以初步實現。構建移動互聯網APP數據倉庫包括以下幾個方面:首先,需要明確用戶在使用APP的時候所展現的形態,這種形態表現為關系型的數據聯系,其中包括了:個性信息、粉絲群體以及與其他用戶的互動行為,以及用戶自身的登錄時間規律等。因此關于數據的分析與記錄的工作,需要從數據之間的兼容性以及數據看的從屬關系入手,將數據自動同步到數據倉庫之中。再者,用戶在使用移動互聯網APP的時候,所產生操作數據,可以及時的在服務器上產生相應的日志。這些日志一般都是以文件的方式儲存而來的,規模較大、內容較為隨意。對于這樣的數據我們需要做的就是在規律性的時間內對這些數據進行整理并錄入到數據倉庫當中,在轉化這些數據的時候,需要保證數據的安全性與有效性,避免對數據進行改變。其次,客戶端產生的數據,以及數據的形式都不具備規律性擁有較大的隨機性,但是這些數據往往反映了用戶對APP的使用情況。這類信息的存儲要保證一定的完整性,以便管理者與開發者可以有效的分析用戶的行為規則,探索用戶實際的操作行為。最后,對于前端數據的錄入到數據倉庫之中,首先需要對這些數據進行檢驗,確保數據的一致性,排除多余參數與無效格式(如圖1)。

4 移動互聯網APP數據倉庫應用實踐

4.1 移動互聯網APP數據庫收集的數據情況

在互聯網APP投入使用的過程當中,原始數據和變遷數據的表現形式主要變現為以下三個方面:

(1)同步到繼承前端數據倉庫中的數據,這一類數據,是未經過加工的數據,具有較好的即時性,以及自我同步與可隨時查閱的特性。由于這些數據沒有經過處理,因此這一類的數據不利于整合與分析,更適合作為即時信息進行查閱。

(2)通過服務器手機的數據,這些數據是經過格式化處理的信息,被收錄在數據倉庫已經建立的好的數據表格當中。但是由于用戶的行為不斷的變動所以日志的內容也在不斷的增加與更行的,因此對于這一類的信息,通常需要經過固定時間來進行收集。在收集記錄這些數據的時候,系統會對于之前的信息進行切斷性的總結,避免數據出現丟失與損失。日志數據要比前一個數據占有更多的空間,對此,這部分數據需要比之前的要大10倍,同時采用階段式的數據收集方式,避免別前端數據的影響。

(3)來自客戶端的集成日志。來自客戶端的操作日志,具備有序性、不完整性,它們是非格式化的數據。為保證其完整和規范,需要在導入到數據倉庫前,集中對其進行格式化的操作。首先,需要進行數據清理和補齊。因為這部分數據在收錄過程中會收錄到系統自動生成的日志或者機器人操作產生的日志,因此,需要根據 APP 自身的特點,進行數據清理。而部分數據會有缺失字段的現象,通過設置,可以對發生字段缺失的數據進行補齊。然后,對數據進行格式化處理,將所有字段進行整理,形成統一完整的文本。最后,在數據倉庫中建立好與格式相匹配的數據表,將格式化后的數據信息導入到數據倉庫中。

4.2 實際應用與數據倉庫的管理

移動互聯網APP數據倉庫的具體管理方式對應其表現的數據形式,這一部分是數據倉庫運行的關鍵。移動互聯網APP數據倉庫的具體管理方式為一下這三個方面:

4.2.1 利用關系數據庫系統

海量的數據存儲,要保證其有序可操作行,就必須利用關系數據庫系統,通過大量的時間積累,數據在不斷的增加,關系數據庫可以保證這些數據有序的運行并且依然具備可操作性。

4.2.2 并發操作技術的應用

對于APP而言其用戶的訪問量較而且較為集中,數據之間常處于并行狀態,這就需要采用并行操作,將用戶的需求都可均勻的滿足,不會出現網絡擁堵的狀態。此外關于整體數據的處理,并行操作還可以對所有的數據進行查詢和分解,使得數據擁有高利用率。

4.2.3 優化支持查詢

移動互聯網APP數據倉庫的關系數據對于決策的查詢功能還不完善。但是結合優化過后的查詢其等技術,可以使得決策的查詢處于合理化有效化(見圖2)。

數據倉庫最主要的功能就是對數據的表現以及分析,其可以有效的反應數據的具體情況,為開發者與管理者提供相應的對策。如今的移動互聯網APP數據倉庫對數據的表現形式主要集中在多想數據的挖掘以及分析上面。在數據倉庫的運用當中,多為分析起到了重要的作用,可以幫助開發者與管理者從多個元度進行比較,數據統計的方式已經被廣泛的運用,并且其收益十分之高。

5 結語

移動互聯網APP數據倉庫的使用可以為APP開發人員提供海量的參考信息,可以更加便捷快速的了解用戶的需求與滿意程度。數據倉庫的應用在數據挖掘中具有很高的使用價值和更高的性能,此外,數據倉庫的投入較少,性價比極高。其在大數據挖掘、分析以及移動互聯網APP領域有著較高的發展空間。要開發者更深入的進行了解與創新,使數據倉庫發揮自身的價值與潛能,為開發者提供更為有效的信息。

參考文獻

[1]黃國賢.移動互聯網APP數據倉庫的應用實踐研究[J].科技傳播,2016,8(03):67,75.

[2]沈偉,汪海航.移動互聯網APP數據倉庫的實現與應用[J].科技風,2015(06):93-94.

[3]賈慶華.移動互聯網APP數據倉庫的應用實踐研究[J].通訊世界,2016(09):30-30.

[4]王恂.大數據背景下基于Hbase技術的移動統計平臺研究[J].無線互聯科技,2015(13):47-48.

篇10

1.數據倉庫的定義

目前,數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書中給予如下描述:數據倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(TimeVariant)的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。

2.數據倉庫的特點

(1)面向主題。操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。

(2)集成的。面向事務處理的操作型數據庫通常與某些特定的應用相關,數據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。

(3)相對穩定的。操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

(4)反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。

二、決策支持系統(DSS)

1.數據倉庫化決策分析系統的體系結構

這一結構首先從各類異構的數據庫中通過數據復制技術,將數據復制到數據倉庫中。然后,在數據倉庫的基礎上建立數據立方體,實現OLAP。最后,客戶端訪問服務器采用了三層結構,通過HTTP方式直接訪問數據庫。而傳統的數據倉庫一般采用C/S結構。對于C/S結構,一般說來客戶端維護比較困難,而且應用局限在局域網內。對于網絡結構復雜,訪問需要經過防火墻的情況,難以處理。這里采用三層結構有效的解決了這一問題。

2.構建決策分析系統的幾個關鍵技術

(1)各庫管理系統。在DSS中有數據庫管理系統、模型庫管理系統、知識庫管理系統。它們分別對數據庫、模型庫、知識庫進行有效的管理。各庫管理系統有其共性也有各自的特點,需要進行分別處理。

①數據庫管理系統。作為DSS中的數據庫,系統可以采用已成熟的數據庫系統,也可以根據需要自行設計。采用已成熟的數據庫系統,可以減少實現數據庫管理系統的大量工作,但是要解決好決策支持系統與數據庫系統的接口。如果自行設計數據庫系統,就要按數據庫系統的要求,設計和完成一套數據庫語言來實現數據庫的功能。

②模型庫管理系統。建立模型庫管理系統同數據庫管理系統一樣,要設計一套模型庫管理語言來實現對模型庫的一般管理和特殊管理功能。一般的管理包括對模型的增加、刪除、修改以及查詢等功能。由于模型有源程序文件和目標程序文件的特點,故需要增加對模型源文件的編輯和編譯等功能,這是模型庫的特殊管理功能。

③知識庫管理系統。知識庫是由知識文件庫組成。類似于數據庫管理系統,知識庫管理系統需要有對各類知識的基本管理功能,即對知識進行增加、刪除、修改等維護功能以及查詢功能等。對知識需要進行特殊管理,即對知識的一致性檢查。

(2)接口技術。在數據庫系統、模型庫系統和知識庫系統建立以后,部件之間的接口技術就突出了。

①模型存取數據庫的接口。

②知識存取數據庫的接口。

③模型庫和知識庫之間的接口。

3.統一集成技術

DSS是人機交互、問題處理、數據庫系統、模型庫系統、知識庫的有機集成體。對任一個實際決策問題,首先需要建立數據庫系統、模型庫系統和知識庫系統。再在各庫間接口的基礎上,利用DSS集成語言,對決策問題進行形式

化描述,形成統一集成各庫的問題處理系統,即統一集成的DSS。