神經網絡的基本概念范文

時間:2024-04-01 18:17:41

導語:如何才能寫好一篇神經網絡的基本概念,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1

關鍵詞: Hopfield神經網絡; 二值矩陣; OSTU算法;識別率

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)21-4925-04

1 原理概述

1.1 Hopfield網絡的拓撲結構

Hopfield最早提出的網絡是二值神經網絡,神經元的輸出只取1和-1,所以也稱離散神經網絡(DHNN,Discrete Hopfield Neural Network)。在離散Hopfield網絡中,所采用的神經元是二值神經元,因此,所輸出的離散值1和-1分別表示神經元處于激活和抑制狀態。

5 結束語

本文在前人研究成果的基礎上改進了對字符進行識別的算法,通過對大量隨機圖的仿真計算,最終的實驗結果表明,離散型Hopfield神經元網絡能有效地進行字符識別,并且識別速度快,自適應性能好,分辨率較高。通過實驗驗證,本算法達到了一定的識別率,能在實際生活中得到應用,但也存在一些缺點和不足,如對訓練樣本和識別樣本有一定的限制(盡管是為了方便訓練和識別),且神經網絡的設計方法在理論上還不是很完善,因此,還有待提取出新的方法,進一步提高識別率,識別系統的性能關鍵與瓶頸仍然在于字符識別的核心算法性能上,最終目標是研究零誤識率和低拒識率的高速識別算法。當然,我們也可以把此神經網絡的原理運用在其他的領域,以檢驗其算法的有效性。

參考文獻:

[1] Matlab中文論壇.MATLAB神經網絡30個案例分析[M].北京航空航天大學出版社,2009.

[2] 許錄平.數字圖像處理[M].科學出版社,2007.[3] 張良均,曹晶,蔣世忠.神經網絡實用教程[M].機械工業出版社,2008.[4] 張宏林.數字圖像模式識別技術及工程實踐[M].人民郵電出版社,2004.[5] 鄧麗華,崔志強,張靜.基于人工神經網絡的手寫體數字識別[J].三峽大學學報,2005(6):255-256.

篇2

【關鍵詞】BP神經網絡 高職 學生 體質 綜合評價 應用

【中圖分類號】 G 【文獻標識碼】A

【文章編號】0450-9889(2014)02C-0156-03

體質,是指在遺傳性和獲得性的基礎上表現出來的人體形態結構、生理功能和心理因素的綜合的、相對穩定的特征。對學生體質進行綜合評價,是一項復雜的工作。建立健全學生的體質評價體系,科學地評價學生的體質狀況,引導學生進行有針對性的體育鍛煉,對提高學生的身體素質將起到十分重要的作用。當前,數據挖掘技術在各領域的應用研究已取得很大的進展,而在學生身體素質方面的應用卻很少。基于此,本文探討BP神經網絡在高職學生體質綜合評價中的應用。

一、影響學生體質的指標分析

體質綜合評價是體育界研究健康問題的一個領域,它由人體的骨骼形態、身體機能、身體的綜合素質和人體所具備的運動能力等一系列綜合因素組成。這些綜合因素又可以通過若干個相互聯系、相互制約的數據指標體系來反映。學生的體質,除先天因素外,后天合理、系統、科學的運動訓練是必不可少的。對學生體質進行監測,指標的選取是一個很重要的因素。本文根據現試行的《大學生體質健康標準》,采用身體形態、身體機能和運動能力3個方面對學生的體質健康進行綜合評價。其中,身體形態用克托萊指數(體重/身高×1000)表示,該指標能有效地反映人體形態發育水平和勻稱程度。身體機能采用肺活量―體重指數和臺階試驗指數。肺活量―體重指數指標反映每千克體重肺活量的大小,即每1kg體重的肺活量的相對值來反映肺活量與體重的相關程度,從而能比較客觀地對不同年齡、性別的個體與群體進行定量比較分析。臺階試驗指標則通過有節律的登臺階運動持續時間(s)與恢復期測定的脈搏次數相應的比值來評價人體心血管功能,該指標反映學生的心血管系統功能,并間接推斷機體的耐力。本文采用的是中國改良臺階試驗,這兩個指標都是越趨于極值表示其身體機能越好。運動能力用立定跳遠、50米跑和引體向上表示。立定跳遠能體現人體在運動中的靈敏度,50米短跑表現人體在運動中的速度,引體向上能體現人體的靜力性力量。各要素之間密切相關,互相制約,又互相影響,是不可分割的整體。通過以上分析,可得本文所用學生體質健康評價指標體系,詳見表1。

表1 高職學生體質健康評價指標體系

項目 評價指標

身體形態 克托萊指數

身體機能 肺活量―體重指數

臺階試驗

運動能力 立定跳遠

50米跑

引體向上

二、BP神經網絡的基本概念

BP神經網絡是一種對可微分非線性函數進行權值訓練的多層前饋網絡,其基本結構如圖1所示。

輸入層 隱藏層 輸出層

圖1 BP神經網絡的基本結構

從圖1可以看到,BP神經網絡的基本結構是一個前向的多層網絡,該網絡由輸入層、輸出層以及一層或多層的隱藏層組成。BP網絡的輸出yk可以用公式描述為:

(1)

其中,Xj為輸入信號,Wkj為網絡的權值,θk為網絡的閾值,為 網絡的激活函數,k,j∈[1,n]。

在BP網絡中,同層的各神經元之間互不連接,相鄰層的神經元則通過權值連接。BP網絡的學習過程由兩部分組成:一是信息的正向傳播;二是信息的誤差反向傳播。在信息的正向傳播過程中,輸入的信息Xj經隱含層單元逐層處理,最終由輸出層輸出。在這個信息的傳播過程中,每一層神經元只對緊連接它的下一層神經元的狀態產生影響。如果網絡的輸出yk與實際期望的輸出產生的誤差E達不到預先設定的要求,此時,BP網絡轉入信息反向傳播階段。算法將誤差信號沿原來的連接通路反傳回來,并修正各層連接權值和閾值,直到網絡的輸出達到預期目標。

三、BP神經網絡在高職學生體質綜合評價中的具體應用

(一)數據的采集。這里以某高校為例,由于男生、女生個體之間的差異,為了簡化問題,本文選取2006~2008年大一的男生共8500人按表1所列指標進行各項測試。在測試過程中,遵循先靜止后運動的測試原則,在測試時各項目之間留有一定的間隔,從而使學生的體力與機能得到完全恢復,以保證學生能以最佳狀態參加測試。測試完成后,組織10個一線的、長期從事學生體質評測的體育教師對測試所得數據進行評測,所用評語為優、良、中、差4個等級。為了便于BP神經網絡的處理,將4個評價等級轉換為相應的二進制數值,如表2所示。收集到的原始測試數據如表3所示。

表2 評語等級對應的分值標準

評語等級 對應的分值

優 1000

良 0100

中 0010

差 0001

表3 高職學生體質測試原始數據(部分)

序號 克托萊指數(kg/cm×1000) 肺活量―體重指數(ml/kg) 臺階試驗 立定跳遠 50米跑(秒) 引體向上 綜合評價

1 352 90 78 2.45 7”3 16 良

2 318 73 65 2.39 7”7 13 差

3 372 81 83 2.61 7”1 13 優

4 349 61 81 2.52 7”2 8 中

5 356 87 89 2.63 6”7 11 優

6 323 73 73 2.39 7”6 12 中

7 367 79 85 2.61 7”2 11 良

8 373 75 82 2.46 6”9 15 優

9 326 83 69 2.39 7”7 11 中

(二)網絡的訓練過程。BP神經網絡處理的是[0,1]范圍內的數值,但是從表3學生體質測試的原始數據中可以看出,各評測指標所得數據差別較大,且屬性的取值多是大于1。因此,必須將這些數據轉化為[0,1]之間的數據。所用歸一化公式為:

(2)

其中,X是所收集的一組數據,MIX(X)和MIN(X)分別是這組數據的最大值和最小值,是映射后的數據。經過歸一化后的數據如表4所示。

表4 高職學生體質測試歸一化數據(部分)

序號 克托萊指數(kg/cm×1000) 肺活量―體重指數(ml/kg) 臺階試驗 立定跳遠 50米跑(秒) 引體向上 綜合評價

1 0.6182 1 0.5417 0.25 0.6 1 良

2 0 0.4138 0 0 1 0.625 差

3 0.9818 0.6897 0.75 0.9167 0.4 0.625 優

4 0.5636 0 0.6667 0.5417 0.5 0 中

5 0.6909 0.8966 1 1 0 0.375 優

6 0.0909 0.4138 0.3333 0 0.9 0.5 中

7 0.8909 0.6207 0.8333 0.9167 0.5 0.375 良

8 1 0.4826 0.7083 0.2917 0.2 0.875 優

9 0.1455 0.7586 0.1667 0 1 0.375 中

取2006、2007年的學生數據共6500筆作為訓練網絡用,余下的數據作為測試數據。

關于隱含層節點數的選擇是一個十分復雜的問題,隱層神經元數目的選擇對BP神經網絡的性能影響較大。如果網絡隱層神經元數量過少,則網絡所能獲取的用以解決問題的信息太少;如果隱層神經元數量過多,增加了網絡的訓練時間,甚至還會出現網絡過度匹配現象。實踐證明,隱層神經元個數n2和輸入層個數n1之間有以下近似關系:

n2+2n1+1 (3)

因此,本文采用三層BP網絡來進行建模。

從表4的數據可知,本例的BP網絡有6個輸入層,1個輸出層。根據公式(3)可求出BP網絡的隱層神經元個數為13。雖然有公式(3)作為指導,但BP網絡隱層的神經元個數并非一成不變。在BP網絡的訓練過程中,需要對同一樣本集采用不同隱層節點數的網絡進行訓練,直到網絡輸出穩定為止。最后,根據BP網絡的測試結果,把網絡輸出誤差最小的隱層節點數確定為該BP網絡的最佳隱節點數。經過對同一樣本集的多次測試,本例的BP網絡最終確定的隱層節點數為11。實驗采用的軟件環境為matlab7,采用S型正切函數tan sig作為本實驗的網絡中間層傳遞函數。由于實驗中數據的輸出模式為0~1,因此采用S型的對數函數log sig作為輸出層的傳遞函數。其余訓練參數的設定如表5所示。

表5 訓練參數

訓練次數 訓練目標 學習速率

1000 0.01 0.1

經過242次訓練后,網絡的性能就達到了要求,如圖2所示。

圖2 訓練結果

接下來需要對訓練好的網絡進行測試。隨機抽取3筆2009級大一學生的測試數據進行測試,結果如表6所示。

表6 抽樣數據測試結果

序號 BP神經網絡測試結果 實際情況

1 0.0327 0.9796 0.0125 0.0001 良

2 0.0000 0.0001 0.9611 0.0321 中

3 0.9840 0.0000 0.0150 0.0001 優

(三)結果分析。從表6的結果來看,抽樣數據的測試結果和實際值相互吻合。把該網絡模型用于2009級大一男生的體質健康綜合評測中,有效率為96.3%,完全能滿足應用要求。

綜上所述,目前《學生體質健康標準》實施工作的重點在數量,難點在質量。本文采用BP神經網絡對高職學生的體質進行綜合評價是一次新的嘗試,有利于更科學地對(下轉第163頁)(上接第157頁)學生的體質進行綜合評價,從而更好地把握學生的健康狀況,為學生今后的學習和工作打下良好的基礎。該模型的應用對于縱向研究大學生的體質發展態勢和體質等級的方法更具有現實意義。

【參考文獻】

[1]陳明達,于道中.實用體質學[M].北京:北京醫科大學、中國協和醫科大學聯合出版社,1993

[2]王童,徐明欣,李瑞年.大學生體質等級綜合評定判別分類的方法[J].天津體育學院學報,2005(2)

[3]孫文爽.體質的綜合評價方法[J].楚雄師專學報,2001(3)

[4]S Horikawa.On fuzzy modelling using fuzzy nerual networks with BP algorithm.IEEE Trans[J].nerual Networks, 1992(2)

[5]包健,趙建勇,周華英.基于BP網絡曲線擬合方法的研究[J].計算機工程與設計,2005(7)

[6]韋萌.BP神經網絡在高校教學實驗室綜合評價中的應用[J].柳州職業技術學院學報,2010(1)

[7]王秀春,智會強,毛一之,等.多宗量導熱反問題求解的神經網絡法[J].航空動力學報,2004(4)

[8]張志立,程磊,何敏.基于人工神經網絡的煤與瓦斯突出檢測[J].礦業安全與環保,2005(6)

[9]French M.N. etal.Rainfall forecasting in space and time using a neural networks[J].J.of hydrol,1992(7)

【基金項目】2012年度廣西高等教育教學改革工程項目(2012JGA322)

篇3

關鍵詞:函數依賴;屬性依賴;屬性空間;高維映射;復合型神經網絡

中圖分類號: TP138

文獻標志碼:A

Attribute dependency theory and its application on neural network

FANG Liang-da1, YU Yong-quan1,2

(

1. Faculty of Computer, Guangdong University of Technology, Guangzhou Guangdong 510090, China;

2. Department of Computer Science, Guangdong Baiyun University, Guangzhou Guangdong 510450, China

)

Abstract:

Neural network optimization methods are generally confined to learning algorithms and input attributes. Due to the higher dimensional mapping which neural network fits contains complex intrinsic attribute dependencies. And the traditional optimization methods have not conducted the analytical study to it. The article puts forward the attribute dependency theory based on functional dependency theory and elaborates the definition of the attribute dependency theory and infers its theorem. Combining with the RBF neural network, it proposes a new neural network optimization method based attribute dependency theory (ADO-RBF).

Neural network optimization methods are generally confined to learning algorithms and input attributes. Due to the high-dimensional mapping that neural network fits contains complex intrinsic attribute dependencies, the traditional optimization methods have not conducted the analytical study on it. The article put forward the attribute dependency theory based on functional dependency theory, elaborated the definition of the attribute dependency theory, and proved related theorem. Combining the Radius Basis Function (RBF) neural network, a new neural network optimization method based on attribute dependency theory (ADO-RBF) was proposed.

Key words:

functional dependency; attribute dependency; attribute space; high-dimensional mapping; composite neural network

0 引言

由于神經網絡的自學習能力,使得神經網絡在低維空間的映射逼近能力較強,并且逐步地代替數學公式來擬合低維空間上的函數。但是,隨著社會的發展需要,高維空間上的映射擬合已經成為了人工智能的重要研究方向之一,并且在這方面已經取得許多研究成果。例如,文獻[1-3]基于改進神經網絡的參數的學習公式的思想,分別提出了結構簡單的分式線性神經網絡、SEFNN學習算法和多目標微粒群學習算法,為神經網絡的精確性和復雜性的尋優問題提供了一種新的解決方法。文獻[4] 提出了基于Hebb規則的分布式神經網絡學習算法。文獻[5-9]基于神經網絡集成方法,提出了各種改善多個神經網絡集成結構的方法,提高神經網絡的泛化能力與仿真精度。文獻[10]基于改進神經網絡的內部神經元,提出了一種分式過程神經元網絡,該模型是基于有理式函數具有的對復雜過程信號的逼近性質和過程神經元網絡對時變信息的非線性變換機制構建的,其基本信息處理單元由兩個過程神經元成對偶組成,邏輯上構成一個分式過程神經元,是人工神經網絡在結構和信息處理機制上的一種擴展。文獻[11]中提出一種基于主成分分析和神經網絡的高維映射擬合方法,利用主成分分析法提取樣本中的輸入維度主成分,實現樣本的輸入維度的最優壓縮,有效減少輸入層神經元個數,提高神經網絡的學習速度和擬合精度。文獻[12]提出了一種基于人工免疫原理的徑向基網絡函數映射模型,使用新的克隆選擇算法和免疫抑制策略,通過中間層可行解的抽取算法EAHLFS,能在聚類數目未知的情況下,生成徑向基網絡的中間層,與傳統的基于聚類算法的徑向基神經網絡函數映射模型比較,AIP-RBF具有更快的收斂速度和更高的求解精度。文獻[13]提出了高維多輸入分層神經網絡,將一部分輸入節點移至其某些隱層,減少連接權值,能夠在同樣的時間內達到比原神經網絡更好的學習效果。

但是,上述文獻僅僅從學習算法、集成網絡方面對神經網絡進行改進,并沒有考慮從樣本數據中的各類屬性對內部網絡結構進行優化。本文結合樣本中各類屬性之間的關系,通過對函數依賴理論的分析與研究,提出了屬性依賴理論,并在此理論基礎上,提出一種新的神經網絡優化方法ADO-RBF。

1 屬性依賴的基本理論

1.1 映射及其屬性的基本概念

定義1 設X(xi∈X)和Y(yj∈Y)是兩組屬性的集合,如果存在某種對應法則f,對于X中的任何一個元素,在Y中都有唯一的元素和它對應,這樣的對應f叫作從集合X到集合Y的映射,記作Y=f(X)[14]。當X,Y都屬于高維屬性集合時, f稱為從集合X到集合Y的高維映射。

其中xi為該映射的外輸入屬性,yj為外輸出屬性。為了方便表示,設Xi={xi},Yj={yj},稱為單元屬性集。

由于在高維映射中存在各種子映射。例如定義1中的Y=f(X)包含了Yj=fj(X)(YjY,fj∈f)。所以存在子映射,使得輸出屬性yj作為該映射的輸入屬性。

1.2 屬性依賴的基本概念

在數據庫領域中,E.F.Codd給出了函數依賴的定義[15],但是他只定義了屬性之間是否存在依賴關系,卻沒有定義兩者之間的依賴關系程度。本文在此基礎上,給出高維空間中數據之間的依賴關系程度的定義。

定義2 設S為樣本空間的屬性集合,X和Y是S中的任意子集,存在某種映射f,使得Y=f(X)成立,則稱Y屬性依賴于X,或者X屬性決定Y (記作XY)。

定義3 當XY且YX,則稱XY是非平凡的屬性依賴。

定義4 當XY且YX,則稱XY是平凡的屬性依賴。

注意:若不特別聲明,則討論的XY是非平凡的屬性依賴。

定義5 屬性空間(Ω,F,μ)是一個總測度為1的測度空間,即μ(Ω)=1。

其中Ω是一個非空屬性集合,稱作屬性空間。

F是屬性空間Ω的冪集的一個非空子集,F的集合元素也是一個屬性集合,并且滿足以下條件:

1) Ω∈F;

2) 若Xn∈F,n=1,2,…,則∪∞n=1Xn∈F

μ稱為屬性測度,是一個從屬性集合F到[0,1]的函數,μ:F[0,1]。每個屬性集都被此函數賦予一個0~1的數值,且μΩ(Ω)=1。

┑4期 攪即锏:屬性依賴理論及其在神經網絡中的應用

┆撲慊應用 ┑30卷

定義6 如果XY,且存在直接映射f,使得Y=f(X)成立,則稱Y直接屬性依賴于X(記作XDY),并且稱d(X,Y)為XDY的直接屬性依賴度,其取值范圍為[0,1]。

其中,當d(X,Y)=0時,X\DY;當d(X,Y)=1時,稱Y完全直接屬性依賴于X(記作XFDY);當0

在屬性依賴中,存在最小直接依賴集Z,使得ZFDY。即對于Z的任意非空真子集Zi(即ZiZ,Zi≠),都使得ZiPDY成立。其中(Z,X,μ)為屬性空間,而d(X,Y)=μZ(X)。

直接屬性依賴度函數滿足下列條件。

1)非負性。對于任意兩個屬性集合X和Y,有d(X,Y)≥0。

2)規范性。如果Y完全直接屬性依賴X,則d(X,Y)=1。

3)左側可加性。設X1,X2,…,Xn是兩兩互無交集的屬性集合,即i,j≤n,i≠j,Xi∩Xj=,則有:

d(∪ni=1Xi,Y)=∑ni=1d(Xi,Y)(1)

4)右側可乘性。設Y1,Y2,…,Yn是兩兩互無交集的屬性集合,即i,j≤n,i≠j,Yi∩Yj=,則有:

d(X,∪ni=1Yi)=∏ni=1d(X,Yi)(2)

由直接屬性依賴的定義,可以推出直接屬性依賴的一些重要定理。

定理1 當Y≠潦,d(,Y)=0。

證明 令Xn=(n=1,2,…),則∪ni=1Xi=,且i,j∈N,i≠j,Xi∩Xj=,由左側可列可加性(1)可得:

d(,Y)=d(∪ni=1Xi,Y)=∑ni=1d(Xi,Y)=∑ni=1d(,Y)

由于d(X,Y)≥0,故由上式可知當Y≠潦,d(,Y)=0。

定理2 d(X,)=1。

證明 令Yn=(n=1,2,…),則∪ni=1Yi=,且i,j∈N,i≠j,Yi∩Yj=,由右側可列可加性(2)得:

d(X,)=d(X,∪ni=1Yi)=∏ni=1d(X,Yi)=∏ni=1d(X,)

由于d(X,Y)≤1,故由上式可知d(X,)=1。

從定理1、2可以看出:當左側屬性集合為空時,左側屬性無法直接決定右側屬性;當右側屬性集合為空時,任意左側屬性集合(包括空屬性集)都可以直接決定右側屬性。

定理3 設X,Y,Z是屬性集合,若XY,則有:

d(Y-X,Z)=d(Y,Z)-d(X,Z)(3)

d(X,Z)≤d(Y,Z)(4)

證明 由XY可得Y=X∪(Y-X),且X∩(Y-X)=,再由條件3)可得:

d(Y-Z,Z)=d(Y,Z)-d(X,Z)

式(3)得證。

又由定義5,可得d(Y-X,Z)≥0,因此:

d(X,Z)≤d(Y,Z)

式(4)得證。

證畢。

定理4 設X,Y,Z是屬性集合,若YZ,則有:

d(X,Z-Y)=d(X,Z)d(X,Y)(5)

d(X,Y)≥d(X,Z)(6)

證明 由XY可得Y=X∪(Y-X),且X∩(Y-X)=,再由條件4)可得:

d(X,Z-Y)=d(X,Z)d(X,Y)

式(5)得證。

又由定義5,可知0≤d(Y-X,Z)≤1,所以:

d(X,Y)≥d(X,Z)

式(6)得證。

證畢。

定理5 d(X∪Y,Z)=d(X,Z)+d(Y,Z)-d(X∩Y,Z),當X∪Y=潦,d(X∪Y,Z)=d(X,Z)+d(Y,Z)。

證明 因X∪Y=X∪(Y-X∩Y),且X∩(Y-X∩Y)=,X∩YY,故由條件3)與定理3得:

d(X∪Y,Z)=d(X,Z)+d(Y-X∩Y,Z)=d(X,Z)+

d(Y,Z)-d(X∩Y,Z)

證畢。

定理6 d(X,Y∪Z)=d(X,Y)•d(X,Z)d(X,Y∩Z),

當Y∪Z=潦,d(X,Y∪Z)=d(X,Y)•d(X,Z)。

證明 因Y∪Z=Y∪(Z-Y∩Z),且Y∩(Z-Y∩Z)=,Y∩ZZ,故由條件4)與定理4得:

d(X,Y∪Z)=d(X,Y)•d(X,Z-Y∩Z)=

d(X,Y)•d(X,Z)d(X,Y∩Z)

定義7 當XDY,YDZ,且Y∩X=,Y∩Z=,則稱Z的Y一階傳遞屬性依賴于X(記作XT(1)YZ),并且稱tY(X,Z)為XT(1)YZ的Y一階傳遞屬性依賴度,其取值范圍為[0,1]。

其中:

t(1)Y(X,Z)=d(X,Y)•d(Y,Z)(7)

定理8 當Y∪T=潦,t(1)Y∪T(X,Z)=d(X,Y)•d(X,T)•[d(Y,Z)+d(T,Z)]。

證明 由式(3)可得,t(1)Y∪T(X,Z)=d(X,Y∪T)•d(Y∪T,Z);

再由定理1和2,得出t(1)Y∪T(X,Z)=d(X,Y)•d(X,T)•[d(Y,Z)+d(T,Z)]。

證畢。

定理9 當Y∪T=潦,t(1)Y∪T(X,Z)≤t(1)Y(X,Z)+t(1)T(X,Z)。

證明 由定理8和定義6可得:

t(1)Y∪T(X,Z)=d(X,Y)•d(X,T)•[d(Y,Z)+d(T,Z)]t(1)Y(X,Z)=d(X,Y)•d(Y,Z)

由于d(X,Y),d(X,T),d(Y,Z),d(T,Z)≤1

所以t(1)Y∪T(X,Z)≤t(1)Y(X,Z)+t(1)T(X,Z)

證畢。

定義8 對于所有Y=∪ni=1Yi,如果存在XDYi,YiDZ,Yi(Yi∩X=,Yi∩Z=),則稱Z一階傳遞屬性依賴于X,并且稱t(1)┆sum(X,Z)(簡寫為t(1)(X,Z))為XT(1)Z的一階傳遞屬性依賴度,其取值范圍為[0,1],其公式如下:

t(1)(X,Z)=d(X,∪ni=1Yi)•d(∪ni=1Yi,Z)(8)

當t(X,Z)=0時,X\TZ;當t(X,Z)=1時,稱Z完全一階傳遞屬性依賴于X(記作XFT(1)Z);當t

定義9 對于Y(Yi,YjY,Yi∩Yj=,Yi∩X=,Yi∩Z=),如果存在某一種排列p1,p2,…,pn(pi,pj∈{1,2,…,n},pi≠pj),使得XDYp1,Yp2DYp3,…,Ypn-1DYpn,YpnDZ,則稱Z n階傳遞屬性依賴于X,并且稱t(n)┆sum(X,Z)(簡寫為t(n)(X,Z))為XTZ的n階傳遞屬性依賴度,其取值范圍為[0,1],其公式如下:

t(n)(X,Z)=∑nk=1[∏nj=1d(X,Yj)•∏ni=1,i≠j,i≠kd(Yi,Yi+1)•

d(Yk,Z)]當t(X,Z)=0時,X\T(n)Z;當t(X,Z)=1時,稱Z完全n階傳遞屬性依賴于X(記作XFT(n)Z);當t

顯然,XDY等價于Y 0階傳遞屬性依賴于X,其d(X,Y)為XT(0)Z的0階傳遞依賴度。

1.3 復雜高維映射及屬性依賴

從客觀世界分析所得,一般的高維映射不僅僅是簡單的多維輸入對應多維輸出的關系,而更多的是映射中的屬性之間也存在依賴關系。其情況分別如下(以下例子假設基本初等函數與一次的四則運算[17]為直接映射關系)。

1)高維映射中存在各種子直接映射。例如定義1中的B=f(A)包含了Bj=fj(A)(BjB,fj∈f)。而所有的外輸入屬性ai都直接決定于bj,即∑id(Ai,Bj)=1。例如(a,b)(c,d)=(a-b,a+b)。

2)高維映射中外輸入屬性僅傳遞決定外輸出屬性。即存在AiA,BjB,使得n≥1,d(Ai,Bj)=0,t(n)(Ai,Bj)≥0。例如(a,b)=(a,sin a)(c,d)=(b2,a2)。上述例子中,{a}D{b}D{c},即{a}T(1){c}。

3)高維映射中外輸入屬性既不直接決定又不傳遞決定外輸出屬性。即存在AiA,BjB,使得n≥0,t(n)(Ai,Bj)=0。例如(a,b)(c,d)=(sin a,cos a),顯然,{b}\{c,d}。

4)高維映射中的某個外輸出屬性決定某個外輸出屬性。即存在Bi,BjB,Bi≠Bj,使得d(Bi,Bj)≥0。例如(a,b)(c,d)=(a+b,sin c)。上述例子中,{a}D{c}Dg2gxcllhtj,即{a}T(1)g2gxcllhtj。

從上述情況分析可知:情況1)是最簡單的多維輸入對應多維輸出的關系;情況2)表明了存在輸出屬性不直接依賴于某些輸入屬性的映射關系;情況3)闡述了某些輸入屬性與輸出屬性并不存在映射關系;情況4)說明了輸出屬性之間存在直接依賴映射關系。由于一般情況下,擬合高維映射采用的方法都是黑盒系統(例如神經網絡、模糊系統等),但是當高維映射存在情況2),3),4)等的非簡單直接依賴關系時,黑盒系統無法精確地擬合出該高維映射。因此,需結合屬性依賴原理,分析高維映射中內在的屬性依賴關系,然后再采用復合型神經網絡對高維映射進行擬合。

1.4 高維映射的屬性類型分析

由1.3節可知,當擬合具有直接依賴性質的高維映射時,神經網絡才具有較好的精確度。因此,本節以高維映射中的屬性依賴關系為基礎,分析各個屬性的類型。

定義10 設A(ai∈A)和B(bj∈B)是兩組屬性的集合,如果存在直接屬性依賴,使得{ci}DD,(DA∪B,ci∈A∪B,ciD),則稱ci為該高維映射中的直接輸入屬性。

定義11 設A(ai∈A)和B(bj∈B)是兩組屬性的集合,如果存在直接屬性依賴,使得CD{dj},(CA∪B,di∈A∪B,diC),則稱ci為該高維映射中的直接輸出屬性。

定義12 設A(ai∈A)和B(bj∈B)是兩組屬性的集合,如果直接屬性依賴,使得CD{ei}DD(C,DA∪B,ei∈A∪B,eiC∪D),則稱ei為該高維映射中的轉換屬性。

由圖1可知,外輸入屬性、外輸出屬性、直接輸入屬性、直接輸出屬性和轉換屬性5者之間的關系。

圖片

圖1 各類型屬性之間的關系

1.5 屬性依賴與函數依賴的關系與區別

由定義5~8可知,屬性依賴理論引入了屬性直接依賴度與傳遞依賴度兩個概念。盡管函數依賴理論中不存在依賴度的定義。實際上可以看出,兩者的依賴度函數可分別定義為(X,Y)[0,1];(X,Y){0,1}。例如,存在二元關系{UserNo,UserName},一般可以通過用戶編號,準確地知道該用戶的姓名。但是由于用戶姓名會出現重名的情況,如果僅僅知道用戶姓名,則不能夠精確獲取該用戶的編號信息。由函數依賴理論可得,UserNoUserName,其相應的直接函數依賴度為d({UserNo},{UserName})=1,d({UserName},{UserNo})=0;而由屬性依賴理論,可得出UserNo┆塥DUserName,其相應的直接屬性依賴度為d({UserNo},{UserName})=1,d({UserName},{UserNo})=0.9。由此可見,函數依賴是屬性依賴的特殊化,而屬性依賴是函數依賴的細化。

2 直接依賴性的復合型神經網絡生成方法

由于神經網絡是擬合高維映射的主要方法之一,由1.3節可知,一般的高維映射不僅是簡單的多維輸入對應多維輸出的關系,而是具有復雜屬性依賴性的映射關系;又因為神經網絡在擬合具有傳遞依賴性的高維映射能力較差,所以需要復合型神經網絡結構擬合復雜的映射關系。復合型神經網絡的生成流程見圖2。

圖片

圖2 復合型神經網絡生成流程

2.1 分析高維映射中的屬性依賴關系

分析高維映射中的屬性依賴關系這是生成方法的第一步,包括:

1) 分析高維映射中的屬性所屬的類型(包括直接輸入屬性、直接輸出屬性、轉換屬性3類);

2) 分析各個屬性之間的關系;

3) 給每個單元屬性集的直接依賴關系賦予相應的直接依賴度。

2.2 提取具有直接依賴性的單輸出屬性集子映射

由定理6、9可以看出,當輸出屬性集合包含越多屬性時,該系統的精確度越低。因此,本節根據上一步所分析的單元屬性集的依賴關系,依照屬性依賴理論(定理5),提取出具有直接依賴性的單輸出屬性集子映射。通過將具有相同的單輸出屬性集的子映射關系提取出來,同時計算多輸入屬性集與單輸出屬性集的直接依賴度。

例如,存在某個高維映射f,其單元屬性集的直接依賴關系分別為{A1}D{B1},{A2}D{B1},{A2}D{B2},{B1}D{B2}為,其中A1,A2為外輸入屬性;B1,B2為外輸出屬性。子映射的直接依賴度分別為d({A1},{B1})=0.68;d({A2},{B1})=0.3;d({A2},{B2})=0.2;d({B1},{B2})=0.75。

根據屬性依賴理論分析可得:{A1,A2}D{B1},{A2,B1}D{B2}(其中{A1,A2}={A1}∪{A2},{A2,B1}={A2}∪{B1})。并且由于任意的單元屬性集交集為空集,由此可得d({A1,A2},{B1})=0.98;d({A2,B1},{B2})=0.95。

2.3 合并融合度高的子映射

該步驟的主要思想就是對具有融合度較高的子映射集合進行組合,構造一個新的子映射,即簡化復合型神經網絡的內在結構,提高其效率。例如存在一個映射關系(a,b)(c)=(a+b)(d)=(sin c),其中包含的2個直接依賴關系如下: f1:{a,b}D{c}, f2:{c}Dg2gxcllhtj,但是由于f1與f2的融合度較高,因此存在一個復合子映射: f3:{a,b}Tg2gxcllhtj(其中d=sin (a+b))。雖然f3為傳遞依賴的子映射,但仍可采取神經網絡方法對其進行擬合。

2.4 構建復合型神經網絡

該步驟的主要思想就是將2.3節中所得出的子映射采用神經網絡進行擬合,然后將所有的神經網絡進行結合,構建一個復合型的神經網絡結構。由2.2節所得出的子映射關系:{A1,A2}D{B1},{A2,B1}D{B2},因此,需要構造2個子神經網絡模型分別對應f1:A1×A2B1, f2:A2×B1B2。其中f1、 f2分別為所需擬合的高維映射f的子映射。在神經網絡訓練階段,因為采用樣本數據進行訓練,所以各神經網絡模型可以同時進行訓練。但是進行識別計算時,必須依據依賴關系內在的拓撲結構進行映射計算。上述映射關系對應的拓撲結構如圖3。

圖片

圖3 映射關系的拓撲結構

復合型神經網絡在進行識別計算時,應先將A1,A2代入子神經網絡模型f1計算得出B1;然后將f1的輸出元B1與原有的輸入元A1結合代入子神經網絡模型f2進行第2次運算,得出B2;最后將B1和B2結合成{B1,B2}作為復合型神經網絡的外部輸出。

2.5 復合型神經網絡的外部結構與內部結構

由復合型神經網絡的外部結構(如圖4)與內部結構(如圖5)可見,復合型神經網絡并沒有改變原神經網絡的外部輸入―輸出關系,僅僅改變了其內部關系,而且對神經網絡的結構、采取的訓練算法,甚至是否采取神經網絡方法也沒有作規定。對于具有復雜屬性依賴性的高維映射,可以采用多種系統(模糊推理系統、數學公式、混沌系統等)對其內在的子映射進行擬合。因此,屬性理論不僅對如何構造最優復合型神經網絡提供了理論依據,而且對復合型系統的建模提供了具有嚴格理論基礎的方法。

圖片

圖4 復合型神經網絡的外部結構

圖片

圖5 復合型神經網絡的內部結構

2.6 神經網絡的優化算法的復雜度分析

本文以采取監督選取中心法訓練的RBF神經網絡為研究對象,分析普通RBF與基于屬性依賴理論的RBF(ADO-RBF)的時間復雜度。

一般神經網絡算法分為2個階段:訓練階段與識別階段。

設Tt(m,n),Rt(m,n)為擬合m-n維映射的普通RBF的訓練算法和識別算法的時間復雜度,ct為普通RBF中間層的中心數,it為訓練的迭代次數;Ta(m,n),Ra(m,n)為ADO-RBF的訓練算法和識別算法的時間復雜度,k為ADO-RBF的神經網絡個數,m1,m2,…,mk為ADO-RBF輸入層的輸入維度,c1,c2,…,ck分別為ADO-RBF中間層的中心數,n1,n2,…,nk為ADO-RBF輸入層的輸出維度,i1,i2,…,ik為訓練的迭代次數,s為樣本個數。

經過分析,普通RBF的訓練階段分為修改權系數、學習中心、學習誤差3個步驟,并且每個步驟的時間復雜度皆為O(s•i•m•n•c),因此Tt(m,n)=O(s•m•n•it•ct)。由于ADO-RBF為復合型神經網絡,因此其時間復雜度Ta(m,n)=Os•∑kj=1ij•mj•nj•cj。由于經過2.1~2.5節方法分析后的復合型神經網絡必定滿足:

j∈N,j≤k,mj≤m,ij≤it,cj≤ct(10)

∑kj=1nj=n(11)

由式(10)和(11)可得Ta(m,n)=O(s•∑kj=1ij•mj•nj•cj)≤O(s•m•n•it•ct)=Tt(m,n)。因此,在訓練階段,ADO-RBF優于普通RBF。

而在識別階段,Rt(m,n)=O(i•m•n•c),Ra(m,n)=O(∑kj=1ij•mj•nj•cj)。同理,Ra(m,n)=O(∑kj=1ij•mj•nj•cj)≤O(i•m•n•c)=Rt(m,n)。因此,在識別階段,ADO-RBF也優于普通RBF。

綜上所述,ADO-RBF的運算時間比普通RBF要少。

3 實驗和結果分析

為了驗證神經網絡的直接屬性依賴優化法的性能,本文采用某公司中的軟件項目估算系統作為例子,結合RBF神經網絡,將結果與普通RBF神經網絡進行比較。其中RBF的學習方法采用監督選取中心進行,并且中心個數為49個,樣本數據為49個。

在軟件項目估算中,存在nг關系,包含12個屬性,分別為:1)項目序號;2)項目名稱;3)項目規模;4)需求變更率;5)需求人員技能;6)原型化程度;7)編碼人員技能;8)測試用例總數;9)評審工作量;10)測試人員技能;11)生產率;12)遺留缺陷密度[19]。其中{A1,A2,…,A10}為外輸入屬性集,{A11,A12}為外輸出屬性集,A11為轉換屬性。經過專家的研究分析,軟件項目估算系統中存在2個直接屬性依賴關系:f1:{A3,A4,A5,A6,A7}D{A11},f2:{A3,A4,A8,A9,A10,A11}D{A12} [19],其直接依賴度分別為:d({A3,A4,A5,A6,A7},{A11})=1,d({A3,A4,A8,A9,A10,A11},{A12})=1。由此可得出復合型神經網絡中的2個子模型f1與f2。由于2個子模型的融合度較低,因此直接采用2.4節中的復合型神經網絡進行歷史曲線擬合與估算。

圖6是ADO-RBF和RBF對軟件項目估算訓練數據集的擬合性能比較,評價標準是誤差的絕對值之和。可以看出,RBF對訓練數據的擬合程度并不理想,而 ADO-RBF不僅擬合程度高于RBF,而且學習效率也優于 RBF(普通RBF的訓練時間為15.39@s,而ADO-RBF為13.39@s)。

圖片

圖6 擬合性能比較

4 結語

本文提出了屬性依賴的概念、基本原理及其在神經網絡的應用,通過嚴格的定義與公式推演證明了相關的定理,并通過實例證明該理論在實際應用的可行性。屬性依賴是函數依賴的進一步推廣,其適用范圍并不局限于數據庫領域,其他領域(例如神經網絡、主成分分析等)也適用。但當前理論尚存在某些問題,需要進一步完善,包括:單元屬性集之間的直接依賴度的統計確定方法;具有循環依賴性的屬性關系圖的拓撲求解方法;屬性集的主成分分析法等。

神經網絡的屬性依賴優化方法與其他的神經網絡優化方法不同,它以新的概念和理論作為支撐,并且容易與其他方法有機地結合使用。本文結合實例,采用了該優化方法建立軟件項目估算模型,具有較高的估計精度。

參考文獻:

[1]楊國為,王守覺,閆慶旭. 分式線性神經網絡及其非線性逼近能力研究[J].計算機學報,2007,30(2):192-199.

[2]李寧,謝振華,謝俊元,等. SEFNN:一種基于結構進化的前饋神經網絡設計算法[J].計算機研究與發展,2006,43(10):1713-1718.

[3]馬銘,周春光,張利彪,等. 一種優化模糊神經網絡的多目標微粒群算法[J].計算機研究與發展,2006,43(12):2104-2109.

[4]田大新,劉衍珩,李賓. 基于Hebb規則的分布神經網絡學習算法[J].計算機學報,2007,30(8):1379-1388.

[5]凌錦江,周志華. 基于因果發現的神經網絡集成方法[J].軟件學報,2004,15(10): 1479-1484.

[6]王正群,陳世福,陳兆乾. 優化分類型神經網絡線性集成[J].軟件學報,2005,16(11):1902-1908.

[7]李凱,黃厚寬. 一種基于聚類技術的選擇性神經網絡集成方法[J].計算機研究與發展,2005,42(4):594-598.

[8]劉宇,覃征,盧江,等. 多模態粒子群集成神經網絡[J].計算機研究與發展, 2005,42(9):1519-1526.

[9]李艷來,王寬全,張大鵬. 多層前饋式神經網絡的HJPS訓練算法[J].計算機研究與發展,2005,42(10):1790-1795.

[10]許少華,何新貴,王兵. 一種分式過程神經元網絡及其應用研究[J].計算機研究與發展,2006,43(12):2088-2095.

[11]汪蔚,王榮杰,胡清. 基于PCA和神經網絡的故障診斷技術[J].計算機工程,2008,34(7):184-185.

[12]蔣華剛,吳耿鋒. 基于人工免疫原理的RBF網絡預測模型[J].計算機工程,2008,34(2):202-205.

[13]邢進生,劉人境. 基于加工工序的高維多輸入層神經網絡及應用[J].系統工程理論與實踐,2004,24(2):64-67.

[14]JACOBSON N. Lectures in abstract algebra I: Basic concepts[M]. Berlin:Springer-Verlag,1951.

[15]DATE C J. An introduction to database systems[M].8th ed. New Jersey:Addison Wesley,2003.

[16]FELLAR W. An introduction to probability theory and its applications [M]. 3rd ed. New Jersey:Wiley,1968.

[17]阿黑波夫, 薩多夫尼齊, 丘巴里闊夫. 數學分析講義[M]. 王昆揚,譯.北京:高等教育出版社,2006.

[18]CORMEN T H, LEISERSON C E, RIVEST R L. Intruduction to algorithms[M]. 2nd ed. Cambridge:The MIT Press,2002.

[19]CAPERS J. Estimating software costs[M]. New York: McGraw Hill,2007.

[20]ASH R B, DOLEANS-DADE C A. Probability and measure theory[M]. 2nd ed. Salt Lake City:Academic Press,1999.

篇4

關鍵詞:網絡安全;入侵檢測;常用技術

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2011)12-2781-02

Discussion Intrusion Detection Several General Techniques

GAO Kai

(Department of Computer Science and Technology, Shaanxi University of Technology, Hanzhong 723001, China)

Abstract: Firewall, intrusion detection system as a reasonable supplement, has been in the network security plays a very important role. In this paper, the definition of intrusion detection technology, discusses the basic principles of intrusion detection, intrusion detection is discussed in detail several general techniques.

Key words: network security; intrusion detection; general techniques

網絡安全的本質是要保障數據的保密性、完整性、可用性、可控性和不可否認性。保密性指信息不泄露給非授權用戶、實體或過程;完整性指數據未經授權不能被改變的特性;可用性指可被授權實體訪問并按需求使用的特性;可控性指對信息的傳播及內容具有控制能力;不可否認性指保證任何一方無法抵賴自己曾經做過的操作,從而防止中途欺騙。入侵檢測技術就是通過收集和分析網絡行為、安全日志、審計數據等安全信息,檢查計算機系統或網絡中是否存在違反安全策略的行為和被攻擊的跡象。

1 入侵檢測技術

入侵檢測系統IDS(Intrusion Detection Systems)是一種主動保護自己免受攻擊的一種網絡安全技術。作為防火墻的合理補充,入侵檢測技術能夠幫助系統對付網絡攻擊,擴展了系統管理員的安全管理能力,提高了信息安全基礎結構的完整性。

有效的入侵檢測系統應該既能正確識別入侵行為,又能保障系統自身的安全并適應網絡環境發展的需要。從數據處理的角度來看,入侵檢測系統是一個典型的數據處理過程,它通過對大量的系統審計數據進行分析,來判斷被檢測的系統是否受到入侵攻擊。具體到系統的檢測機制,其實就是一個系統主體行為的分類系統,它需要把對系統具有惡意的行為從大量的系統行為中區分出來。而解決問題的關鍵就是如何從已知的數據中獲得系統的正常行為知識或有關入侵行為的知識。顯然,在入侵檢測系統的研究領域中,相關的知識獲取技術,諸如模式匹配、數據挖掘、神經網絡等技術以及各種分類算法的研究占有重要的地位,下面我們討論一下這幾種技術:

2 入侵檢測的幾種常用技術

2.1 模式匹配技術

這是最簡單、通用的入侵檢測方法:遍歷事件流是否存在己定義模式(類似于殺毒程序的特征匹配),從而發現違背安全策略的行為。如“^ GET [^ls] *'/ etc/Passwd |s”是發出HTTP請求詢問UNIX密碼文件,定義含有該命令信息的事件為入侵事件,當觀察事件與該規則匹配時就認定為入侵。其特點是原理簡單、擴展性好、檢測效率高,可以實時檢測,但只能適用于比較簡單的攻擊方式,并且誤報率高。隨著網絡傳輸速度的提高,目前急需解決的是快速匹配的問題,著名的snort便采用這種檢測手段。

2.2 神經網絡技術

一個神經網本質上是由大量計算單元(computational units)組成的,單元之間通過帶有權值的連接進行交互,共同實現復雜的映射功能。初始階段,用正常的用戶歷史行為訓練網絡,網絡的輸入為用戶當前輸入的命令和已經執行的N個命令。用戶執行過的命令被神經網絡用來預測用戶輸入的下一個命令,當用這個神經網絡預測不出某用戶正確的后繼命令,即在某種程度上表明了用戶行為與其輪廓框架的偏離,這時有異常事件發生。系統同時要提供對所定義的網絡結構、連接的權值進行修正的功能,根據新鮮的觀測值訓練網絡,允許其學習新的系統行為。神經網絡方法對異常檢測來說具有很多優勢:由于不使用固定的系統屬性集來定義用戶行為,因此屬性的選擇是無關的:神經網絡對所選擇的系統度量(Metrics)也不要求滿足某種統計分布條件,因此,與傳統的統計分析相比,神經網絡方法具備了非參量化統計分析的優點。同時神經網絡具有概括和抽象的能力,對不完整輸入信息具有一定程度的容錯處理能力。

2.3 免疫技術

免疫系統最基本也是最重要的能力是識別“自勿非自我”(Self/ Nonself),即它能夠識別哪些屬于正常機體,不屬于正常的就認為是異常。Forrest等人發現:對一個特定的程序來說,其系統調用序列是相當穩定的,使用系統調用序列來識別“自我”,應該可以滿足系統的需要。在系統的訓練階段建立起反映正常行為的知識庫,這里定義的模式以系統進程為中心,有別于其它檢測系統中以用戶為中心的行為模式。在實際檢測過程中,收集各個特權進程(Privilege Process)所產生的系統調用序列,與正常的行為模式相比較,偏離了正常模式的系統進程被認為是出現了異常。Forrest小組提出了短序列匹配算法,用于計算實際系統調用序列與正常序列模式的相似程度。

2.4 數據挖掘技術

數據挖掘通常稱之為知識發現,是一種脫機知識創建過程。這些知識是隱含的、事先未知的、潛在的有用信息,提取的知識表示為規則、特征及模式等形式。其過程一般包括數據采集、數據預處理、數據開采、知識評價和呈現。

數據挖掘技術適于從歷史行為數據中進行數據提取,在入侵檢測系統中,可應用于對用戶行為數據進行特征的提取。其分析方法主要有以下4種:關聯分析,序列模式分析,分類分析和聚類分析。其中,關聯分析和序列分析方法可以發現隱藏在數據間的關系,提取出入侵者入侵行為之間的關聯特征,找出各種入侵行為之間的相關性。分類分析方法可以在前兩項分析的基礎上,對具有不同的行為特征的入侵進行分類,判斷入侵行為的可疑程度。聚類分析根據一定的規則對用戶行為數據重新劃分,以此獲得更好的結果。

2.5 數據融合技術

隨著因特網的迅速發展,網絡規模也在不斷擴大,IDS中的待處理數據也呈幾何級數增長。于是海量數據處理問題也正在成為IDS的關鍵問題。而正在興起的數據融合技術為該問題提供了較為良好的解決方案。

數據融合在這里是指我們在IDS中采用多種分析和檢測機制,針對系統中不同的安全信息進行分析,并把它們的結果進行融合和決策。這樣會有效提高系統檢測的正確率,降低虛帶率。入侵檢測中的數據融合問題早已被人提出,并有一些組織致力于這方面的研究。

3 結束語

入侵檢測是對計算機和網絡資源上的惡意使用行為進行識別和響應,它不僅檢測來自外部的入侵行為,同時也監督內部用戶的未授權活動。本文主要闡述了目前網絡面臨的安全問題、入侵檢測技術的基本概念、分析了常用的入侵檢測,對今后進一步研究入侵檢測技術有一定的指導意義。

參考文獻:

[1] 付玉珍,張清華.計算機網絡入侵檢測技術研究進展[J].茂名學院學報,2007(6).

[2] 姚麗娟.網絡入侵檢測技術綜述[J].軟件導刊,2010(6).

[3] 何小虎.計算機網絡入侵檢測探討[J].科技信息,2010(14).

篇5

[關鍵詞]數據挖掘數據挖掘方法

隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。

一、數據挖掘的定義

數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。

二、數據挖掘的方法

1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。

3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。

5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。

6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。

8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結束語

目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。

篇6

關鍵詞:智能控制 專家控制 模糊控制 神經網絡控制 遺傳算法

1.引言

智能控制是自動控制發展的高級階段,是人工智能、控制論、信息論、系統論、仿生學、進化計算和計算機等多種學科的高度綜合與集成,是一門新興的邊緣交叉學科。智能控制是當今國內、外自動化學科中的一個十分活躍和具有挑戰性的領域,代表著當今科學和技術發展的最新方向之一。它不僅包含了自動控制、人工智能、系統理論和計算機科學的內容,而且還從生物學等學科汲取豐富的營養,正在成為自動化領域中最興旺和發展最迅速的一個分支學科。

2.智能控制產生的背景

從控制理論學科發展的歷程來看,該學科的發展經歷了三個主要階段。

第一階段為20世紀40—60年代的“經典控制理論”時期,經典控制理論以反饋理論為基礎,是一種單回路線性控制理論。主要采用傳遞函數、頻率特性、根軌跡為基礎的頻率分析方法。主要研究單輸入一單輸出、線性定長系統的分析和設計。

第二階段為20世紀60—70年代的“現代控制理論”時期,現代控制理論主要研究具有高性能、高精度的多變量參數系統的最優控制問題。采用的方法包括狀態空間法、bellman動態規劃方法,kalman濾波理論和pontryagin極大值原理等。現代控制理論可以解決多輸入多輸出問題,系統可以是線性定長的,也可以是非線性時變的。

第三階段為20世紀70年代至今的“大系統理論”和“智能控制理論”時期。由于現代控制理論過多地依賴對象的數學模型,其控制算法較為理想化,設計方法非常數字化,因此在面對難以用數學模型描述或者具有時變、非線性、不確定特性的復雜系統時,現代控制系統也顯得無能為力。為了提高控制系統的品質和尋優能力,控制領域的研究人員開始考慮把人工智能技術用于控制系統。近年來,控制領域的研究人員把傳統的控制理論與模糊邏輯、神經網絡、遺傳算法等智能技術相結合,充分利用人的經驗知識對復雜系統進行控制,逐漸形成了智能控制這一新興學科。

3.智能控制的基本概念和特點

傳統的控制方法建立在被控對象的精確數學模型之上,智能控制是針對系統的復雜性、非線性、不確定性等提出來的。ieee控制系統協會把智能控制歸納為:智能控制系統必須具有模擬人類學習和自適應的能力。一個智能控制系統一般應具有以下一些特點。

1)能對復雜系統(如非線性、多變量、時變、環境擾動等)進行有效的全局控制,并具有較強的容錯能力;

2)具有以只是表示的非數學廣義模型和以數學模型表示的混合控制過程,能根據被控對象的動態過程進行辨識,采用開閉環控制和定性與定量相結合的多模態控制方式;

3)能對獲取的信息進行實時處理并給出控制決策,通過不斷優化參數和尋找控制器的最佳結構形式,以獲得整體最優控制性能。

4)具有自學習、自適應、自組織能力,能從系統的功能和整體優化的角度來分析和綜合系統,以實現預期的控制目標。

4.智能控制理論的基本內容

4.1 專家控制(ec-expert control)

由人工智能領域發展起來的專家控制是一種基于知識的智能計算機程序的技術。專家控制的實質是基于控制對象和控制規律的各種知識,并且要以智能的方式利用這些知識,以求得控制系統盡可能的優化和實用化。專家系統一般由知識庫、推理機、解釋機制和知識獲取系統等組成。知識庫用于存儲某一領域專家的經驗性知識、原理性知識、可行操作與規則等。可通過知識獲取系統對原有知識進行修改和擴充。推理機根據系統信息并利用知識庫中知識按一定的推理策略來解決當前的問題。解釋機制對找到的知識進行解釋,為用戶提供了一個人機界面。專家控制的特點為:

1)具有領域專家級的專業知識,能進行符號處理和啟發式推理。

2)具有獲取知識能力,具有靈活性、透明性和交互性。

4.2模糊控制(fc-fuzzy control)

模糊控制是以模糊集合論、模糊邏輯推理和模糊語言變量為基礎的一種計算機數字控制。對于無法建立數學模型或難以建立數學模型的場合,可以用模糊控制技術來解決。模糊控制就是在被控對象模糊模型的基礎上,利用模糊控制器,采用推理的手段進行系統控制的一種方法。模糊模型是用模糊語言和規則描述的一個系統的動態特性及性能指標。模糊控制器由模糊化、規則庫、模糊推理和清晰化四個功能模塊組成。模糊化模塊實現對系統變量論域的模糊劃分和對清晰輸入值的模糊化處理。規則庫用于存儲系統的基于語言變量的控制規則和系統參數。模糊推理是一種從輸入空間到輸出空間的非線性映射關系,控制規則形式為if{控制輸入a}then{控制輸出b},即如果已知控制輸入a,則通過模糊推理得出控制輸出b。清晰化模塊將推出的模糊推理推出的控制輸出轉化為清晰的輸出值。模糊控制的特點為:

1)提供了一種實現基于自然語言描述規則的控制規律的新機制。

2)提供了一種非線性控制器,這種控制器一般用于控制含有不確定性和難以用傳統非線性理論處理的場合。

4.3 神經網絡控制(nnc-neural networks control)

神經網絡控制是在控制系統中采用神經網絡這一工具,對難以通過常規方法進行描述的復雜非線性對象進行建模,或充當控制器,或信息處理,或模式識別,或故障診斷等,或以上幾種功能的組合,這種神經網絡控制系統的控制方式即為神經網絡控制。神經網絡控制采用仿生學的觀點對智能系統中的高級信息處理問題進行研究,神經網絡控制的特點為:

1)能充分逼近任意非線性特性。

2)分布式并行處理機制。

3)自學習和自適應能力。

4)數據融合能力。

5)適合于多變量系統,可進行多變量處理。

4.4 遺傳算法(ga-genetic algorithm)

遺傳算法是一種基于生物進化模擬的啟發式智能算法,它的基本策略是:將待優化函數的自變量編碼成類似基因的離散數值碼,然后通過類似基因進化的交叉、變異、繁殖等操作獲得待優化函數的最優或近似最優解。在智能控制中,遺傳算法廣泛應用于各類優化問題,遺傳算法可以用于復雜的非線性系統的辨識,多變量系統控制規則的優化,智能控制參數的優化等常規控制方法難以奏效的問題。遺傳算法具有可擴展性,可以同專家系統、模糊控制和神經網絡結合,為智能控制的研究注入新的活力。如可用遺傳算法對模糊控制的控制規則和隸屬度函數進行優化,對神經網絡的權值進行優化等。遺傳算法的特點為:

1)以決策變量的編碼作為運算對象。

2)直接以目標函數值作為搜索信息。

3)同時進行解空間的多點搜索。

4)使用自適應的概率搜索技術。

5.結束語

智能控制已廣泛應用于工業、農業、軍事等眾多領域,已經解決了大量的傳統控制無法解決的實際控制應用問題,呈現出強大的生命力和發展前景。它將隨著專家系統、模糊控制、神經網絡等控制技術的發展而不斷發展。

參考文獻:

[1]師黎,陳鐵軍,李曉媛等,智能控制理論及應用[m].北京:清華大學出版社.2009.

[2]黃志高,徐成金,譚斌.智能控制理論綜述[j].土木機床,2004 (3):30-32.

[3]宋勝利.智能控制技術概論[m].北京:國防工業出版社,2008.

[4]王永驥,涂健,神經元網絡控制[m].北京:機械工業出版社,1998.

[5] rubaai a,kotaru r,kankam m d.a continually online - trained neural network controller for brushless dc motor drives [j].lndustry applications,ieee transactions ,2000 ,36(2):475 - 483.

篇7

關鍵詞:智能控制;應用;探討;

前言:

隨著時代的發展,科學技術的進步,計算機技術已經逐漸成為人們日常生活中不可分割的一部分,而自人工智能的概念被提出后,各國將更多的精力投入到智能的研究上,隨著信息化時代的到來,自動化技術與智能控制技術的結合越來越符合當前工業的發展。智能控制作為以眾多學科為基礎的過程控制中最為重要的一部分,在社會上的各行各業都有著十分重要的作用。除此之外,智能控制同樣是當今社會處于前沿的科學技術,因此,如何將智能控制更好地應用于實際具有十分重要的社會意義。

1 智能控制綜述

隨著科學技術的發展,人們生活質量的提高,對工業生產的需求越來越旺盛,從而導致了過程控制也就是控制科學這一項技術的誕生。智能控制是指通過控制智能機器完成目標的控制過程,智能控制作為控制過程的重要組成部分,隨著各界人士不斷的鉆研,目前智能控制的理論已相對成熟。智能控制是人工智能、控制論、信息論與運籌學等技術相互交叉所形成的符合當展的一項新型的理論與技術,也因此其應用領域正在不斷的擴大。目前主要通過兩種研究方法來研究智能控制,提高智能控制所具備的一些能力,如學習能力、組織綜合能力、適應能力以及優化能力,從而保證智能控制能更好地發揮其相應的社會作用。

2 智能控制所采用的手段

2.1 專家控制

專家控制其實就是將專家系統引入控制領域的一種新型的智能控制,而隨著時間的發展,專家控制逐漸成為智能控制的重要組成部分。專家系統通過知識庫采集相關知識進行推理,從而使專家控制能最大限度地模仿專家的經驗推理出解決對策以及方案,專家控制最大的優點便是它是通過各種知識進行推理從而得出最終的解決對策,而不是通過一個固定的規則或數據模型得到的結果。目前專家系統的應用極其廣泛,但是仍有許多問題值得進一步的研究,以便專家控制系統具備自主學習能力,從而能使智能控制更加完善。

2.2 模糊控制

自1956年模糊控制被第一次提出以后,就成為了智能控制中的重要組成部分,并被廣泛地應用于實際中。模糊控制相對于其它智能控制手段最主要的特點就是算法簡單、執行速度快、容易實現目標,也因此,模糊控制被廣泛地應用于較為復雜的領域解決較為復雜的問題。所謂的模糊控制是基于模糊推理等理論,從而使機器能以較為接近人類思維的語言邏輯進行分析,從而控制系統進行工作,以便達到無人控制的目標。到目前為止,雖然作為智能控制的重要組成部分的模糊控制已經發展得相當不錯了,但是仍然存在著一定的問題需要改善。

2.3 神經網絡控制

所謂的神經網路控制就是將神經系統融入智能控制中,是基于結構模擬人腦生理結構而形成的智能控制和辨識方法,其中BP網絡是神經網絡控制的主要網絡模型。神經網絡控制在控制領域具有十分重要的作用,這主要是因為神經網絡控制在理論上是非線性函數且能執行并行分布處理,具有較強的學習能力與適應能力,可以進行多變量的處理。但是神經網絡控制同樣具有不可忽視的缺陷,目前正在進一步研發將神經網絡理論應用到具體的控制系統,以便提高智能控制的性能。

2.4 混沌控制

混沌控制同樣也是智能控制的重要組成部分,于1963年被氣象學家所提出,是非線性動力系統的理論,而且由于混沌控制在工業上所具有的重要應用價值,使得混沌控制成為了當代社會的重要研究方向。目前常用的混沌控制方法包括OGY法、連續反饋控制法等控制方法。混沌,顧名思義就是在確定的系統中出現的貌似隨機的現象,是一種十分普遍的運動情況。近幾年,混沌控制逐漸成為了非線性系統領域重點研究對象,但是由于其發展時間較短,仍舊需要進一步的研究。

3 智能控制的應用

3.1 智能機器人

智能控制現階段被廣泛地應用于各個領域。自人工智能理念被提出以后,智能機器人的研究便成為了各界學者關注的重點,而現在的智能機器人研究相對成熟,主要是因為賦予“思維能力”的相應控制系統十分完善,能準確地對周圍的環境等情況進行檢測,同時進行定位,而智能控制系統強大的學習能力也提高了智能機器人對環境的適應能力。目前智能機器人在社會上有著十分廣泛的應用,其中多數都是危險作業,如挖礦、水下運載器、水下無人機等的作業都是通過智能控制實現的。

3.2 智能監控

智能監控是智能控制的主要應用領域。在工業生產中,智能監控是必不可少的,這主要是為了保證加工的效率和準確度,同時由于目前將智能控制技術與自動化技術相結合以成為工業生產的主要方式,而利用智能控制不僅可以提高控制精度與工作效率,避免了工作人員的操作,降低了操作的難度,避免了客觀因素對電氣設備的干擾,提高了電氣設備的自動化程度,促進了工業的發展。除此之外,智能控制同樣被應用行器的過程控制以及醫療過程控制中,從而保證飛行器的飛行安全,合理地評估用藥,可以看出智能監控對社會的發展十分重要。

3.3 智能檢測

設備具有一定的使用壽命,并且極易受到外界因素的干擾,從而降低機器的使用壽命,造成大量的損失,因此必須采取一定的措施延長設備預期使用壽命,而智能檢測在這方面具有得天獨厚的優點。智能檢測是通過合理的分析設備所運行的情況,從而判斷設備可能出現故障的地方及原因,并發出警告,以便維修人員能及時地檢修,及時地排除故障,從而保障設備的正常運行,延長機器的使用壽命,并在一定程度上降低損失。目前智能故障檢測廣泛地應用于雷達以及火電站鍋爐給水過程等方面。

3.4 智能儀器

隨著電子技術的發展,微電子元件具有十分廣闊的市場,而隨著微電子元件的發展,人工智能與智能控制技術正朝著更高的集成化、網絡化、模塊化的方向發展,從而與工業生產相結合,形成自動化程度更高的設備,從而實現無人控制與遠程控制的目標。

4 智能控制的應用前景

到現在為止,智能控制的發展歷史極其短暫,僅僅只有六十年,但是在這短短的六十年間,智能控制逐漸成為了各個領域的主要應用技術。雖然智能控制的發展十分迅速,但是由于發展時間較短,仍然存在很多的問題,因此需要加強對智能控制的研究,從而使其應用更為安全且廣泛。這就需要相關的學者繼續完善智能控制的相關理論,并且在一定程度上提高智能控制系統的穩定性、可控性等性能,并且解決當前智能控制中所遇到的問題,從而使智能控制應用于更廣的領域。

5 結語

綜上所述,隨著經濟的發展,科學技術的進步,當今社會的IT行業正處于蓬勃發展的時期,而智能控制更是基于人工智能理論所衍生的更符合當今社會發展的一項新型的學科。人工智能控制是一項基于運籌學、人工智能以及控制理論等所衍生的一項交叉技術,目前為止,應用最為廣泛的智能控制手段包括模糊控制、專家控制、神經網絡控制以及混沌控制,并且逐漸在社會中發揮著重要的作用,從而為我國的發展做出一份貢獻。

參考文獻

篇8

人工智能作為一門課程[1],開設時間距今只有40多年,但發展極為迅猛。人工智能課程的內容涉及計算機科學、數學、系統科學、控制科學、信息科學、心理學、電子學、生物學、語言學等等,幾乎所有科學工作者都可以在人工智能中找到自己感興趣的問題。目前,國內外已有眾多高校指定人工智能為計算機科學與技術及其相關專業的主修專業基礎課程,它在拓展計算機和自動控制的研究和應用領域方面有著極其誘人的學科發展前景。自2003年起,國內諸多高等院校陸續開設“智能科學與技術”本科專業,同時也有更多高校在傳統信息類專業中加大了人工智能課程的課時比重,因此如何提高人工智能課程的教學質量顯得尤為重要。? 

本文結合人工智能課程的特點以及自己教學與研究的實踐,對本課程的教學進行一些探討,以期改進人工智能課程教學方法,達到提高本課程教學質量的目的。?? 

一、兼顧課程內容的統一性和差異性?? 

人工智能課程的核心內容主要集中在對基本概念、基本原理、基本方法和重要算法及其應用的認識和理解上,盡管各種基本概念、原理、方法和算法在一定程度上自成體系,但是它們之間又存在著許多內在聯系和規律。從這一點來看,人工智能課程與其他很多計算機課程是不同的,這就要求人工智能課程的授課要具有自己的特色。? 

知識表示、知識推理、知識應用是人工智能課程的三大內容,解決任何一個人工智能問題都離不開兩個步驟,即知識表示和問題求解。由此,人工智能課程從總體結構上就有了一個比較清晰的脈絡,即首先必然要學習各種知識表示方法,然后是利用這些知識進行推理,進而實現知識應用,最終達到問題求解的目的。問題求解又分為基本的問題求解方法和高級問題求解方法。圖搜索策略、啟發式搜索、消解原理以及規則演繹系統等都屬于基本的問題求解方法。計算智能、專家系統、機器學習、自動規劃等屬于高級問題求解方法。? 

同時,人工智能課程某些章節或者某些方法算法在一定程度上又自成體系。例如,各種不同的知識表示方法不管是數據結構還是表示形式都完全不相同。又例如,人工智能有許多不同的學派[2],本課程往往同時會介紹不同學派的算法,這些學派在人工智能的基礎理論和方法、技術路線等方面是完全不同的,甚至是對立的。? 

這些都要求我們在教學過程中不僅要強調人工智能課程理論的統一性和完整性,又要兼顧各學派的特點,尊重甚至調動學生們對不同人工智能學派及其方法的興趣。在編寫和選用教材時也要注重這一點,我們選用的是蔡自興教授編寫的《人工智能及其應用》系列教材[1,2],該教材以邏輯主義學派為主線,兼顧引進其他學派的精華內容,具有較強的科學性。 

??二、實施分層次教學?? 

各高校一般同時為計算機相關專業的本科生和研究生開設了人工智能課程,甚至有的非計算機類專業也開設有人工智能課程。不同層次的學生對人工智能課程要求掌握的程度不同,我們首先明確本科生和研究生以及非計算機類專業學生的教學目的和教學內容,做到分層次設計人工智能課程教學?過程。? 

本科階段的人工智能課程課時量較少,本科層次只需要做到對大部分人工智能概念和算法了解、認識,少部分達到理解層次。本科生一般都是在高年級(三年級下期或者四年級上期)開設人工智能課程,這時已有不少學生準備繼續讀研或者已經被保研,因此在兼顧全體學生教學層次的同時,要注意給這部分學生足夠的相關參考書目,讓他們能夠利用課余時間廣泛深入了解人工智能相關算法,老師在課后還應和他們進行充分討論,培養他們對人工智能的特別興趣。? 

非計算機類專業的學生往往需要學習如何利用人工智能知識解決該專業領域內的問題,因此在教學中要盡量有專業針對性地進行教學。例如針對農科類專業,在教學專家系統過程中,我們要求學生參考北京農業信息技術研究中心開發的農業專家系統開發平臺(paid5?0)理解并開發與本專業領域相關的簡易農業專家系統。? 

給研究生開設人工智能課程要求做到概念理解,基本算法精通,即要求全面、系統地掌握人工智能的基本概念、基本原理、典型方法和若干應用實例,并且能靈活運用所學知識闡述解決實際問題的方法和途徑。課程教學中要致力于培養學生分析問題與解決問題的能力,要求研究生將人工智能方法與自己的研究方向相結合,用人工智能方法解決所研究課題中的實際問題,并撰寫相關的課程論文,以小型研討會的形式進行報告交流。實踐證明,我們的研究生的人工智能教學效果明顯提升,成效突出。 

??三、案例驅動,寓教于樂?? 

采用案例教學是為了充分調動學生的學習興趣,增強學生學習的自覺性[3]。通過案例教學能把枯燥的人工智能理論知識具體化、形象化,可以使學生更加感性地理解課堂教學內容。這些案例都是以教師所從事的科研項目中的實際應用環境為背景進行闡述的,讓學生能在實際環境中理解概念和知識,學會利用人工智能知識去分析和解決實際問題。在教學過程中要選擇學生容易接受的案例,體現理論聯系實際的特色,激發學生的興趣。? 

例如,在講授“計算智能”內容時,我們結合黃河三門峽和小浪底水庫水沙聯合智能調度系統[4]進行講解。綜合三門峽水庫和小浪底水庫防洪運用的基本原則、歷年調度方案、專家的經驗、歷年數據和現有的調水調沙數學模型,分別利用模糊決策、神經網絡、遺傳算法及綜合集成方法來實現三門峽、小浪底水庫水沙聯合調度。? 

又例如為了讓學生走近機器人,我們進行了一場機器人展示課,將研究所現有的MOROCS?1(中南一號智能移動機器人)、ASR(廣茂達)、AmigoBot(自主移動機器人)、CanDroid(罐頭機器人)、MD?375 Rover(人控漫游車)、Fokker D7(人控飛機,1:72)、Rockit OWI?769K(聲按、壓控火牛機器人)、Hexapod Monster(六足爬行機器人)、Hubo(多機能歌舞機器人)等各類機器人全部拿出來給學生做了功能演示[5]。親眼看到這么多機器人,同學們都非常興奮,對人工智能課程的興趣高漲。? 

在進行案例教學時,引導學生帶著問題和求知欲望深入理論的學習,讓學生在案例中尋找問題的答案并獲取知識。在講授利用神經網絡進行水庫調度時,引導學生分析如何確定神經網絡的輸入端數據,什么是泛化能力以及如何提高神經網絡的泛化能力。? 

為了鞏固所學內容,可以讓學生組成討論小組對教師提出的論題進行討論,分小組闡述自己的觀點,這樣有助于提高學生學習的主動性,還有助于培養學生思考問題的能力和提高理論教學的效果。案例教學的關鍵在于引導學生利用所學到的理論知識去解釋、分析和解決現實案例中的問題,以達到訓練學生理論運用和深入理解理論知識的目的。? 

此外,我們挑選了機器人足球、拖拉機撲克牌、中國象棋、五子棋等普遍受人喜愛的智能游戲,讓學生親手設計小型智能游戲軟件,在設計的過程中掌握高深的人工智能理論知識,讓學生學得會、用得上、記得牢。 

??四、結語?? 

以上談到的一些教學方法是我們在教學過程中總結體會比較深刻的方面,以供探討。事實上,要進一步提高人工智能課程的教學質量,還有很多方面需要改革和加強。如不斷強調人工智能教師的專業素質,要求他們在講授好人工智能課程的同時,努力提升出自身的專業素質,給學生一個良好的專業素質導向。其次,在人工智能課程教學過程中還需要有培養實用型人才的教學理念,特別是注重培養有創新意識的實用型人才。注重培養學生的質疑能力,只有通過質疑和提出問題,學生的創新意識才能夠得到不斷強化,創新思維能力才能夠得以不斷提高。? 

人工智能學科是一門非常年輕、又非常前沿的學科,有其自身的突出特點,人工智能課程教學必然與其他計算機專業課程教學不同,需要更多的從事人工智能教學的教師在自身的教學實踐中不斷積累經驗,進行廣泛的教學交流。 

 

參考文獻? 

[1] 

蔡自興, 徐光祐. 人工智能及其應用(第三版)(研究生用書)[M]. 北京: 清華大學出版社, 2004(8): 1-4.? 

[2]蔡自興, 徐光祐. 人工智能及其應用(第三版)(本科生用書)[M]. 北京: 清華大學出版社, 2003(8):288-290.? 

[3]雷煥貴, 段云青. 中美案例教學的比較[J]. 教育探索, 2010(6): 150-151.? 

篇9

關鍵詞:音樂檢索;音樂分類;音樂信息檢索系統

1.序言

隨著多媒體和Internet的技術的發展和深入普及,推動著各種基于Internet 的音頻應用逐步走向實用。各種音頻數據的數量正在呈指數增長,其信息量也在迅速膨脹。語音和音樂是兩類最重要的音頻信息。如何快速有效地在大量的音樂數據中查詢到所需要的內容,已經成為現代信息檢索領域的一個研究重點。

目前現有絕大多數的音樂搜索平臺都只支持文本的檢索,比如www.baibu.com。用戶可以通過歌名、歌詞等信息搜索到相關的音頻文件。但是,許多情況下,人們只記得一部分音樂內容,比如旋律。他們希望可以通過這些信息直接搜索到相關的歌曲。如何基于實際音樂內容快速查找到音樂信息成為當前的一個研究熱點。

2.數字音頻

要對音樂信息進行搜索,首先就需要了解音頻信息的記錄方式。當前音頻信息聲音可通過多種格式進行存儲,總結下來基本上可以分為兩類:記錄聲音波形變化的格式(如WAV格式)和記錄聲音指令的格式(以MIDI格式為代表)。

波形音頻文件是以數字方式來表示波形,使用采樣位數、采樣頻率和聲道數這三個參數:對聲波進行采樣、量化、編碼,最后轉換成數字形式,并壓縮儲存的聲音文件。

而與波形文件相MIDI是Musical Instrument Digital Interface的縮寫,又稱作樂器數字接口,是數字音樂/電子合成樂器的統一國際標準。MIDI文件相對波形文件來說較小,它記錄的內容是一系列可以被 PC 的聲卡解釋的數字音樂指令(音符)。

波形音頻文件是對實時播放的音樂信號進行采樣和數字編碼,記錄了實際的演奏效果。而MIDI格式則是記錄的一系列音符的演奏信息,如音符的起始、結束、控制變化等等信息。

另外隨著網絡和多媒體技術的進一步發展,人們對于數字音頻技術的研究進一步深入,又出現了多種有損壓縮的編碼格式,這些編碼格式,以極小的聲音失真換取了較高的壓縮比,比如在因特網上廣泛流傳的.MP3格式就是其中的代表。

正是由于不同的音頻記錄格式,并且在每一種格式下又各自有著一系列不同的格式,如何使不同的格式能夠統一為一種能夠為計算機檢索所識別的代碼就成為了音樂信息檢索面臨的主要問題。

3.音樂信息檢索

鑒于音樂信息的多種多樣,目前針對音樂信息的提取也提出的了多種方法。其中大致可以分為基于旋律和基于內容兩種方法。

由于MIDI音樂的編碼方式較為簡單,記錄的文件相對較小,目前音樂信息檢索的一個方向就是把復雜的波形文件進行一定的處理,使之成為一段類似于MIDI音樂文件的旋律編碼。目前有一些音樂信息檢索的研究方向就是以MIDI文件為核心,把一系類不同格式的音樂文件通過系統自動分析和處理,轉化成為以記錄音樂文件旋律為主的MIDI文件,再通過與其他MIDI文件之間的相互匹配,最終達到查找出相似旋律文件的目的。

而基于內容的音頻信息檢索技術則直接對音頻進行分析,從中抽取內容特征,然后利用這些內容特征建立索引并進行檢索,避免了用MIDI文件作為音頻信息的轉化過程。因而基于內容的音頻數據信息檢索是目前發展比較迅速,研究較為深入的一個方向,它可以成為其他許多應用研究的基礎。

4.基于內容的音樂信息檢索

4.1音頻的抽取:

對數字音樂進行搜索的前提條件,就需要明確那一段音樂是我們要進行搜索的目標,有的搜索是針對整個一個音樂文件而言,需要做到所有整個音樂文件的匹配,這樣的搜索相對費時,而有些搜索只要求搜索內容相近,或者部分相似的內容,這樣我們就不需要對整個音樂文件都去進行信息的抽取。在明確信息搜索的目標后,我們就需要對信息進行提取,目前提取特征有兩種方法:一是提取感性特征,如音高、響度、節奏;二是計算非感性屬性或稱物理特性,如Mel頻率倒頻譜系數、平均過零率、線性預測系數等

4.2音頻的分類:

由于目前的數字音樂文件數量龐大,要將所有的文件都遍歷之后進行查詢顯然不可能。因此目前常用的方法主要是實現按一定的方法將音樂文件進行分類,如分為然后根據特征文件的分類按圖索驥去進行有針對的查找。

目前常用的音頻分類方法主要有:

(1)基于決策樹的分類方法

所謂決策樹是一個類似流程圖的樹型結構,樹的每個結點代表一個屬性(取值) 的測試,其分支代表測試結果,樹的每個葉結點代表-個類別。樹的最高層結點是根結點。

(2)神經網絡分類算法

神經網絡是一組相互連接的輸入輸出單元,這些單元之間的每個連接都關聯一個權重。 在網絡學習階段,網絡通過調整權重來實現輸入樣本與其相應(正確) 類別的對應。 由于網絡學習主要是針對其中的連接權重進行,因此神經網絡的學習有時也稱為連接學習。

(3)貝葉斯分類方法

貝葉斯分類算法是統計學分類方法,它是一類利用概率統計知識進行分類的算法。在許多場合,樸素貝葉斯分類算法可以與決策樹和神經網絡分類算法相媲美,該算法能運用到大型數據庫中,且方法簡單、分類準確率高、速度快。[5]

(4)近鄰算法

用該方法進行預測的基本概念就是相互之間"接近"的對象具有相似的預測值。如果知道其中一個對象的預測值后,可以預測其最近的鄰居對象。

5.基于內容的音樂信息檢索系統

由于目前音樂信息檢索還不能做到完全自動化,因此目前的音樂信息檢索系統應該包含以下一些步驟:

第一步,建立數據庫。對數字音樂進行分析,并提取特征,再通過音頻分割,識別分類以后將音樂數據裝入數據庫的原始音頻庫,將特征裝入音頻特征庫。數據庫建立以后就可以進行音樂信息檢索。

第二步,確定查詢特征矢量。即用戶通過查詢界面確定樣本并設定屬性值,可以是一段哼唱的聲音,可以是具體的數字音樂文件,然后提交查詢,系統對樣本提取特征,結合屬性值確定查詢特征矢量。

篇10

關鍵詞:數據挖掘;Web數據挖掘;Web內容挖掘;Web使用挖掘;Web結構挖掘

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2012)32-7636-03

基于Internet的服務也飛速產生并發展起來,企業急需從Internet這個巨大的信息源中分析客戶行為,尋找商機。就是從這樣的商業角度考慮,在20世紀80年代末的時候數據挖掘(Data Mining)技術被開發出來。Web數據挖掘就是在Web網絡基礎上引入數據挖掘的思想和方法。通過這一方法解決在Web網絡中遇到的一些問題,從而形成了Web數據挖掘。基于Web網絡的數據挖掘是數據挖掘領域的一個新的重要研究方向,它可以滿足電子商務未來發展趨勢的需要。

1 Web數據挖掘的研究背景和國內外現狀

有統計指出,我國境內的Web站點已將近有200萬個,全國現有網民3億7千萬人。網上的信息量已經遠遠超過人們的處理能力。Web站點每天都在發生著不斷的變化,網上的內容在不斷的擴大和更新。龐大的快速增長的數據中一定有許多有價值的信息,如何發現并利用這些信息變成了擺在我們面前的一道難題。現在利用數據挖掘技術與Web技術相結合形成Web挖掘,就是用來解決這個難題的有效方法。

2 Web數據挖掘概述

數據挖掘是指從大型數據庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式。數據挖掘是一種綜合了數據庫、人工智能以及統計學等多個學科技術的信息處理方法。通過對歷史積累的大量數據的有效挖掘,試圖從這些數據中提取出先前未知但有效和有用的知識[1-2]。

web挖掘是Web數據挖掘(Web Data Mining)的簡稱,也可以被稱為Web知識發現(WebKnowledge Discovery),他是在數據挖掘的基礎上研究發展而來的,是數據挖掘技術在Web技術中應用的體現。Web挖掘技術涉及眾多學科的知識,如數據庫技術、網絡技術、統計數學、人工智能等,是一個交叉性的研究領域。[7]

數據挖掘所需要的豐富的信息資源其實就蘊藏在Web中。Web中蘊藏了許多豐富和動態的超鏈接信息以及Web 頁面的訪問和使用信息。而Web挖掘的主要工作就是從Web 文檔和Web 活動中發現并取得感興趣的潛在的有用模式和隱藏信息。

3 Web 數據挖掘的分類

Web數據挖掘可以被分為Web內容挖掘(Web Content Mining)、Web結構挖掘(Web Structure Mining)、Web使用記錄挖掘(Web Usage Mining),這三大類。這三大類在實際使用過程中并不是獨立使用的,而是相互聯系、相互交叉和相互滲透的。關系如圖1所示。

(1) Web內容挖掘

從Web頁面文檔內容及后臺交易數據庫中發現有價值信息的過程稱為Web內容挖掘。其實Web內容挖掘我們可以理解為是從浩瀚無際的Web資源中發現信息、取得信息或資源的過程。Web內容挖掘發現Web資源中的有效數據的方法是先對Web網頁上的內容做資料挖掘,然后對Web的資源實行自動檢索。Web資源的形式是豐富多樣的,Web上的資源內容主要包括網絡頁面上的內容信息和頁面后臺在數據庫中發生的交易記錄等。頁面上的信息是非常豐富的,它包括文本、動畫、超鏈接、圖片、音頻/視頻之類的多媒體數據。Web內容挖掘主要使用兩種方法:Web頁面內容信息挖掘和搜索結果再次挖掘(即對初步搜索或挖掘的結果作進一步的改進挖掘處理)。

(2) Web結構挖掘

WSM(Web Structure Mining)是Web挖掘中的一個重要分類方向,它的主要工作方法是通過研究和分析各個網絡頁面之間的結構信息,從而找到隱藏在頁面內容之外有價值的信息的過程。

網頁正文,網頁所含的超文本標記以及網頁間的超鏈接,這三個部分組成了Web頁面中的有效信息。其實實際上,僅僅網頁之間的超鏈接,并不能代表Web的結構:

從廣義上講,Web的結構包含有:

① URL字符串中的目錄路徑結構信息;

② 網頁內部內容的可以用HTML、XML表示成的樹形結構;

③ 網頁之間的超鏈接結構。

Web結構挖掘涉及到海量的計算信息數據,怎樣解決大量信息數據和有限的計算存儲空間之間的矛盾,怎樣提升數據挖掘算法的效率和實時性將是一個有待大家繼續深入探討研究的問題。

(3) Web使用記錄的挖掘[3]

網絡上的原始數據是Web內容挖掘、Web結構挖掘的對象。但是Web使用記錄的挖掘則卻和前兩者并不相同,它是對web上第二類數據即Web日志數據及相關數據的挖掘。Web使用記錄是通過挖掘Web訪問記錄發現有價值的數據,提取感興趣,有價值的模式。

通過分析這些信息數據,我們可以理解并且分析用戶的行為,從而發現電子商務的潛在客戶,幫助我們不斷地改善Web站點的結構或為用戶提供個性化的服務,并且對Web服務器系統的性能進行改進。

Web使用記錄挖掘應用的技術主要有路徑分析、關聯規則分析、序列模式分析、聚類分析、統計分析等。Web使用記錄挖掘可以發現潛在的用戶、改進電子商務網站的建設,增加個性化服務等。

這方面的研究主要有兩個方向:一般訪問模式挖掘和個性化的使用記錄挖掘。

4 數據挖掘的主要技術

數據挖掘技術是多個不同學科領域的技術與成果結合的成果,現今的數據挖掘技術主要有人工智能、數據庫技術、概率與數理統計三個主要方面。以下是幾種比較常用的技術:

(1)關聯分析

關聯分析是指如果兩個或多個事物之間存在一定的關聯,那么其中一個事物就能通過其他事物進行預測[7]。它的目的是為了挖掘出隱藏在數據間的相互關系。從大量的數據中發現其關聯知識在市場定位、決策分析和商業管理等領域是極為有用的。例如,網絡中的電子商店收集存儲了大量的客戶銷售數據,這些數據清晰地記錄了每個客戶的購買事務;比如交易的受理時間、顧客選擇購買的物品、物品的數量及金額等。商家可以通過利用這些數據使用關聯分析知道每個顧客進入電子商場購物時,商家想知道的是顧客會購買哪些商品?除了這個商品以外還會買什么,它們之間的聯系時什么?購買這些商品的顧客有什么共同的特點?通過得到的這些信息可以很好的幫助店家,制訂出針對商品和顧客管理的一系列商業決策,從而提高銷售額。

(2) 聚類分析

數據庫中的數據可以規則分為一系列有意義的子集,稱為聚類。將由聚類所生成的一組數據對象的集合,他們之間的相似度比較高,每一個個體之間的;離得較近;不同組中的對象差異較大,個體之間距離則較遠。在實際情況的使用中,可以根據已有顧客的數據,可以利用聚類分析將掌握的客戶數據根據客戶之間的共同特點來細分的市場,比如追求相似利益的人群、具有相同愛好的人群、相同年齡層次的人群、相同收入水平的人群、相同職業特征的人群等等,制定正確的市場策略,使企業在如此激烈的競爭環境中取得有利位置。

(3) 神經網絡

神經網絡的工作原理是對人類大腦思維系統的一個簡單的結構模擬。人腦神經元的基本功能是多個神經元連接而成的多層網絡模仿而成。神經網絡是仿照生理神經網絡結構建立的非線性預測模型,通過學習進行模式識別。正是它的出現為許多傳統信息難以解決的問題提供了一種較為簡單有效的方法,所以近年來人工神經網絡技術得到不斷成熟和發展。

(4) 分類分析

數據挖掘中應用比較頻繁的方法就是分類。分類是找出一組類別,能夠描述數據集合典型特征的模型,它具有此類數據的共同特點,可以用它來分類識別未知數據的歸屬或類別。

分類一般用于預測有限離散值。但某些情況下,需要預測某數值屬性的值(連續數值),在這種情況下分類就稱為預測。

(5) 決策樹

決策樹從它的名字就不難發現它的結構就像一棵樹。它利用樹的結構將數據記錄進行分類,是一種預測模型。決策樹分類方法是一種通過構造決策樹來發現訓練集中分類知識的數據挖掘方法,其關鍵是能夠構造出規模小、精度高的決策樹。例如,我們要分析一個公司的客戶接受某項新產品的情況,我們可以從中選取50 個客戶,其中25 個愿意接受并購買這個新產品的,25 個不愿意接受并購買這個新產品的。我們通過建立決策樹的方法來來分析客戶的情況,并從中分析和尋找到一些潛藏的規則信息,然后幫助企業銷售。

5 結束語

該文討論了Web數據挖掘的基本概念、基礎工作原理和所使用的關鍵技術。在未來隨著電子商務的迅速發展,Web數據挖掘有了更廣闊的舞臺。Web挖掘技術能夠幫助我們發現一些與用戶檢索的關鍵詞密切相關的有價值網頁,從而實現個性化檢索。它可以幫助商家發現和獲取客戶,對商家的市場策略進行調整和改進,并對其進行正確的決策指導,促進電子商務的發展。

參考文獻:

[1] L Wu,P.S.Yu,A.Baliman.Speed Tracer:A Web usagemining andanalysist001.IBM Systems Journal,37(1):89-105,1998.

[2] N.Good,B.Schafer,J.Konstan,A.Borchers,B.Sarwar,J.Herlocker,and J.Riedl,(1999).Combining Collaborative Filtering With Personal Agents forBetter Recommendations.In Proceedings of the conference,439-446.

[3] 韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計算機研究與發展,2001,38(4):405-414.

[4] Jiawei Han and Micheline Kamber.Data Mining:Technique and Concepts,Morgan Kaufmann Publishers,2001.

[5] 李鳳慧.面向電子商務的web數據挖掘的研究[D].山東:山東科技大學,2004,6.