圖書館個性化服務(wù)數(shù)據(jù)挖掘論文

時間:2022-05-21 09:11:41

導(dǎo)語:圖書館個性化服務(wù)數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

圖書館個性化服務(wù)數(shù)據(jù)挖掘論文

1圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性與可行性

1.1數(shù)據(jù)挖掘技術(shù)

關(guān)聯(lián)分析即找出兩個或以上變量之間同時出現(xiàn)的規(guī)律、因果結(jié)構(gòu),即通過其他事物可對某個與之相關(guān)的事物做出預(yù)測。數(shù)據(jù)挖掘關(guān)聯(lián)分析的主要作用就是分析海量數(shù)據(jù)中潛在的關(guān)聯(lián)規(guī)則,對于高校圖書館個性化服務(wù)而言,即從圖書館數(shù)據(jù)庫中發(fā)現(xiàn)相關(guān)的關(guān)聯(lián)規(guī)則,針對用戶的信息需求做出準(zhǔn)確預(yù)測,提高信息推送的針對性,便于用戶獲取所需的信息。聚類即將數(shù)據(jù)庫中的一組個體按照相似性歸結(jié)為若干類型,應(yīng)用于圖書館系統(tǒng)中,就是將相似的文獻集中在一起,用戶在搜索相關(guān)文獻時可以查閱更多其他相關(guān)內(nèi)容,便于其總結(jié)、歸納;在個性化服務(wù)中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識分為高度需求、中度需求及低度需求。在高校圖書館個性化服務(wù)中要對用戶的使用規(guī)律做出預(yù)測,即根據(jù)用戶歷史查閱記錄對用戶所需的文獻種類、特征等做出預(yù)測。時序模式主要是通過時間段對用戶的訪問記錄、檢索過程做出標(biāo)志,再通過時間序列將重復(fù)率較高的內(nèi)容挖掘出來,以預(yù)測其下個信息需求,提高用戶查閱資料的便利性。

1.2圖書館中應(yīng)用數(shù)據(jù)挖掘的必要性與可行性分析

圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性體現(xiàn)在以下幾個方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲于圖書館數(shù)據(jù)庫中,需要利用數(shù)據(jù)挖掘技術(shù)將這些海量數(shù)據(jù)轉(zhuǎn)換為有用的知識信息,以便于館員做出決策。其次,圖書館的管理需求。傳統(tǒng)圖書館系統(tǒng)僅能為用戶提供簡單的訪問、檢索等功能,這些功能無法滿足圖書館個性化的技術(shù)要求,因此要利用數(shù)據(jù)挖掘技術(shù)將用戶借閱數(shù)據(jù)中隱含的關(guān)聯(lián)性發(fā)掘出來,從中發(fā)現(xiàn)有用的知識信息。最后,用戶服務(wù)的需求。數(shù)字化圖書館的發(fā)展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發(fā)掘出對用戶有用的知識信息,僅依靠傳統(tǒng)的圖書館管理系統(tǒng)無法解決這一問題,因此要利用數(shù)據(jù)挖掘技術(shù)對用戶的借閱記錄進行分析,從中獲得更多有價值的信息,以提高圖書館的服務(wù)質(zhì)量及館藏利用率。而在圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)也是可行的,一方面很多圖書館已具備比較好的物質(zhì)條件及人才條件,這些均是圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件,而且政府在經(jīng)濟方面、政策方面也為數(shù)據(jù)挖掘的應(yīng)用提供了更多保障;另一方面,近年來數(shù)據(jù)挖掘技術(shù)也有了長足的發(fā)展,其足以為圖書館的個性化服務(wù)提供必要的技術(shù)支持。圖書館數(shù)字化發(fā)展過程中需要采集、購置更多的數(shù)據(jù)資源,而利用數(shù)據(jù)挖掘技術(shù)可以為圖書館資源建設(shè)提供指導(dǎo)作用,挖掘圖書館的歷史借閱記錄,可進一步了解用戶的借閱習(xí)慣、閱讀興趣及信息需求,并且可以對不同圖書之間的關(guān)聯(lián)性進行深入分析,圖書館員根據(jù)這些信息記錄、分析結(jié)果等提供指導(dǎo),可以提高圖書資源分配的合理性,對館藏布局進行優(yōu)化。由此可見,數(shù)字化圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。

2圖書館個性化服務(wù)的具體體現(xiàn)

高校圖書館個性化服務(wù)是指根據(jù)每個用戶的專業(yè)、愛好、研究方向、探索領(lǐng)域及特殊服務(wù)為其提供更具針對性的信息服務(wù),幫助用戶查閱更加完整的信息資料,便于其學(xué)習(xí)、研究。高校圖書館個性化服務(wù)具體體現(xiàn)在以下3個方面:

①用戶可根據(jù)自己的需求定制相關(guān)信息,以保證其在圖書館中能夠查閱到相關(guān)資料;圖書館利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶的興趣愛好,為其定制個性化的訪問空間。用戶訪問圖書館數(shù)據(jù)庫時會將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時間會較短,停留時間較長則說明比較感興趣;利用用戶的瀏覽路徑信息時間即可將用戶對信息資源的感興趣程度發(fā)掘出來。

②提高圖書館資源利用率。利用數(shù)據(jù)挖掘技術(shù)可以識別圖書館網(wǎng)站內(nèi)頻繁訪問的路徑及用戶訪問次數(shù)較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動推送其所需要的信息資源,提高圖書的利用率。

③優(yōu)化鏈接結(jié)構(gòu),提高用戶應(yīng)用的便利性。對Weblog進行挖掘,可以發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,增加聯(lián)系比較密切的網(wǎng)頁之間的關(guān)聯(lián)性;發(fā)現(xiàn)用戶的期望位置,如果用戶訪問期望位置的頻率高于對實際位置的訪問頻率,則可在二者之間建立導(dǎo)航鏈接,優(yōu)化站點。

④查新服務(wù)與定題服務(wù)。傳統(tǒng)圖書館主要通過查詢光盤數(shù)據(jù)庫、文獻數(shù)據(jù)庫等進行查新服務(wù),而隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展與應(yīng)用,外部網(wǎng)絡(luò)信息及更新的速度遠遠超過圖書館內(nèi)部網(wǎng)絡(luò),因此要加強網(wǎng)絡(luò)平臺的建設(shè),以保證服務(wù)結(jié)果的真實性與可靠性。數(shù)字圖書館在進行查新與定題服務(wù)過程中,可以利用可視化技術(shù)為用戶提供在線即時信息分析。

3圖書館個性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用

圖書館個性化服務(wù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程如下:建立讀者數(shù)據(jù)倉庫——數(shù)據(jù)收集——挖掘算法的選擇——挖掘結(jié)果的顯示——對結(jié)果的評價。

3.1建立讀者數(shù)據(jù)倉庫

數(shù)據(jù)挖掘過程中,在確定了挖掘目標(biāo)后,即開始進行數(shù)據(jù)準(zhǔn)備,從大量數(shù)據(jù)中選擇一個與需挖掘目標(biāo)相關(guān)的樣板數(shù)據(jù)子集。此時需要建立一個數(shù)據(jù)倉庫,其主要作用是將所有挖掘目標(biāo)所需的數(shù)據(jù)保存其中,如果未建立數(shù)據(jù)倉庫直接進行數(shù)據(jù)挖掘,可能會導(dǎo)致挖掘失敗,因此數(shù)據(jù)挖掘的前期工作大部分用于準(zhǔn)備數(shù)據(jù),因此建立數(shù)據(jù)倉庫是一個至關(guān)重要的準(zhǔn)備工作。高校圖書館個性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù),第一步就是建立用戶的興趣庫及圖書館自身的特色資源數(shù)據(jù)庫。用戶使用圖書館的過程中,必然會產(chǎn)生大量的借閱記錄,訪問圖書館網(wǎng)站會留下訪問記錄,這其中均潛藏了大量有意義的信息。

3.2數(shù)據(jù)收集

在建立用戶興趣庫及特色資源數(shù)據(jù)庫后,必須對這兩個數(shù)據(jù)庫中的數(shù)據(jù)進行分析、調(diào)整,以保證原始數(shù)據(jù)的質(zhì)量,從而保證數(shù)據(jù)挖掘結(jié)果的質(zhì)量。數(shù)據(jù)收集即數(shù)據(jù)的分析與調(diào)整可以分為數(shù)據(jù)抽取、數(shù)據(jù)清洗及數(shù)據(jù)轉(zhuǎn)換等3個步驟。其中數(shù)據(jù)抽取的主要作用是將與挖掘目標(biāo)相關(guān)的數(shù)據(jù)信息搜索出來;數(shù)據(jù)清洗則是對數(shù)據(jù)進行噪聲消除、重復(fù)記錄的消除及推導(dǎo)計算缺值數(shù)據(jù)等。圖書館每天會產(chǎn)生大量的用戶相關(guān)的數(shù)據(jù),并非所有的數(shù)據(jù)均對整個挖掘處理過程有正面作用,有些數(shù)據(jù)可能會對挖掘效果產(chǎn)生負面影響,因此剔除這些無用的數(shù)據(jù)十分必要。數(shù)據(jù)轉(zhuǎn)換的主要作用是精減數(shù)據(jù)維數(shù),從初始特征中分析出真正有用的特征,通過數(shù)據(jù)轉(zhuǎn)換可有效減少數(shù)據(jù)挖掘時需要考慮的變量數(shù)。

3.3選擇算法及建立模型

數(shù)據(jù)挖掘過程中不同的算法可能會實現(xiàn)同一個任務(wù),但過程卻大相徑庭,因此要根據(jù)數(shù)據(jù)的特點、實際運行系統(tǒng)的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識,有些用戶則希望獲取預(yù)測型知識,因此要針對不同的用戶選擇對應(yīng)的算法,之后就要進行數(shù)據(jù)挖掘模型的建立。通過對用戶分類、聚類及時間序列的分析,將每類用戶的普遍性需求及個性化需求抽象出來,從而建立一系列的關(guān)聯(lián)規(guī)則模型。一個模型完成后不一定可以立刻解決問題,需要對其進行反復(fù)驗證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對模型進行修改、調(diào)整,或者選擇新算法,建立新模型,對不同的模型進行全面考察。

3.4結(jié)果解釋與知識表示

在建立數(shù)據(jù)挖掘模型后,可利用建立挖掘模型時所用的算法規(guī)則進行運算,即可產(chǎn)生數(shù)據(jù)挖掘結(jié)果,圖書館只需對挖掘結(jié)果進行可視化、可理解化處理即可。要將抽象的數(shù)據(jù)解釋成易讀、易懂的結(jié)果,圖書館決策者及管理者即可根據(jù)可視化的挖掘結(jié)果進行決策。比如圖書館新引進了一批考古專業(yè)的學(xué)術(shù)論文,由數(shù)據(jù)挖掘模型分析結(jié)果可知,該批論文的查閱者90%均為考古專業(yè)的老師與學(xué)生,其他專業(yè)的師生查閱率不到10%,根據(jù)這一結(jié)果,即可將論文信息傳遞給考古專業(yè)的相關(guān)用戶,以提高信息推送的針對性。

3.5結(jié)果的驗證、應(yīng)用及評價

產(chǎn)生挖掘結(jié)果后需要進一步實踐,以驗證結(jié)果的有效性與可用性,及對模型的實用性進行評價,并且挖掘結(jié)果還具備預(yù)測未來數(shù)據(jù)的功能。上一步的結(jié)果解釋經(jīng)過實踐后,可對應(yīng)用過程進行跟蹤了解,獲得用戶的反饋信息,對結(jié)果的實用性進行驗證。需要注意一點,即一個數(shù)據(jù)挖掘的模型與已有數(shù)據(jù)完全相符比較困難,且并非所有的環(huán)境、每個時間節(jié)點均適用于同一個數(shù)據(jù)挖掘模型,因此要對挖掘結(jié)果做出評價,如經(jīng)過用戶的反饋,數(shù)據(jù)挖掘出來的結(jié)果可以解決問題,實現(xiàn)了最初的挖掘目標(biāo),滿足了用戶需求,則可判定該模型是合理的。挖掘結(jié)果可以滿足用戶的要求,用戶就會做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實施,完成該階段后,圖書館就基本上實現(xiàn)了以用戶為中心的個性化服務(wù)的數(shù)據(jù)挖掘過程。不過某些情況下模型的評價結(jié)果可能不盡如人意,即數(shù)據(jù)挖掘的結(jié)果無法滿足用戶的要求,這種情況就要由系統(tǒng)進行重新處理,重復(fù)上述步驟,重新抽取數(shù)據(jù)、選擇另外一種數(shù)據(jù)轉(zhuǎn)換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值、選擇另外的挖掘算法等。由此可見,數(shù)據(jù)挖掘的過程是一個不斷反饋的過程,體現(xiàn)出反復(fù)性的特點。

4結(jié)語

從某種程度上講,個性化服務(wù)模式是圖書館傳統(tǒng)被動服務(wù)的變革,其遵循“一切以用戶為中心”的服務(wù)理念,真正實現(xiàn)了“用戶需要什么,圖書館就提供什么”的主動的服務(wù)模式,可以預(yù)見,個性化服務(wù)模式必將成為數(shù)字圖書館技術(shù)發(fā)展的主要趨勢。現(xiàn)階段,我國網(wǎng)絡(luò)用戶數(shù)量呈幾何倍數(shù)增加,用戶的需求也呈現(xiàn)多樣化、復(fù)雜化的特點,圖書館只有向其提供更具針對性、個性化的信息服務(wù),才能滿足其越來越高的信息服務(wù)要求。在海量的信息資源中,數(shù)據(jù)挖掘技術(shù)可以提供極具智能化的個性服務(wù),因此已逐漸成為數(shù)字圖書館建設(shè)中非常重要的技術(shù)支持與保障。當(dāng)然,數(shù)據(jù)挖掘技術(shù)還屬于一種新興技術(shù),尚存在一些不足與缺陷,比如數(shù)據(jù)的可視化、數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化、多層次、多種類知識的高效挖掘方法等,這些均是后續(xù)需要不斷探索與研究的課題。但是我們相信,未來的數(shù)字圖書館建設(shè)過程中,數(shù)據(jù)挖掘技術(shù)的作用將越來越不可替代。

作者:孫燕單位:泰州職業(yè)技術(shù)學(xué)院圖書館