摘要
利用網格計算
集群系統
XML等技術對分散的Web信息資源按地區按專業內容從邏輯上進行了有效的組織和管理
設計了一個基於網格的面向專業內容的Web信息檢索體系結構
為用戶高效地獲取面向專業內容的信息資源提供了一種方法
關鍵詞
網格計算
集群系統
XML
Agent
Web
引言 近年來
互聯網得到了迅速的發展
網上信息資源愈來愈龐大
且信息具有量大
分散
異構等特性
因此
傳統的Web信息檢索工具開始暴露出它性能低下的一面
具體體現在現有的信息檢索工具對用戶的要求常常是找出了幾千甚至上萬條記錄
根本無法從中再細找
或者找到的內容和要找的內容不是一個專業領域的
造成信息無效的現象
但隨著人們信息意識的增強
對信息內容及信息服務的需求也在不斷的演變和發展
對獲取信息的專業化
實效性等方面有了新的要求
如何針對專業領域中特定的用戶群為他們提供專業的
度身量造的信息服務
使用戶在盡可能短的時間內有效的找到最需要的信息內容是大家普遍關注的一個問題
本文利用網格計算
集群系統
XML等技術設計了一個基於網格的面向專業內容的Web信息檢索體系結構
它能將地理位置分散的
異構的信息按地區按專業內容從邏輯上進行合理的組織和管理
為用戶快速
有效地獲取自己所需要的信息提供了一種方法
基於網格的面向專業內容的Web信息檢索體系結構的設計 網格計算是近年來國際上興起的一種重要信息技術
其目的是將網上各種資源組織在一個統一的大框架下
為解決大型復雜計算
數據服務和各種網絡信息服務提供一個方便用戶使用的虛擬平台
實現互聯網上所有資源的全面連通
實現信息資源的全面共享
為解決不同領域復雜科學計算與海量信息服務問題
人們以網絡互連為基礎構造了不同的網格
他們在體系結構
要解決的問題類型等方面各不相同
但網格計算至少需要具有三種基本功能
資源管理
任務管理
任務調度
本文設計的信息檢索體系結構
圍繞網格計算的基本功能及信息檢索的特點
主要有以下三個層次組成
見圖
(
) 網格結點
結點是網格計算資源的提供者
本系統主要是由一系列的集群系統組成
它們在地理位置上是分布的
構成了一個分布檢索群體
作為信息共享的基礎結構平台
集群系統負責整個集群范圍內的信息管理
維護和查詢
(
) 網格計算中間件
中間件是信息資源管理和用戶任務調度
任務管理的工具
它是整個網格信息資源管理的核心部分
它根據用戶的信息請求任務
在整個網格內負責信息資源的匹配
定位
實現用戶任務到集群系統的映射
(
) 網格用戶層
主要為用戶應用提供接口
支持用戶對所需要的信息資源進行描述
創建
提交等
本系統的主要思想是在邏輯上將地理位置分散的
異構的信息劃分
組建成多個集群系統
集群系統對集群內的資源進行管理和任務調度
再利用網格中間件對各集群系統進行管理
從而形成對整個網格資源的管理
並對用戶的信息需求進行統一的管理和調度
這種管理模型既可以尊重各個集群系統的本地信息管理策略
又可利用中間件在全局意義上對網格信息資源進行管理
集群系統的設計
由於Web信息資源數量十分龐大
用戶在利用現有搜索引擎檢索信息時面臨一個海量數據的查詢問題
往往造成在消耗巨大的通信資源後依然存在資源查不准
查不全的問題
目前基於單一系統映射的Web服務器集群系統能把若干服務器用局域網連接成一個整體
並使其從客戶端看來就如同一台服務器在服務
這使得在邏輯上合並
組織地理位置分布的信息資源成為可能
因此本文首先考慮采用分布協作策略
將Web信息資源按地區按專業內容分割
一方面使信息資源數量相對縮小
便於數據的組織
管理和維護
另一方面按專業內容易於制定一個公用的XML規范
便於集群內各類信息資源的描述
從而可建立一個基於XML的面向專業內容的信息集成系統
集群系統的具體結構見圖
集群服務器主要由接口Agent
基於專業內容的XML信息集成系統
資源服務Agent
資源發布Agent等組成
其中接口Agent根據任務提供的接口參數登記
接收
管理各種信息資源請求任務
並提供安全認證和授權
資源服務Agent根據信息資源請求任務
利用XML信息集成系統提供的數據
為用戶提供實際的資源檢索操作
並將檢索結果信息發送給用戶
資源發布Agent用於向網格中間件提供本地信息資源的邏輯數據及接口參數
下面主要說明基於專業內容的XML信息集成系統的構造方法
XML(the eXtensible Markup Language)是 W
C於
年宣布作為Internet上數據表示和數據交換的新標准
它是一種可以對信息進行自我描述的語言
它允許開發人員通過創建格式文件DTD(Document Type Definitions)定制標記來描述自己的數據
DTD規范是一個用來定義XML文件的語法
句法和數據結構的標准
XML使用普通文本
因此具有跨平台的優點
XML的優點在於
(
)簡單
規范性
XML文檔基於文本標簽
有一套嚴謹而簡潔的語法結構
便於計算機
用戶理解
(
)可擴展性
用戶可以自定義具有特定意義的標簽
自定義的標簽可以在任何組織
客戶
應用之間共享
(
)自描述性
自描述性使其非常適用不同應用間的數據交換
而且這種交換是不以預先定義一組數據結構為前提
因此具有很強的開放性
(
)互操作性
XML可以把所有信息都存於文檔中傳輸
而遠程的應用程序又可以從中提取需要的信息
XML數據是不依賴於某個特定的平台的應用
因此它為基於特定專業內容的表達提供了一種極好的手段
可以作為表示專業內容的語言
目前人們研制Web信息集成系統其基本方法可分成兩類
存入倉庫法(the ware
housing approach)和虛擬法(the virtual approach)
可使用這兩類方法利用XML在數據組織和交換方面的優越性
采用格式文件DTD和XML文檔表示基於專業內容的集成模式和集成模式與資源之間的映射
建立基於XML的Web信息集成系統
其結構與獲取信息的工作過程參見文獻[
]
網格中間件的設計
圖
所示的網格中間件的主要功能是
(
)消除不同用戶與集群系統之間數據表達的差異
使信息資源數據對用戶來說是透明的
(
)管理
維護Web上分布的各集群系統
網格中間件以關系數據庫方式記錄所有集群系統及其所包含的專業內容的邏輯信息
對關系數據庫的操作可維護集群系統的分布式邏輯
使本結構在可變性和擴充性上具有柔性
(
)接受用戶的信息請求任務
能快速定位於滿足要求的集群系統
通過對關系數據庫的查詢實現用戶信息請求任務與集群系統的對應關系
內部主要功能模塊說明如下
(
)接收Agent模塊
主要用於登記
接收
管理各種信息資源請求任務
並提供安全認證和授權
(
)關系數據庫及數據服務Agent
關系數據庫記錄了所有集群系統及其所包含的專業內容的邏輯信息
數據服務Agent提供集群系統對關系數據庫的使用權限和對數據記錄的增加
刪除
檢索和修改等操作
(
)格式轉換Agent模塊
提供用戶信息資源請求文檔與各集群系統中文檔的格式轉換功能
由於XML是自定義的
各用戶對同一數據有不同的表示方法(對信息資源描述存在差異)由於XML文檔中這種格式差異體現在與之相關的DTD/Schema上
因此經過格式轉換
可使信息資源的格式對用戶是透明的
(
)XML文檔分析Agent模塊
提取格式轉換後的XML文檔中各個標簽
通過查詢網格中間件中的關系數據庫
實現用戶信息請求任務與集群系統的對應關系
並得到滿足條件的集群系統的相關信息
獲取各集群系統的接口參數
(
)發送Agent模塊
將轉換過的信息資源請求XML文檔發送到相應的集群系統中
其中Agent技術是解決分布式智能應用問題的關鍵技術
Agent是指能夠自主地
連續地在一動態變化的
存在於其它系統中運行的
且不斷於環境交互的實體
在系統中引入Agent可使系統具有人的特征
代表用戶完成用戶的任務
並能動態適應環境的變化更好地滿足用戶的需求
提高信息檢索的能力
工作過程 要使本體系結構具有高協作性和互操作性
用戶
網格中間件
集群系統以及其它Agent等實體之間的通信是整個系統運轉的關鍵
由於XML為基於特定專業內容的表達提供了一種極好的手段
XML是一種元語言
其嚴格的定義和規則集使人和機器都能更容易的閱讀文檔
因此本文將XML集成到各部分的通信語言中
在用戶發出的信息檢索請求文檔
網格中間件
集群系統之間的通信均利用XML定義
這樣做增強了通信的語義信息和靈活性並可以在多種平台使用
並且基於XML的通信語言其通信內容的表達比其它方法更容易開發語法分析器
具體的工作過程如下
(
)請求
定位過程
由網格用戶層向網格中間件發送用戶的信息檢索請求文檔
描述網格接口參數
信息請求內容等
在接受Agent進行身份確認及權限確認後
經文檔格式轉換Agent模塊
文檔分析Agent模塊
發送Agent模塊處理後
定位於某些特定的集群系統服務器
(
)應答
處理過程
集群系統服務器經驗證
調用資源服務Agent對信息集成系統進行查詢後
將查詢結果信息傳輸給用戶
結語 本文利用網格計算
集群系統
XML在數據組織
交換
共享方面的優勢
對大量分散
異構的面向專業內容的信息資源提供了一種有效組織和管理方法
並通過網格中間件
實現了信息資源的數據格式轉換與快速定位
提高了信息檢索的效果
本文僅提出了一個體系結構設計
對更為復雜的實際問題的適用性
還有待進一步的完善和改進
From:http://tw.wingwit.com/Article/os/fwq/201311/29788.html