熱點推薦:
您现在的位置: 電腦知識網 >> 網絡技術 >> 正文

批量保存網頁信息

2013-09-12 17:26:40  來源: 網絡技術 
壯壯在一家醫藥零售單位工作,需要經常和本省的一些制藥企業聯系,但記錄網頁中眾多聯系地址的工作量是非常大的。以登錄中國醫藥網(http://www.pharmnet.com.cn/cgi/company_search.cgi)為例,在“搜索企業”處輸入“四川”,一共可以獲得159家企業之多。

現在我們利用網絡數據庫探索者來批量保存這些聯系地址,就能大大減少重復勞動的工作量。

下載地址:http://www2.skycn.com/soft/14620.html

一、查找頁面規律

在使用網絡數據庫探索者前我們要摸清頁面的規律,一般可以從兩、三個所需頁面的鏈接地址對比中找到規律。在“四川”的企業列表中進入第二、第三頁,發現它們的地址分別為:http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=和http://www.pharmnet.com.cn/cgi/company_search.cgi?p=3&t=company&terms=四川&c=,可見地址變化的就是p的值,依此類推就可以得出p=4是第四頁、p=5就是第五頁……這裡的p就是數據頁的url關鍵字,其前面的地址部分http://www.pharmnet.com.cn/cgi/company_search.cgi?是url1,後面的&t=company&terms=四川&c=則是url2了。tw.wINgwiT.coM

二、設置規則

清楚頁面規律後還需要為要保存的網頁信息建立一個規則。開啟網絡數據庫探索者,在“文件”下點擊“新建規則文件”打開“設置規則”窗口(圖1)。首先設置“一級規則”,一級規則的內容就是類似制藥企業列表這樣的一級數據了。在“規則用途”方面是根據所要保存的頁面數據大小來定,這裡的各企業聯系方法數據較小就勾選“提取一般數據”,接下來給規則輸入一個名稱並輸入數據頁的url1、url2和關鍵字。

提示:如果沒有url2就以空格代替;填寫url關鍵字的時候要注意其大小寫要和實際地址中的一致。

因為在頁面中我們只需要其中的列表部分,這裡要設置一下列表部分的“起始關鍵字”,一般可以取列表上一行的固定文字,這裡取用“共有159家企業”;“每頁行數”則是從關鍵字開始一直到列表結束的行數,包括空格;“提取頁數”就是列表的頁數了,這裡共有11頁,就設置為“1到11”,“遞增值”一般設置為1。

我們真正所需的企業聯系信息是列表中的各個企業的鏈接頁面值,即二級數據,因此在設置完“一級規則”後勾選“二級規則”,進入“二級設置”選項卡,勾選“使用提取行數”,“二級鏈接的url范圍”的選擇可先在軟件自帶的浏覽器中打開一個一級數據網頁如http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=,然後按下“二級鏈接的url范圍”後的小按鈕,在彈出的窗口中定位好所需網頁資料的序號(圖2),若需要28~42之間的二級數據,則“二級鏈接的url范圍”就是“28到42”;然後像設置“一級規則”一樣設置好“二級數據頁的起始關鍵字”和“提取行數”就可以“確定”保存規則了。

提示:在選擇“使用提取行數”和“使用結束關鍵字”時要注意,如果二級數據的行數固定就選“使用提取行數”選項,否則選“使用結束關鍵字”。

三、批量提取數據

規則設置完畢返回軟件主界面就可以提取所需要的網頁信息了。在“規則”下選擇剛才建立的規則文件“四川制藥企業”,單擊“提取”按鈕就可以執行數據庫的信息提取了。提取完畢,在“數據浏覽”中可以查看到與一級數據相對應的二級數據即各制藥企業的具體聯系方法了。運行“文件→提取的數據另存為文本”就能保存所需要的網頁信息了。

編後:某些網站提供的網頁信息是以分頁形式發布出來的,這樣的網頁具有一定的規律性且數據量大,要想保存這樣的網頁若依靠手工逐一操作,工作量太大。使用網絡數據庫探索者可以直接讀取網站數據庫來保存網頁信息,能夠有效減少重復勞動,減輕工作量。

 
From:http://tw.wingwit.com/Article/Network/201309/3950.html
  • 上一篇文章:

  • 下一篇文章:
  • Copyright © 2005-2013 電腦知識網 Computer Knowledge   All rights reserved.