PHP開發搜索引擎技術全解析

　　談到網頁搜索引擎時很多人都會想到雅虎的確雅虎開創了一個互聯網絡的搜索時代然而雅虎目前用於搜索網頁的技術卻並非該公司原先自己開發的年月雅虎采用了Google這家由斯坦福大學學生創建的公司的技術理由非常簡單Google的搜索引擎比雅虎先前使用的技術能更快更准確搜索到所需要的信息

　　讓我們自己來設計開發一個強勁高效的搜索引擎和數據庫恐怕短時間內在技術資金等方面是不可能的不過既然雅虎都在使用別人的技術那麼我們是不是也可以使用別人現成的搜索引擎網站呢？

　　剖析編程思路

　　我們可以這樣設想模擬一個查詢向某個搜索引擎網站發出相應格式的搜索命令然後傳回搜索結果對結果的HTML代碼進行分析剝離多余的字符和代碼最後按所需要的格式顯示在我們自己的網站頁面裡

　　這樣問題的關鍵就在於我們要選定一個搜索信息准確（這樣我們的搜索才會更有意義啊）速度快（因為我們分析搜索結果並顯示需要額外的時間）搜索結果簡潔（便於進行HTML源代碼分析和剝離）的搜索網站由於新一代搜索引擎Google的各種優良特性這裡我們選擇它為例來看看用PHP怎樣實現後台對Google搜索前台個性化顯示這一過程

　　我們先來看看Google的查詢命令的構成進入Google網站在查詢欄中輸入abcd點擊查詢按鈕我們可以發現浏覽器的地址欄變成http://wwwgooglecom/search?q=abcd&btnG=Google%CB%D%CB%F&hl=zhCN&lr= 可見Google是通過表單的get方式來傳遞查詢參數並遞交查詢命令的我們可以使用PHP中的file()函數來模擬這個查詢過程

　　了解File( ) 函數

　　語法: array file(string filename);

　　返回值為數組將文件全部讀入數組變量中這裡的文件可以是本地的也可以是遠程的遠程文件必須指明所使用的協議例如 result=file(http://wwwgooglecom/search?q=a mp;hl=zhCN&lr= )該語句將模擬我們在Google上查詢單詞abcd的過程並將搜索結果以每行為元素傳回到數組變量 result中因為這裡讀取的文件是遠程的所以協議名http://不能缺少

　　如果要讓用戶輸入搜索字符進行任意搜索我們可以做一個輸入文本框和提交按鈕並將上文中的被搜索字符abcd用變量替換

echo
; file://沒有參數的form默認提交方式為get提交到本身
echo ; file://構造一個文本輸入框
echo ; file://構造一個提交查詢按鈕
echo
;

if (isset( keywords)) file://提交後PHP會生成變量 kwywords即要求下面的程序在提交後運行
{
urlencode( keywords); file://對用戶輸入內容進行URL編碼
result=file(http://wwwgooglecom/search?q= keywords&btnG=Google%CB%D%CB%F&hl=zhCN&lr=);
file://對查詢語句進行變量替換將查詢結果保存在數組變量 result中
result_string=join( result); file://將數組$result合並成字符串各數組元素之間用空格粘和
file://進一步處理
}
?﹥

　　上面的這段程序已經能按用戶輸入內容進行查詢並將返回的結果合成一個字符串變量$result_string請注意要使用urlencode()函數將用戶輸入內容進行URL編碼才可以正常地對輸入的漢字空格以及其他特殊字符進行查詢這樣做也是盡可能逼真地模擬Google的查詢命令保證搜索結果的正確性

　　對Google的分析

　　為了便於理解現在假設我們所真正需要的東西是搜索結果的標題網址和簡介等這是一個簡潔而典型的需求這樣我們所要做的便是去除Google搜索結果的台頭和腳注包括一個Google的標志再次搜索的輸入框和搜索結果說明等並且在剩余的搜索結果各項條目中剝離原來的HTML格式標記替換成我們想要的格式

　　要做到這一點我們必須仔細地分析Google搜索結果的HTML源碼找到其中的規律不難發現在Google的搜索結果的正文總是包含在源碼的第一個

　　標記和倒數第二個

　　標記之間並且倒數第二個

　　標記後緊跟table字符而且這個組合

　　以下所有程序均依次接續在上文程序的進一步處理處

　result_string = strstr( result_string );
file://取 result_string從第一個開始後的字符串以去除Google台頭
position= strpos( result_string table符號的位置
result_string= substr( result_string position);//截取第一個table符號之前的字符串以去除腳注

　　應用與實現

　　現在我們已經得到有用的HTML源碼主干了剩下的問題是如何自主地顯示這些內容我們再分析一下這些搜索結果條目發現每個條目之間也是很有規律的用分隔也就是各成一個段落按這個特點我們用explode()函數把每個條目切開

　　語法explode(string separator string string);

　　返回一個數組按separator切開後的各個小字串被保存在數組中

　　於是

result_array=explode( result_string); file://用字串把結果切開

　　我們就得到一個數組 result_array其中每個元素都是一個搜索結果條目我們所要做的僅僅是研究每個條目及其HTML顯示格式代碼然後按要求替換就行了下面用循環來處理 result_array中的每個條目

for( i=; i {
file://處理每個條目
}

　　對於每個條目我們也很容易找到一些特點每個條目都由標題摘要簡介類別網址等組成每個部分都換行即包含標記於是再次分割（以下處理程序放在上文的循環中）

every_item=explode( result_array[ i]);

　　這樣我們得到一個數組 every_item其中 every_item[]就是標題 every_item[]和 every_item[]兩行為摘要 every_item[]和 every_item[]等等的頭部如果包含簡介:＜ font size= color=#fff＞類別:＜ /font＞字符則是簡介或類別（因為有的結果條目沒有該項）如果頭部包含＜ font color=green＞則肯定就是網址啦這種對比判斷我們常使用正則表達式（略）如果要替換也很方便比如包含標題的$every_item[]其本身是有鏈接的我們希望修改這個鏈接屬性讓它在新窗口打開鏈接

echo eregi_replace( {
file://處理每個條目中除去第一項（第一項為標題已經顯示）的每一項
file://更多格式修改
}

　　這樣就修改了鏈接屬性其余很多顯示格式的修改剝離替換都能用正則替換eregi_replace()來完成

　　至此我們已經得到了每個搜索條目的每一項並能任意修改每項的格式甚至可以給他套上漂亮的表格然而一個好的程序應該能適應各種運行環境的這裡也不例外我們其實還只是討論了搜索結果的HTML剝離的一種框架方法真正要做得完美還要考慮很多內容比如要顯示一共搜索出多少結果分成多少頁等等甚至還可以刨除與Google相關的那些類別簡介等代碼讓客戶根本看不到原始網站不過這些內容和要求我們都能通過分析HTML進行剝離得到現在大家完全能自己動手做個極富個性化的搜索引擎

From:http://tw.wingwit.com/Article/program/PHP/201311/21501.html