網站資訊 news
您現在的位置:首頁 > 網站資訊 > 分布式計算與分布式Spider
NEWS

新聞資訊

分布式計算與分布式Spider

發布時間:2017/03/04 網站資訊 瀏覽次數:779

昆山網站建設

把龐大的計算任務分解成若干個小的計算任務,交給大量的具有合理計算能力的服務器來進行計算就是分布式計算。

由于Spider要抓取的網頁太多,如果搜索引擎只用一臺服務器一個單一的Spider進行抓取,那么這臺服務器需要非常強大的計算能力,而互聯網浩如煙海,不管多強大的計算能力的超級計算機都是不可能具備這種能力的,或者說,即使有,也需要耗費太多的時間,根本不能滿足用戶的需要。因此,為了完成對全互聯網的快速抓取,現行的大搜索引擎都會采用分布式計算。
談到分布式計算,就涉及任務分發機制。整個分布式Spider系統需要保證所有的Spider之間不會有重復的抓取情況發生,也就需要為他們分配好各自的抓取范圍。類似于人類勞動分工中“分片包干”式的工作分發機制。
這時就需要給每個Spider界定自己的抓取范圍,或者說,每個Spider只抓取指定類型的網頁。或者只抓取某個固定的地域,或者只抓取某種類型的站點。
常規網站分類方法有四種:
第一種,按照優秀站點、普通站點、垃圾站點、降權站點和屏蔽(就是站長們說的K站)站點這樣的質量分類法;
第二種,對網站的首頁、網站的目錄頁、網站的內容頁、網站的專題頁進行分類;
第三種,按照網站的文件類型,網頁文本、視頻、圖片等,甚至還可以根據網絡文件(PDF、Word、Excel……)進行分類抓取;
第四種,按照站點的行業進行分類。
我們大致稍微思考一下,就會知道,如果在整個Spider系統設計中,為了減少搜索引擎和被抓取站點服務器之間的握手次數(兩個或多個Spider碰面的機會,這其實是影響效率的主要因素。),站點級別中按照第一種方法是最合理的,通常估計也是被搜索引擎優先采用的。注意:這也是我們SEO工作者在實際的日志閱讀中經常提到的“降權蜘蛛”(什么是降權蜘蛛?)的發現原理。

但,不管采用哪種網站分類,采用分布式Spider是搜索引擎在海量數據的互聯網環境下必須采用的工作方式。

云風網絡是集昆山網站制作,昆山網頁設計,昆山網站推廣于一體的昆山網絡公司,業務涵蓋:昆山手機網站制作,昆山網站設計,昆山網絡建設,昆山做網站,昆山網站建設,電話:13912673321

相關推薦
點擊這里給我發消息 技術咨詢
回到頂部
双色球在线自动选号