網站資訊 news
您現在的位置:首頁 > 網站資訊 > Spider對網頁的分類
NEWS

新聞資訊

  • 【云風網絡】復工延期通知
    2020/02/09

      尊敬的客戶:由于新冠疫情原因!我公司復工延期,具體時間另行通知!期間只提供應急處理,帶來不便敬請諒解!

  • 2020寒假結束昆山市開學時間可能會推遲…
    2020/01/29

    蘇州關于加強新型冠狀病毒感染的肺炎疫情防控工作的通告(第3號) 2020-01-26 21:32 為維護公眾生命安全和身體健康,落實江蘇...

  • 簡單的html代碼 加粗 加亮 字型加大 變色的寫法
    2020/01/01

    字體加粗:<b>寫上你想寫的字</b> 字體加大: <big>寫上你想寫的字</big> 字體控制大?。?lt;h1>...

  • chrome瀏覽器如何將網頁保存為圖片
    2019/12/19

    1、ctrl+shift+i打開審查元素窗口 2、ctrl+shift+p,輸入full,回車 3、等待3秒鐘…

  • 老而不死的三種編程語言
    2019/11/07

    老而不死的三種編程語言 導讀: 在軟件世界中,鐵打的二進制,流水的語言。從計算機誕生至今,不知誕生了多少門編程語言。譯...

  • AI人工智能的10種常用算法
    2019/09/25

    ML的常用算法有個常識性的認識,沒有代碼,沒有復雜的理論推導,就是圖解一下,知道這些算法是什么,它們是怎么應用的,例子...

  • 網站如何進行安全設置
    2019/08/28

    為了安全起見,建議先做好全站數據和文件的備份,以下教程是AB模板網的總結經驗,本人也是這樣設置,并且沒有任何問題) 1、...

Spider對網頁的分類

發布時間:2017/03/04 網站資訊 瀏覽次數:801

昆山網站建設

Spider在整個互聯網上游蕩,像個幽靈一樣,又或者像采蘑菇的小姑娘,那么,那些網頁是他要抓取拿來放在自己的籃子里的“蘑菇”呢?

Spider在整個的抓取過程中,首先要避免重復抓取,于是Spider程序建立了自己的URL列表和待抓取列表(實際中是由哈希表來記錄URL的兩個狀態)。Spider在抓取到一個頁面之后,提取這個頁面上的所有鏈接,并把提取到的鏈接和已經抓取的URL列表中的鏈接進行逐一對比,如果發現該鏈接已經抓取過,它就會直接丟棄,如果發現還未抓取,就放在待抓取的URL隊列的未尾等待抓取。

我們知道:對于搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,無法遍歷所有的網頁,有許多網頁無法從其它網頁的鏈接中找到;另一個原因是存儲技術和處理技術的問題,如果按照每個頁面的平均大小為20K計算(包含圖片),100億網頁的容量是100×2000G字節,即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網頁下載完畢)。

因此,Spider要對網頁進行一下分類,它經過分析,把網頁大致分為如下四類:
1、已經抓取過的頁面,即Spider已經抓取過的頁面,此類頁面已加入搜索引擎的索引。
2、待抓取頁面,也就是這些頁面的URL已經被Spider加入到了特抓取URL隊列中,只是還沒有進行抓取,他們的特性是第一類頁面中有鏈接指向他們,有抓取的入口。
3、可抓取頁面,Spider根據互聯網上的鏈接關系,最終是可以找到這些頁面的。也就是說當下可能還不知道這些頁面的存在,但是隨著Spider增量型的抓取,最終會發現這些頁面的存在。這類頁面通常在第二類頁面中有他們的鏈接,從而給spider提供了抓取入口。
4、暗網中的頁面,這些網頁和表層網絡上的網頁是脫鉤的,可能這些頁面中有鏈接指向以上三類網頁,但是通過以上三類網頁并不能找到這些頁面,就是說,上述三類頁面中沒有提供暗網中的頁面的鏈接,因而也就沒有spider入口。比如,網站內需要手動提交查詢才能獲得的網頁,就屬于暗網中的網頁,據專業人士估計暗網要比非暗網大幾個數量級。

云風網絡是集昆山網站制作,昆山網頁設計,昆山網站推廣于一體的昆山網絡公司,業務涵蓋:昆山手機網站制作,昆山網站設計,昆山網絡建設,昆山做網站,昆山網站建設,電話:13912673321

相關推薦
點擊這里給我發消息 技術咨詢
回到頂部
双色球在线自动选号