網站資訊 news
您現在的位置:首頁 > 網站資訊 > 搜索引擎的工作原理
NEWS

新聞資訊

搜索引擎的工作原理

發布時間:2017/03/04 網站資訊 瀏覽次數:781

昆山網站建設

搜索引擎端
搜索引擎自己不產生內容,他們的內容全部來源于互聯網,搜索引擎主動抓取網頁,并進行內容處理、索引部分的流程和機制如下:
1、派出Spider,然后按照一定的策略把網頁抓回到搜索引擎服務器。(具體怎么抓的,在spider分類里講了一些,可回去閱讀)
2、對抓回的網頁進行鏈接抽離(去掉網頁中的超鏈接)、內容處理(對內容進行識別,分類)、消除噪聲(不相干的頁面清理)、提取該頁主題文本內容(通過標題以及關鍵詞標簽及密度)。
3、對網頁的文本內容進行中文分詞(這個后面會講到),去除停止詞(什么是停止詞?)等。
4、對網頁內容進行分詞后判斷該頁面內容與已經索引的網頁是否有重復,剔除重復頁,對剩余網頁進行倒排索引,然后等待用戶的檢索。
用戶端
當用戶進行查詢時,搜索引擎工作的流程機制如下:
1、先對用戶所查詢的關鍵詞進行分詞處理,并根據用戶的地理位置(這個很容易判斷,用戶的機器IP地址為主要指標),和歷史檢索特征(用戶機器上的COOKIE)進行用戶需求分析,以便使用地域性搜索結果和個性化搜索結果展示用戶最需要的內容(因為只有這樣,用戶才會更喜歡搜索引擎)。
2、搜索引擎查詢自己的緩存中是否有該關鍵詞的查詢結果,如果有,為了最快速地呈現給用戶,搜索引擎會根據當下用戶的各種信息來判斷用戶的真正需求,對緩存中的結果進行微調或直接呈現給用戶。(上圖中的cache的中文意思是“緩存”,什么是緩存?)
3、如果用戶查詢的關鍵詞,服務器緩存中不存在,那么,搜索引擎就在索引庫中的網頁進行調取排名呈現給用戶,并把這個關鍵詞和對應的搜索結果加入到緩存中,以便其他用戶查詢或當前用戶重復查詢。
4、網頁排名是根據用戶的搜索詞和搜索需求,對索引庫中的網頁進行相關性、重要性(這里就是所謂的權重分析)和用戶體驗的高低進行分析所得出的。用戶在搜索結果中的點擊和重復搜索行為,也可以告訴搜索引擎用戶的體驗如何。因為這部分一些SEO工作者會有很多作弊行為,也就導致搜索引擎推出反作弊算法進行干預,有時,搜索引擎甚至還要進行人工干預(當作弊手法非常高明時)。

云風網絡是集昆山網站制作,昆山網頁設計,昆山網站推廣于一體的昆山網絡公司,業務涵蓋:昆山手機網站制作,昆山網站設計,昆山網絡建設,昆山做網站,昆山網站建設,電話:13912673321

相關推薦
點擊這里給我發消息 技術咨詢
回到頂部
双色球在线自动选号