網站資訊 news
您現在的位置:首頁 > 網站資訊 > 正向索引與倒排索引
NEWS

新聞資訊

正向索引與倒排索引

發布時間:2017/03/08 網站資訊 瀏覽次數:851

昆山網站建設

網頁經過搜索引擎的分詞、理解、切分等處理后,在搜索引擎的服務器上,就只剩下能夠體現網頁主體內容的文本了,此時可以對網頁進行索引了。

正向索引指的是文件對應關鍵詞的形式,如下表所示:
文件序號
網頁內容經過分詞切分出的關鍵詞
文件1
關鍵詞1、關鍵詞3、關鍵詞5,關鍵詞13、……
文件2
關鍵詞2、關鍵詞4、關鍵詞11,關鍵詞13、……
文件3
關鍵詞2、關鍵詞5、關鍵詞12,關鍵詞19、……
文件4
關鍵詞8、關鍵詞9、關鍵詞109、……
文件5
關鍵詞10、關鍵詞7、關健詞6、關鍵詞88、……
……
……
文件n
關鍵詞88、關鍵詞105、關鍵詞4、……

如果用這種索引直接參與排名讓用戶搜索,并提供結果給用戶,那么,與不分詞,結果區別不大,還是需要對所有的文件進行一次檢索,才能找到用戶需要的內容提供給用戶,如果用戶搜索的是長尾詞,這種索引對文件內容相關度的計算對資源消耗就太厲害了。

那么,為了使得索引文件可以直接用于排名,搜索引擎會把上面的對應關系進行轉換,做成倒排索引,也就是關鍵詞對應文件的形式,如下表所示:
關鍵詞
網頁文件
關鍵詞1
文件1、文件2、文件3、文件12、……
關鍵詞2
文件3、文件5、文件13、文件21、……
關鍵詞3
文件1、文件15、文件5、文件22、……
關鍵詞4
文件12、文件88、文件109、文件77、……
……
……
關鍵詞n
文件99、文件15、文件88、文件190、……

顯然,這樣的索引結構就非常方便地可以直接用于搜索排名了。比如,用戶搜索了關鍵詞1,那么,搜索引擎只用包含有關鍵詞1的文件進行相關度和權重計算;如果用戶搜索了關鍵詞1+關鍵詞5,這樣的組合詞,那么,搜索引擎把包含關鍵詞1同時又包含關鍵詞5的文件調出來,進行相關度和權重計算,呈現搜索結果和排名速度大大加快!

在倒排索引中,不僅僅記錄了包含相應關鍵詞文件的ID,也記錄關鍵詞出現的頻率(密度),每個關鍵詞對應的文件頻率,以及關鍵詞出現在文件中的位置等信息。在排名過程中,這些信息會被分別進行權重加權處理,并應用到最終的排名結果中。

云風網絡是集昆山網站制作,昆山網頁設計,昆山網站推廣于一體的昆山網絡公司,業務涵蓋:昆山手機網站制作,昆山網站設計,昆山網絡建設,昆山做網站,昆山網站建設,電話:13912673321

相關推薦
點擊這里給我發消息 技術咨詢
回到頂部
双色球在线自动选号