網站資訊 news
您現在的位置:首頁 > 網站資訊 > 搜索引擎中文分詞的方法
NEWS

新聞資訊

  • chrome瀏覽器如何將網頁保存為圖片
    2019/12/19

    1、ctrl+shift+i打開審查元素窗口 2、ctrl+shift+p,輸入full,回車 3、等待3秒鐘…

  • 老而不死的三種編程語言
    2019/11/07

    老而不死的三種編程語言 導讀: 在軟件世界中,鐵打的二進制,流水的語言。從計算機誕生至今,不知誕生了多少門編程語言。譯...

  • AI人工智能的10種常用算法
    2019/09/25

    ML的常用算法有個常識性的認識,沒有代碼,沒有復雜的理論推導,就是圖解一下,知道這些算法是什么,它們是怎么應用的,例子...

  • 網站如何進行安全設置
    2019/08/28

    為了安全起見,建議先做好全站數據和文件的備份,以下教程是AB模板網的總結經驗,本人也是這樣設置,并且沒有任何問題) 1、...

  • What’s your problem?
    2019/07/08

    今天在路上走著走著,突然下暴雨了,我抬頭問天:What‘s?your?problem?? 在前兩天的百度AI開發者大會上,百度創始人、...

  • 西部數碼網站備案率先告別幕布,備案全程電子化,全網首推!
    2019/07/05

    網站備案已經伴隨中國互聯網的發展走過了十余年。網站備案過程中的真實性核驗環節,需要網站負責人到指定的核驗點進行現場拍...

  • 如何做好百度移動搜索引擎優化?
    2019/06/19

    移動數字時代已經到來,沒有給人們太多的思考時間,而越來越多的用戶通過手機進行社交、查看新聞、移動辦公及瀏覽網頁等,隨...

搜索引擎中文分詞的方法

發布時間:2017/03/08 網站資訊 瀏覽次數:755

昆山網站建設

中文實在是太博大精深了,據說,中文是世界上最最復雜的語言。因此,對于中文搜索引擎來說,分詞成為了難點中的難點,通常情況下,搜索引擎采用以下兩種方式進行中文分詞。

1、基于詞典匹配
這種分詞方法是使用搜索引擎自己的詞典對網頁內容進行拆分、理解,然后按照匹配方向的不同進行正向匹配或逆向匹配,或者,按照不同的長度進行最長匹配或最短匹配。大致有三種方法:正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最小切分(切成單義詞)。但是不管用什么樣的匹配方式,都是與搜索引擎自有詞典進行對比,并依照詞典對網頁進行拆分,那么,這種拆分和理解的準確性就取決于詞典本身的完整性和更新情況。而目前的互聯網,新詞不斷涌現,諸如“不明覺厲”“累覺不愛”之類的詞在剛剛出現之時,搜索引擎根本無法給予正確的分詞。而新詞幾乎天天都在出現,基于詞典匹配的方式并不精準。

2、基于統計
這種分詞方法不依靠搜索引擎本身的詞典,而是對大量文字樣本進行分析,統計,然后把相鄰出現次數比較多的幾個字當成一個詞來處理。這種分詞方法,在一定程度上解決了搜索引擎詞典更新的問題,也有利于消除歧義。

但互聯網內容龐大,中文詞匯浩如煙海,甚至還有一字多義,一詞多義的情況出現,搜索引擎很難一下子準確分詞。舉個例子:
我想靜靜,不要問我靜靜是誰?
前面的應當是安靜一下的靜,后者則把靜靜理解為一個人,搜索引擎能這么高情商嗎?

再比如:
“以前喜歡一個人,現在喜歡一個人”
“以前誰都看不上,現在誰都看不上”
要想真正準確理解這些話,一般的人第一眼不見得能理解正確,何況只是以程序出現的搜索引擎。

云風網絡是集昆山網站制作,昆山網頁設計,昆山網站推廣于一體的昆山網絡公司,業務涵蓋:昆山手機網站制作,昆山網站設計,昆山網絡建設,昆山做網站,昆山網站建設,電話:13912673321

相關推薦
點擊這里給我發消息 技術咨詢
回到頂部
双色球在线自动选号