Thursday, January 19, 2006

所謂的以文找文


蕃薯藤的新聞頻道最近採用了國內搜尋引擎業者宇匯知識科技的酷比「以文找文」技術。大約快一年前我得知國內有這一家公司,以及他們的核心產品「以文找文」技術。經過測試的結果,我認為這項技術並沒有特別的突破。基本上就是中文斷詞實作的產品化而已,將一篇中文文章加以斷詞,擷取出 frequent terms,然後用這些 frequent terms 當做搜尋關鍵字。其技術仍然架構在現今關鍵字搜尋上。

以這一篇女大學生卡奴悲歌 每月三萬元 上網找人包的新聞搜尋結果來看。蕃薯藤找出 16 篇相關文章。裡面有 5 篇跟卡奴有關,其它的包括:

大陸清大客座教授在台對博士班女伸鹹豬手
徐懷鈺撞傷人被控傷害 賠償4萬2千元和解
涉嫌以鑽子襲擊女學生怪客收押

等新聞。

從以上新聞的關鍵字看來,宇匯的「以文找文」技術從我們要求搜尋的文章中,擷取了卡奴、女學生等字眼,並進行關鍵字搜尋,得出以上搜尋結果。這種作法是不是能達到使用者的要求,其關鍵就在於演算法自動從文章挑選關鍵字的方法是不是精確。而從實驗中看起來,宇匯的作法似乎並不是那麼的成功。

這種 frequent terms 自動擷取的技術仍然有很多問題。一個 term 是不是重要,並不完全取決於 term 出現的次數與頻率。而即使像女學生這個在上文中出現多次的 term,卻不是該文的關鍵性概念。

0 Comments:

Post a Comment

<< Home