2007年5月26日

Text Mining & Visualization

由於現在網路上面的資訊主要還是以文字為主,搜尋引擎就成為要尋找到這些資訊重要的工具。
其實除了搜尋之外,目前資訊科技對於文字的處理能力已經可以像分析數據一樣,例如Google的關鍵字廣告、或是搜尋時出現的建議關鍵詞,就是其中一些應用的範例。
那到底這些功能背後運作的邏輯是什麼呢? 什麼是Text Mining呢? 我們跳過中間複雜的演算法,直接以分析後的結果來看(上圖是筆者以183篇搜尋Snowboad相關的專利資料所繪出的主題地圖),它就是可以讓我們看到一篇(或一群)文章內容主要的主題(或關鍵字)及彼此的關係(主題間的距離),這樣的一個特徵,就好像我們從血液當中分離出dna一樣。
所以Google可以在Blog以及Gmail旁邊插入符合這篇文章的關鍵字廣告
還有其他比較偏值性研究的分析可以應用,例如說有人拿它來分析有憂鬱症(or特定屬性族群)的人跟正常人書寫表達的差異(資料可以取自訪談稿, eMail, P2P...), 也有行銷人員拿特定商品討論區
的內容進行分析,看說這些網民對於特定品牌 or 產品的好惡(情緒性表達用語)以及概念(功能性表達用語...)

當然,這個技術還有許多改進的空間,如何去除不必要的雜訊(介係詞, 連接詞 或其他無意義的文字),如何從以單詞為分單位提升到分析到字義(主詞-動詞-受詞, 同義詞/反義詞處理),中文的處理...相信後續的應用範圍會更廣泛。