- 深度學習進階:自然語言處理
- (日)齋藤康毅
- 598字
- 2021-02-07 09:25:59
2.5 小結
本章,我們以自然語言為對象,特別是以讓計算機理解單詞含義為主題展開了討論。為了達到這一目標,我們介紹了基于同義詞詞典的方法,也考察了基于計數的方法。
使用基于同義詞詞典的方法,需要人工逐個定義單詞之間的相關性。這樣的工作非常費力,在表現力上也存在限制(比如,不能表示細微的差別)。而基于計數的方法從語料庫中自動提取單詞含義,并將其表示為向量。具體來說,首先創建單詞的共現矩陣,將其轉化為PPMI矩陣,再基于SVD降維以提高穩健性,最后獲得每個單詞的分布式表示。另外,我們已經確認過,這樣的分布式表示具有在含義或語法上相似的單詞在向量空間上位置相近的性質。
為了方便處理語料庫的文本數據,我們實現了幾個預處理函數。具體來說,包括測量向量間相似度的函數(cos_similarity())、用于顯示相似單詞的排名的函數(most_similar())。這些函數在后面的章節中還會用到。
本章所學的內容
·使用WordNet等同義詞詞典,可以獲取近義詞或測量單詞間的相似度等
·使用同義詞詞典的方法存在創建詞庫需要大量人力、新詞難更新等問題
·目前,使用語料庫對單詞進行向量化是主流方法
·近年來的單詞向量化方法大多基于“單詞含義由其周圍的單詞構成”這一分布式假設
·在基于計數的方法中,對語料庫中的每個單詞周圍的單詞的出現頻數進行計數并匯總(=共現矩陣)
·通過將共現矩陣轉化為PPMI矩陣并降維,可以將大的稀疏向量轉變為小的密集向量
·在單詞的向量空間中,含義上接近的單詞距離上理應也更近