- 基于NLP的內容理解
- 李明琦等
- 1701字
- 2024-05-14 11:05:26
PREFACE
前言
為何寫作本書
隨著人工智能的蓬勃發展,大量應用場景中都會涉及文本的內容理解技術。由于場景不同,目前文本內容理解沒有統一的模板,解決起來并不容易。市場上有各種各樣的機器學習、深度學習、自然語言處理等資料,但是都沒有與業務場景緊密地聯系起來,即使有聯系也很籠統,并沒有涉及實際業務場景中非常瑣碎的細節問題。而只有把這些細節問題解決好,才能更好地發展業務。同時,市面上從問題的角度講解算法等相關知識的書很少,而在業務場景中更多的是通過簡單且匹配的技術解決業務問題。所以,我想把如何從問題的角度拆解問題,然后通過匹配的技術解決業務問題的方法分享給大家。
在很多人眼里,寫書是一件很困難的事情。不過我很想挑戰一下,想在這種痛苦的“煎熬”之后,“榨干”自己的思想,交上一份滿意的答卷。而且我一直堅信寫書是一件非常有意義的事情,不僅能將自己積淀的知識固化下來,還能在回顧技術的過程中閃現更多新的想法。最最重要的是,我覺得把自己的技術經驗、業務經驗、深度思考等分享給更多的人,讓更多的人可以站在前人的經驗上繼續前行,是一件無私且偉大的事情。
這本書是我和自己讀研時期的摯友共同完成的。寫書不僅加深了我們之間的友誼,還讓我們更加堅信,科技可以改變世界。
本書讀者對象
1)統計學及相關專業的學生、IT從業者。本書的初衷是幫助從業者及相關專業的學生——擁有大量理論知識卻缺乏實戰經驗的人員,將理論知識和實踐聯動起來,以更好地解決業務問題,達到對算法、技術、業務場景中的問題知其然且知其所以然的目的。
2)信息科學和計算機科學愛好者。對于信息科學和計算機科學愛好者來說,本書也是一本全面了解人工智能領域的應用、技術、場景的指南,書中沒有太多晦澀難懂的數學公式,而是通過業務中的問題思考技術的使用。
3)人工智能相關專業的研究人員。
本書主要內容
自然語言處理的目的是讓計算機能夠理解人類的語言。本書旨在從文本內容理解的角度入手,詳細介紹文本特征表示、內容重復理解、內容通順度識別及糾正、內容質量、標簽體系、文本摘要生成及文本糾錯等內容。本書采用以應用貫穿始終的方式進行相關技術的介紹和說明。
具體來說,本書主要從以下幾個方面介紹自然語言處理中的相關技術及其應用。
第1章詳細介紹了文本特征的表示方法,包括離散型特征表示方法與分布型特征表示方法,以及詞向量的評判標準。
第2章主要從應用的角度介紹了標題、段落和文章重復三種場景以及三種場景的具體實現。
第3章介紹了數據增強方法、句子通順度識別方法以及糾正不通順內容的方法。
第4章從應用的角度詳細介紹了知識問答質量體系的搭建方法,方便大家后續在業務中快速實踐。
第5章主要講述了標簽體系的原理及構建過程中用到的3種主要算法。
第6章介紹了文本摘要生成中兩類流行的方法,包括抽取式文本摘要和生成式文本摘要,還介紹了文本摘要的幾種常用數據集以及文本摘要的評價方法。
第7章介紹了文本中錯誤的類型、來源,文本糾錯常用的方法與框架,并介紹了常用的文本糾錯工具的安裝以及使用方法。
本書內容特色
本書的特色在于詳細且全面地介紹了目前流行的NLP算法,給出了豐富的理論知識,并結合代碼進行講解,以帶領讀者更好地理解算法。另外書中還介紹了如何在實際業務中高效地解決問題,使讀者站在更高的角度,更加全面且具體地了解NLP技術。
資源和勘誤
由于作者水平有限,書中難免存在一些錯誤或者不準確的地方,懇請讀者批評指正。讀者可通過發送電子郵件到617803337@qq.com反饋建議或意見。
致謝
感謝家人對我的理解和支持。當我有出版一本書的想法的時候,他們一直鼓勵我,相信我是在做一件非常有意義的事情。
感謝我的摯友谷雪、孟子堯、張朋莉愿意和我一起做這件有趣的事情。在與大家合作的過程中我成長了很多。
感謝穎穎老師對我的厚愛,范紅星對我的陪伴,感謝我生命中的所有老師及讓我成長的人。
感謝機械工業出版社的出版工作者。有了大家的辛勤付出,本書才得以順利面世。
這本書是友誼、工作以及科研成果的結晶,也是我們并肩作戰的見證,希望它可以將我們的實踐經驗、科研經驗固化下來,幫助更多的人少走彎路,更快地成長。
謹以此書獻給我們的青春,獻給熱愛算法并為之奮斗的朋友們。因為相信,所以堅定。
李明琦