官术网_书友最值得收藏!

前言

自然語言處理領域有什么前途

自然語言處理是目前人工智能領域中最受人矚目的研究方向之一,發展非常迅速。自然語言處理又是一個非常開放的領域,每年都有大量的可以免費閱讀的論文、可以自由下載和使用的開源代碼被發布在互聯網上。感謝這些致力于自然語言處理研究,又樂于分享的研究者和開發者,使我們有機會學習這一領域最新的研究成果,理解自然語言處理領域中的精妙原理,并能夠在開源代碼庫的基礎上創建一些美妙的應用。

如果沒有他們的努力和奉獻,無法想象我們僅僅通過兩行代碼[1],就能在幾秒內定義和創建一個包含超過1億參數的模型,并下載和加載預訓練參數(耗時數分鐘,具體時間根據網速而定)。這些預訓練參數往往是使用性能強大的圖形處理單元(Graphics Processing Unit,GPU)在海量的數據中訓練數天才能得到的。


[1] 見第12.7節。

即使擁有性能強大的GPU,要獲取海量訓練數據,或者進行長時間的訓練也都是困難的,但是借助公開發布的預訓練權重,僅僅需要兩行代碼就都可以做到。同時還可以在能接受的時間內對模型進行Fine-tuning(微調)訓練,加載與訓練參數后,再使用目標場景的數據訓練,使模型更符合實際的應用場景。

如果你沒有 GPU,或者只有一臺性能一般的家用計算機,也完全可以比較快速地使用模型去完成一些通用的任務,或者在一定的數據中訓練一些不太復雜的模型。

自然語言處理越來越豐富的應用正在改變我們的生活。從語音合成、語音識別、機器翻譯,到視覺文本聯合,越來越精確的自然語言理解讓更多事情成為可能。現在的人工智能技術使計算機可以用越來越接近人類的方式去處理和使用自然語言。

更令人興奮的是,這些事情我們也可以借助開源代碼去實現,并根據大量公開的論文、文檔和示例代碼去理解代碼背后的原理。

本書的特色

自然語言處理是語言學和計算機科學的交叉領域,本書將主要從計算機技術和實踐的角度向大家介紹這一領域的一些內容。

本書將介紹使用Python語言和PyTorch深度學習框架實現多種自然語言處理任務的內容。本書的內容對初學者是友好的,但本書并不會詳細地介紹語言和框架的每一個細節,希望讀者自學以掌握一定的計算機基礎。因為Python和PyTorch都是開源工具,它們的官方網站都給出了包括中文、英文的多種語言的文檔,從那里初學者可以迅速掌握它們的使用方法。

本書的結構編排像一個學習自然語言處理的路線圖,從Python、PyTorch這樣的基礎工具,機器學習的基本原理,到自然語言處理中常用的模型,再到自然語言處理領域當前最先進的模型結構和最新提出的問題。

幾乎本書的每一章都有完整可運行的代碼,有的代碼是完全從0開始的完整實現,這是為了展示相關技術的原理,讓讀者通過代碼看清技術背后的原理。有的代碼則基于開源的庫,以精煉的代碼實現完整的功能。對于使用到的開源代碼書中都將給出地址,以供希望深入研究的讀者一探究竟。在最后的“實戰篇”,我們分別針對“自然語言理解”和“自然語言生成”兩大問題給出任務,并使用多種前面章節介紹的模型,使用同樣在本書中介紹的開放的數據集,完成這些任務,還給出從數據下載、預處理、構建和訓練模型,到創建簡易的用戶界面的整個流程。希望讀者能在實踐中學習自然語言處理。

同樣,對于涉及模型原理和理論的部分我們盡力都標注論文出處,全書共引用幾十篇論文,且全部可以在arXiv.org等網站免費閱讀和下載,供有需要的讀者參考。

本書的內容

本書分為4篇:“自然語言處理基礎篇”“PyTorch入門篇”“用PyTorch完成自然語言處理任務篇”和“實戰篇”。

第1篇包含第1章和第2章,介紹自然語言處理的背景知識、常用的開放資源、搭建Python環境以及使用Python完成自然語言處理的基礎任務。這些是本書的基礎。

第2篇包含第3章至第5章,介紹PyTorch環境配置和PyTorch的基本使用,以及機器學習的一些基本原理和工作方法。

第3篇包含第6章至第12章,介紹如何使用PyTorch完成自然語言處理任務。第6章至第12章每章各介紹一種模型,包括分詞、RNN、詞嵌入、Seq2seq、注意力機制、Transformer、預訓練語言模型。

第4篇是實戰篇,第13章和第14章分別講解自然語言理解的任務和自然語言生成的任務,即“中文地址解析”和“詩句補充”。這兩個任務綜合了前面各章的知識,并展示了從數據下載、處理、模型到用戶交互界面開發的全部流程。

本書內容簡明,包含較多代碼,希望讀者能通過閱讀代碼更清晰地了解自然語言處理背后的原理。書中用到的一些數據集、模型預訓練權重可在網站https://es2q. com/nlp/中獲取,方便讀者運行本書中的例子。

本書面向的讀者對象

有一定程序設計基礎的計算機愛好者。

希望學習機器學習和自然語言處理的人。

計算機及其相關專業的學生。

對自然語言處理領域感興趣的研究者。

對自然語言處理感興趣并樂于實踐的人。

主站蜘蛛池模板: 科技| 峡江县| 松江区| 唐河县| 剑河县| 兴文县| 宜昌市| 岢岚县| 克什克腾旗| 沙雅县| 双峰县| 光泽县| 墨竹工卡县| 湟源县| 南丹县| 固镇县| 武宣县| 宁阳县| 杭锦后旗| 大厂| 炎陵县| 阿拉尔市| 迁西县| 邵阳市| 靖边县| 紫阳县| 繁峙县| 龙海市| 呈贡县| 鄯善县| 桃源县| 周口市| 梓潼县| 巴青县| 崇左市| 泰兴市| 嫩江县| 康定县| 谷城县| 阿鲁科尔沁旗| 绥棱县|