1.3 機器學習應用的典型領域
機器學習能夠顯著提高企業的智能水平,增強企業的競爭力。人工智能對各行業的影響越來越大,隨著海量數據的累積和硬件運算能力的提升,機器學習的應用領域還在快速地延展,并對經濟和社會發展起到深遠的影響。下面介紹幾個機器學習應用的典型領域。
1.圖像處理
通過模擬人類視覺處理過程,輔以計算機視覺處理技術,機器學習在圖像處理領域應用廣泛,除了圖像識別、照片分類、圖像隱藏等,特別是CNN等對圖像進行處理具有天然的優勢。近年來圖像處理方面的創新應用已經涉及圖片生成、美化、修復和圖片場景描述等。
2015年出現的一款可以描述圖片內容的應用,可通過對圖片中背景、人物、物品及場景的描述來幫助視覺障礙人士了解圖中的內容。其中主要應用的技術是圖像識別,基于現有圖片庫中已經標記過的圖片作為模型的訓練集,經過學習,逐漸實現對圖片中對象的識別,但是其對內容的描述主要以列表方式返回,而非以故事的方式返回,因此這類應用的難點之一是自然語言生成,也是目前人工智能領域中的難點之一。
信手涂鴉一直是很多人的夢想,得益于深度神經網絡,人們可以通過合成的方式繪制一幅充滿藝術氣息的畫。其原理是使用 CNN 提取模板圖片中的繪畫特征,并應用馬爾可夫隨機場(Markov Random Field,MRF)對輸入的涂鴉圖片進行處理,最后合成一幅新的圖畫。圖1-3所示為Neural Doodle項目的應用效果,其中圖1-3(a)是油畫模板,圖1-3(b)是用戶涂鴉的作品,圖1-3(c)是合成之后的新作品。

圖1-3 應用深度神經網絡生成藝術畫
除了在上述項目應用中生成全新的圖片外,神經網絡還可以用于圖像修復,將GAN和CNN進行結合,并應用MRF理論對現有圖片中的缺失部分進行修復。此外,使用已經訓練好的VGG網絡作為紋理生成網絡,可以對現有圖片中的干擾物體進行移除。這類技術應用范圍較廣,除了照片美化外,還可集成于圖片處理軟件,用于智能修圖,或者對現有的圖片進行擴展繪制等。在某些訓練集中,已標記圖片數量較少時,可以使用GAN生成大量偽圖片,用于模型訓練,不僅可以極大地減少人工標記的工作量,而且可以動態迭代優化模型。
谷歌公司的PlaNet神經網絡模型可以識別照片中的地理位置(并非使用照片的Exif位置信息)。在模型的訓練過程中,使用了大約1.26億張網絡圖片,使用圖片的Exif位置信息作為標記,將地球上除南北極和海洋之外的地區進行網格化,使圖片對應于某一網格單元,然后使用其中大約9100萬張圖片進行訓練,用大約3400萬張圖片進行驗證,并用Flickr中大約2300萬張帶位置的照片進行測試,大約有3.6%的照片可以準確識別到街道級別,28%的照片可以準確識別位于哪一國家,48%的照片可以準確識別位于哪一個大陸板塊。識別的誤差距離大約為1131km,而同等情況下,人類對于圖片位置的識別誤差距離為2320km。雖然訓練樣本數量很大,但最終的神經網絡模型的大小只有377MB。
2.金融
金融與人們的衣食住行等息息相關。與人類相比,機器學習在處理金融行業的業務方面更加高效,可同時對數千只股票進行精確分析,在短時間內給出結論;沒有人類的缺點,在處理財務問題時更加可靠和穩定;通過建立欺詐或異常檢測模型提高金融安全,可有效檢測出細微模式差別,結果更加精確。
在信用評分方面,應用評分模型評估信貸過程中的各類風險,并對其進行監督,基于客戶的職業、薪酬、所處行業、歷史信用記錄等信息確定客戶的信用評分,不僅可以降低風險還可以加快放貸過程,減少盡職調查的工作量,提高效率。
在欺詐檢測方面,基于收集到的歷史數據訓練得到機器學習模型,用其來預測欺詐發生的概率。與傳統檢測相比,這種方法用時更少,且能檢測出更復雜的欺詐行為。在訓練過程中需要注意樣本類別不均衡的問題,防止出現過擬合情況。
在股票市場的趨勢預測方面,通過機器學習算法分析上市公司的資產負債表、現金流量表等財務數據和企業經營數據,可提取與股價或指數相關的特征進行預測。另外,利用與企業相關的第三方信息,如政策法規、新聞或社交網絡中的信息,通過自然語言處理技術分析輿情觀點或情感指向,為股票價格預測提供支持,從而使預測結果更準確。應用有監督學習方法建立兩個數據集之間的關系,從而使用一個數據集來預測另一個數據集結果,如用回歸來分析通貨膨脹對股市的影響等;無監督學習方法可以用于股票市場的影響因素分析,發現其背后的主要規則;深度學習適合非結構化大數據集的處理,提取不易于顯式表達的特征;強化學習的目標是通過算法探索來找到最大化收益的策略。應用LSTM等深度學習方法,基于股票價格波動特征及可量化的市場數據對股票價格進行實時預測,可用于股票市場的高頻交易等領域中。
在客戶關系管理方面,從銀行等金融機構現有的海量數據中挖掘信息,通過機器學習模型對客戶進行細分,從而支持業務部門的銷售、宣傳和市場推廣活動。此外,應用聊天機器人等綜合人工智能技術可以全天候服務客戶,提供私人財務助理服務,例如個人財務指南、跟蹤開支等。在處理各種客戶請求,如客戶通知、轉賬、存款、查詢、常見問題解答和客戶支持等方面,經過長期積累用戶的歷史記錄,可以向客戶提供合適的理財方案。
3.醫療
機器學習可以用于預測患者的診斷結果、制定最佳療程甚至評估風險等級。此外,機器學習還可以減少人為失誤。在2016年JAMA雜志報道的一項研究中,機器學習系統通過對大量歷史病理圖片的訓練,得到的模型驗證準確度達到了96%。這一數字表明,人工智能在對糖尿病視網膜病變進行診斷方面已經與醫生水平相當。此外,對超過13萬張皮膚癌的臨床圖片進行深度學習后,機器學習系統在皮膚癌檢測方面超過了皮膚科醫生。
對腦外科醫生而言,術中病理分析往往是診斷腦腫瘤的最佳方式之一,但這一過程耗時較長,容易延誤正在進行的腦部手術。科學家開發的機器學習系統,能夠將未經處理的大腦樣本進行“染色”,提供精準的信息,效果與病理分析的一樣,通過它診斷腦瘤的準確率和使用常規組織切片診斷的準確率幾乎相同,這對身處手術中的腦瘤患者來說至關重要,因為它極大地縮減了診斷的時間。
在臨床試驗方面,每次臨床試驗都需要大量的數據,如患者的歷史病歷信息、衛生日志、App數據和醫療檢查數據等。機器學習通過匯總挖掘這些數據,從而獲得有價值的信息。例如,生物制藥公司根據個體患者的生物特征進行建模,并根據患者的藥物反應,對試驗人群分類,對患者生物體征和反應進行全程監控。一家英國公司利用機器學習技術分析大量圖像資料,通過分析建立模型,辨別和預測早期癌癥,還為患者提供個性化的治療過程。研究人員從大量心臟病患者的電子病歷庫調取了患者的醫療信息,如疾病史、手術史、個人生活習慣等,將這些信息在機器學習算法下進行分析建模,預測患者的心臟病風險因素,該模型在預測心臟病患者人數以及預測是否會患心臟病方面均優于現在的預測模型。
4.自然語言處理
自然語言處理屬于文本挖掘的范疇,融合了計算機科學、語言學、統計學等基礎學科。自然語言處理涉及自然語言理解和自然語言生成,其中自然語言理解包括文本分類、自動摘要、機器翻譯、自動問答、閱讀理解等,目前在這些方面均取得了較大的成就,但是在自然語言生成方面成果不多,具備一定智能且能商用的產品很少。自然語言處理涉及的內容具體介紹如下。
(1)分詞
分詞(Word Segmentation)主要基于詞典對詞語進行識別,最基本的方法是最大匹配法,效果取決于詞典的覆蓋度。此外,常用基于統計的分詞方法,利用語料庫中的詞頻和共現概率等統計信息對文本進行分詞。消解切分歧義的方法包括句法統計和基于記憶的模型,前者將自動分詞和基于馬爾可夫鏈的詞性自動標注結合起來,利用從人工標注語料庫中提取出的詞性二元統計規律來消解切分歧義;而基于記憶的模型,對機器認為有歧義的常見交集型歧義進行切分,如將“辛勤勞動”切分為“辛勤”“勤勞”“勞動”,并把它們的唯一正確切分形式預先記錄在一張表中,其歧義消解通過直接查表實現。
(2)詞性標注
詞性標注(Part of Speech Tagging)是對句子中的詞標記詞性,如動詞、名詞等。詞性標注本質上是對序列中各詞的詞性進行分類判斷,早期用隱馬爾可夫模型,后來用最大熵、條件隨機場、支持向量機等模型進行標注。隨著深度學習技術的發展,出現了很多基于深層神經網絡的詞性標注方法。
(3)句法分析
在進行句法分析時,人工定義規則費時、費力,且維護成本較高。近年來,自動學習規則的方法成為句法分析的主流方法,目前主要是應用數據驅動的方法進行分析。通過在文法規則中加入概率(如詞共現概率)值等統計信息,實現對原有的上下文無關文法分析方法的擴展,最終實現概率上下文無關文法(Probabilistic Context Free Grammar,PCFG)分析方法,在實踐中取得了較好效果。句法分析主要有依存句法分析、短語結構句法分析、深層文法句法分析和基于深度學習的句法分析等。
(4)自然語言生成
自然語言生成(Natural Language Generation,NLG)的主要難點在于,在知識庫或邏輯形式等方面需要進行大量基礎工作,人類語言系統中又存在較多的背景知識,而機器表述系統中一方面較難將背景知識集成(信息量太大),另一方面,語言在機器中難以合理表示,因此目前自然語言生成的相關成果較少。
現在的自然語言生成方法大多用模板。模板源于人工定義、知識庫,或從語料庫中進行抽取,這種方式生成的文章容易出現“僵硬”的問題。目前也可以用神經網絡生成序列,如Seq2Seq、GAN等深度學習模型等,但由于訓練語料的質量各異,容易出現結果隨機且不可控等問題。
自然語言生成的步驟包括內容規劃、結構規劃、聚集語句、選擇字詞、指涉語生成、文本生成等,目前比較成熟的應用主要還是一些從數據庫或資料集中通過摘錄生成文章的系統,例如一些天氣預報生成、財經新聞或體育新聞的寫作、百科寫作、詩歌寫作等,這些文章本身具有一定的范式,類似八股文,具有某些固定的文章結構,語言的風格變化較少。此外,此類文章重點在于其中的內容,讀者對文章風格和措辭等要求較低。綜合來看,目前在人工智能領域中,自然語言生成的難題還未真正解決,可謂“得語言者得天下”,畢竟語言代表著較高級的人類智能。
(5)文本分類
文本分類(Text Classification)是將文本內容歸為某一類別的過程,目前相關研究成果層出不窮,特別是隨著深度學習的發展,深度學習模型在文本分類任務方面取得了巨大進展。文本分類的算法可以劃分為以下幾類:基于規則的分類模型、基于機器學習的分類模型、基于神經網絡的方法、CNN、RNN。文本分類技術有著廣泛的應用。例如,社交網站每天都會產生大量信息,如果由人工對這些文本進行整理將會費時費力,且分類結果的穩定性較差;應用自動化分類技術可以避免上述問題,從而實現文本內容的自動化標記,為后續用戶興趣建模和特征提取提供基礎支持。除此之外,文本分類還作為基礎組件用于信息檢索、情感分析、機器翻譯、自動文摘和垃圾郵件檢測等。
(6)信息檢索
信息檢索(Information Retrieval)是從信息資源集合中提取需求信息的行為,可以基于全文或內容的索引。目前在自然語言處理方面,信息檢索用到的技術包括向量空間模型、權重計算、TF-IDF(詞頻-逆向文檔頻率)詞項權重計算、文本相似度計算、文本聚類等,具體應用于搜索引擎、推薦系統、信息過濾等方面。
(7)信息抽取
在信息抽?。↖nformation Extraction)方面,從非結構化文本中提取指定的信息,并通過信息歸并、冗余消除和沖突消解等手段,將非結構化文本轉換為結構化信息。其應用方向很多,例如從相關新聞報道中抽取事件信息,如時間、地點、施事者、受事者、結果等;從體育新聞中抽取體育賽事信息,如主隊、客隊、賽場、比分等;從醫療文獻中抽取疾病信息,如病因、病原、癥狀、藥物等。它還廣泛應用于輿情監控、網絡搜索、智能問答等領域。信息抽取技術是中文信息處理和人工智能的核心技術。
(8)文本校對
文本校對(Text Proofreading)主要用于對自然語言生成的內容進行修復或對光學字符閱讀器(Optial Character Reader,OCR)識別的結果進行檢測和修復,采用的技術包括應用詞典和語言模型等,其中詞典是將常用詞以詞典的方式對詞頻進行記錄。如果某些詞在詞典中不存在,則需要對其進行修改,選擇最相近的詞語進行替換。這種方式對詞典要求高,并且在實際操作中,由于語言的變化較多且存在較多組詞方式,導致誤判較多,在實際應用中準確性不佳。而語言模型是基于詞匯之間搭配的可能性(概率)來對詞匯進行正確性判斷的,一般以句子為單位對整個句子進行檢測。
(9)問答系統
問答系統(Question Answering System)在回答用戶問題之前,首先需要正確理解用戶用自然語言提出的問題,這涉及分詞、命名實體識別、句法分析、語義分析等自然語言理解相關技術。然后針對提問類、事實類、交互類等不同形式的提問分別應答,例如針對提問類問題,可通過從知識庫或問答庫中檢索、匹配獲得答案,除此之外還涉及對話上下文處理、邏輯推理、知識工程和語言生成等多項關鍵技術。因此,可以說問答系統代表自然語言處理的智能處理水平。
(10)機器翻譯
機器翻譯(Machine Translation)是由機器實現不同自然語言之間的翻譯,涉及語言學、機器學習、認知語言學等多個學科。目前基于規則的機器翻譯方法需要人工設計和編纂翻譯規則,而基于統計的機器翻譯方法能夠自動獲取翻譯規則,近年來流行的端到端的神經網絡機器翻譯方法可以直接通過編碼網絡和解碼網絡自動學習語言之間的轉換算法。
(11)自動文摘生成
自動文摘生成(Automatic Summarization)主要是為了解決信息過載的問題,使用戶閱讀文摘即可了解文章大意。目前常用抽取式和生成式兩種方法。抽取式方法是通過對句子或段落等進行權重評價,按照重要性對之進行選擇并組成文摘。而生成式方法除了利用自然語言理解技術對文本內容進行分析外,還利用句子規劃和模板等自然語言生成技術產生新句子。傳統的自然語言生成技術在不同領域中的泛化能力較差,隨著深度學習的發展,生成式方法應用逐漸增多。目前主流還是采用抽取式方法,原因是這一方法易于實現,能保證摘要中的每個句子具有良好的可讀性,并且不需要大量的訓練語料,可跨領域應用。
5.網絡安全
網絡安全包括反垃圾郵件、反網絡釣魚、上網內容過濾、反詐騙、防范攻擊、惡性代碼檢測、個人隱私保護和活動監視等,隨著機器學習算法逐漸應用于企業安全中,各種新型安全解決方案如雨后春筍般涌現,這些模型在分析網絡、監控網絡、發現異常情況等方面效果顯著,從而保護企業免受威脅。
在密碼學方面,機器學習主要用于密碼的加密和解密,例如通過分析通用符號密碼的特征,以及目前常見密碼的各種缺點,利用神經網絡算法破解密碼。近年來,谷歌大腦將GAN引入密碼加密和解密中,隨著迭代訓練次數不斷增加,加密模型和解密模型的性能同步提升,最終在沒有提供密碼學知識的情況下,獲得性能很強的加密模型。在網絡安全加固方面,利用機器學習探測網絡安全的優勢和劣勢,并給出一些改進的建議。由于惡意請求通常會進行偽裝,因此在網絡入侵檢測方面存在較大難度,并且攻擊行為實例較少,需要處理樣本不平衡問題,在模型評價時采用召回率作為性能度量標準。
在垃圾郵件過濾系統中,如何提升過濾的準確性一直是一個難題。傳統的機器學習算法包括貝葉斯分類器、支持向量機等分類算法,對正常和垃圾郵件中的文本內容應用自然語言處理技術提取特征,并訓練分類器判斷垃圾郵件。
近年來,機器學習在惡性代碼檢測方面也有不少進展。圍繞機器學習的穩健性,對抗機器學習也吸引了一些學者進行研究。針對個人隱私保護的機器學習——聯邦學習正成為機器學習的熱點。
6.工業
機器學習在工業領域的應用主要在質量管理、災害預測、缺陷預測、工業分揀、故障感知等方面。通過采用人工智能技術,實現制造和檢測的智能化與無人化,利用深度學習算法判斷的準確率和人工判斷的相差無幾。
將深度學習算法應用到工業機器人上,可大幅提升作業性能,并實現制造流程的自動化和無人化。例如,分揀商品或者零件時,使用分類算法對商品進行識別,同時可以采用強化學習(Reinforcement Learning)算法來實現商品的定位和撿起動作。
在機器故障檢測和預警方面,應用機器學習對物聯網中各傳感器提取的數據進行分析,并結合歷史故障記錄、硬件狀態指標等信息建立預測模型,提前預知異常。或者從故障定位的角度,建立決策樹等分類模型對故障原因進行判斷,快速定位并提供維修建議,減少故障的平均修復時間,從而減少停機帶來的損失。
機器學習在工業領域中也存在瓶頸,主要有以下幾個方面。
(1)數據質量
有監督學習方式訓練效果好,但是需要標注很多數據,其中數據的質量、歸一化方法、分布等對模型的效果影響較大。例如,如果數據量太多,那么需要較高的計算能力和計算成本;如果數據量太少,模型的預測能力一般較差。
(2)工程師經驗
機器學習的相關算法和方法具有一定的門檻,在對原理不清楚的情況下進行實驗,很難取得較理想的效果,因此要求工程師不僅具有工程實現的能力,還需具備線性代數、統計學等數學基礎知識,并理解數據科學和機器學習的常見算法。
(3)計算能力
由于在深度學習訓練過程中需要不斷調參,甚至重新設計網絡結構,因此訓練周期較長,并且隨著模型復雜度增加,對計算能力要求提高,一般模型越大應用時效率越低。
(4)機器學習的不可解釋性
在機器學習中,深度學習模型在解釋模型中參數方面較差,如果在工業應用中除了對結果看重外還要求解釋學習過程,就比較難實現。此外,深度學習對數據的質量要求較高,如果存在缺失值等問題,會有較大誤差。
7.娛樂業
美國波士頓的Pilot Movies公司使用算法來預測票房,把要預測的電影和1990年以來的每部電影進行比較,預測準確度可以超過80%。另外,把人工智能與大數據應用到分析娛樂行業的其他方面,例如,分析觀眾愿意為哪些內容付費等。
芬蘭的一家創業公司Valossa研發了一種人工智能平臺,可以在視頻中檢測識別人物、視頻上下文、話題、命名實體、主題以及敏感內容,使用計算機視覺、機器學習以及自然語言處理等技術,為每一秒視頻都創建元數據。
IRIS.TV公司通過一個叫作廣告計劃管理器(Campaign Manager)的工具使觀眾在視頻內容上的停留時間更長,還可以插播品牌視頻廣告,而視頻瀏覽留存率平均提升了70%。其主要原理是在客戶觀看視頻時收集各種相關數據,將其輸入機器學習模塊中以推薦更多的相關視頻。通過大數據創建的智能視頻分發模型,可幫助視頻平臺實現其視頻內容精準分發,并且增加內容展現次數。