官术网_书友最值得收藏!

2.1.4 稻米的模式識別

黃酒行業快速發展的同時,依然存在著諸多問題,如:釀造技藝發展緩慢、研究方法不成體系、基礎理論研究非常薄弱、黃酒品質穩定性差、黃酒消費市場受地域限制、行業發展方向不明確、業內存在無序競爭、宣傳力度不夠及行業規模普遍較小等,都將嚴重影響黃酒的發展。

黃酒企業擴大生產規模和產量,對黃酒釀造用原料大米的需求也自然增加,但以往基本都選用黃酒企業當地的優質大米作為釀造原料;黃酒主要產區基本都位于我國東部沿海城市,這些城市普遍占地面積較小,可用耕地本身就有限,加之城市快速發展占用耕地,導致城市可用耕地日益減少,糧食產出嚴重不足,故出現黃酒釀造用大米尤其是糯米供不應求的局面。因此有專家提出在黃酒產區以外建立原料大米生產基地以緩解原料大米供應不足的現狀,浙江省也于2007年出臺了黃酒企業在省外建立黃酒用大米基地的鼓勵政策,在很大程度上解決了黃酒釀造用米緊缺的困境。但是不同產地適合種植的稻米不僅在品種上存在差異,即使是同一品種的稻米在不同地方生長,由于氣候、日照、溫度、濕度、土壤礦物含量、微生物種群等不盡相同,稻米品質特性也存在一定差異,不同品質的大米其黃酒釀造特性有一定差異,在生產時為不同大米確定最佳的黃酒釀造工藝成為首要任務。而由于不同品種和產地的大米在感官品質、化學組成、物理特性以及米粒表面微生物種群等方面存在一定差異,其釀造的黃酒也會有所不同,因此為了區分不同大米釀造黃酒的品質,建立更全面、精確的黃酒分類標準,確定不同大米對黃酒品質的影響也是非常必要的。

隨著中國黃酒行業的快速發展,其生產工藝也不斷革新,生產優質黃酒的主要原料已由傳統工藝的糯米擴展為粳米和秈米。但是不同種類的稻米由于在化學組成、加工特性、微生物種群方面存在較大差異,導致了釀造的黃酒特性也不盡相同,每種稻米都具有相應加工工藝。如何通過快速而準確地識別稻米的品種及產地,進而確定黃酒釀造的最優工藝成為業內急需解決的問題。江南大學傳統釀造食品研究中心——毛健教授團隊首次以來自我國10個不同地區包括粳米、秈米和糯米在內的10種大米為固體樣本,采用溴化鉀壓片法、石蠟油調糊法、顯微紅外技術、基于OMNIC采樣器的單點全反射法以及漫反射法等,選用漫反射傅里葉變換紅外光譜(diffuse reflectance Fourier transform infrared spectroscopy,DR-FTIR)對稻米樣品進行紅外采集,結合軟獨立模式分類(soft independent modeling of class analogy,SIMCA)模式識別建模方法對稻米的紅外信息進行模式識別研究,確定了不同品質大米釀造優質黃酒的工藝并進一步建立以大米為中心的工藝庫及快速確定大米釀造工藝的篩選系統,探討了不同大米釀造的黃酒在化學計量學范疇的差異以及其與原料大米的相關性。這是世界范圍內首次對黃酒釀造原料大米進行的一種快速、精確的模式識別方式,對提升黃酒產業化生產具有重要意義。基于消費者對黃酒的風味和口感等品質要求及黃酒國際化的發展趨勢,未來黃酒產業的發展可能會向黃酒釀造專用稻米品種、專門產地、產不同風味的專用釀造功能微生物的方向發展,稻米的模式識別能夠提供一定的理論基礎。

2.1.4.1 稻米種類模式識別方法的建立

大米是一種復雜灰色體系,利用經典的化學分析方法,通過分離、純化等前處理進行定量檢測,最終利用這些信息對大量大米的品種和產地進行分類和識別已經不再可行。有研究發現,化學計量學和光譜學相結合的方法可以進行高通量的數據采集和分析,這解決了物質中信息復雜、難于歸類的問題。

(1)基于DR-FTIR與SIMCA大米模式識別方法介紹

化學計量學包含簡單的數理統計如標準偏差、置信區間、有效數字、顯著性分析、正態分布等,長期以來都被應用于分析化學領域,這些相對簡單的統計學與數學方法隨著在分析化學領域的應用范圍拓寬,深度增加,加之吸收了行為心理學、經濟計量學、信息科學、計算機科學等逐漸發展成為數據與信息分析方法,并成功應用于更為復雜的分析工作中,最終成為一門比較成熟的學科,其基本任務是應用和發展統計學方法及其他數學方法進行實驗設計,并從大量的實驗測量數據中獲得有用的化學信息。

紅外光是自然光譜中的一種,人們很早就發現了紅外光,但直到20世紀50年代初期才出現了商品紅外光譜儀,至此紅外光譜技術作為一種有效的手段應用于科研和生產,也揭開了有機物質結構鑒定的新篇章,隨著不斷發展,傅里葉變換紅外光譜(FTIR)技術成為了重要的分析手段,得到了十分廣泛的應用。FTIR的廣泛應用與該方法具備的優點密切相關。由于單色器的存在,使得全部范圍的光束可同時照射樣品,根據菲爾蓋特效益可以使分析時間大幅降低;FTIR的分辨率可低于0.001cm-1,分析物質的稍微改變都能精確測量;傅里葉變換的模/數轉換功能,可對IR結果進行多次掃描并累加,能夠降低隨機噪聲信號的影響,有效提高譜圖質量;全面的采樣技術,使FTIR能夠測定任何氣體、液體以及固體樣品,固體樣品可以采用溴化鉀研磨法、石蠟油調糊法或者反射方法進行測定,液體樣品可以采用涂膜法或液體樣品池法測定,而氣體樣品則利用氣體樣品池直接測定;針對特殊樣品FTIR還發展了很多種專一的測量技術如漫反射傅里葉變換紅外光譜法(DR-FTIR)、衰減全反射傅里葉變換紅外光譜法(ATR-FTIR)、紅外顯微鏡等;除此以外,紅外還具有樣品用量少、制樣簡單無污染、無損檢測等優點,廣受研究者的青睞。DR-FTIR是隨著漫反射附件的發展而興起的眾多紅外采集方法中的一種。

模式識別是化學計量學的一個重要分支,是對表征事物或現象的各種形式的(數值的、文字的和邏輯關系的)信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程。模式識別主要集中在研究生物體感知對象的方式以及計算機模擬實現的理論和方法,涉及心理學、生理學、生物學、神經生理學等認知科學的范疇,也屬于數學、信息科學和計算機科學。SIMCA的基本思想是對訓練集中每一類已知樣本分別進行PCA(principal component analysis,主成分分析)分析并建立數學模型,然后將未知樣品與已建立的模型進行擬合,確定未知樣品屬于哪一類或不屬于任何一類,這一思想基礎表明SIMCA計算時,已不再受樣品數目與變量個數的比例的嚴格限制,使該法能夠被廣泛地應用。通常SIMCA都包括兩個主要步驟:建立每一類樣本的PCA回歸模型;利用模型對未知樣本進行擬合,確定其分類。

(2)稻米種類模式識別方法的建立

圖2-1是SIMCA模式識別的示意圖,從圖中明顯看出該模式識別數據分為訓練集原數據和預測集原數據,訓練集則用于建立SIMCA模型。整個模式識別由預處理方法的確定、PCA模型及SIMCA模型的建立、模型檢驗3大部分構成。

圖2-1 SIMCA模式識別過程

光譜數據的預處理是PCA模型及SIMCA模型的建立和預測集樣本預測的前提基礎,確定紅外光譜采集參數后,利用平滑、基線校正以及譜圖求導等預處理方法對數據預處理后,使信息盡量展現,以利于良好地區分樣品;然后進行特征向量的提取,利用Unscrambler 9.7中的Matrix計算來提取特征向量,同時將不同類別樣本進行區分。在建模之前還要進行必要的校正處理,常用的數據校正方法主要有歸一化處理、標準正態變量變換(standard normal variate,SNV)和多元散射校正(multiplicative scatter correct,MSC)。通過對糯米、粳米和秈米三種大米的紅外對比分析表明秈米在脂質的特征吸收處有很強信號,與粳米和糯米有明顯差異;而粳米與糯米之間的差異沒有秈米明顯,在碳水化合物和蛋白質特征吸收區域內由于信號多而雜,且總體吸收都較強。訓練集樣本的Matrix計算圖由“樣品—變量—吸光值”構成的三維空間,能直觀地考察秈米、粳米及糯米在紅外吸光值上的總體差異。

結合紅外譜圖和Matrix圖的信息,最終選取以下4個組合波段的數據作為特征向量:Ⅰ(980~1170cm-1,1180~1375cm-1和1685~1751cm-1),Ⅱ(980~1170cm-1,1180~1375cm-1),Ⅲ(1180~1375cm-1,1685~1751cm-1)以及Ⅳ(980~1170cm-1,1685~1751cm-1)。不同產地糯米間除了脂質中CO在1735~1750cm-1的吸收以及碳水化合物在800~1200cm-1處的吸收存在一定差異外,其他波段區域內都具有很高的相識度,基本沒有明顯的規律性差異,說明不同產地糯米雖然存在差異,但是僅憑對紅外譜圖的直接觀察是難以得到有效信息的,這也為糯米產地的模式識別增加了難度,此時需要借助復雜的化學計量學方法,分析并挖掘其中的隱含信息,以達到對糯米按照產地進行區分和識別的目的。

采用交互留一驗證法分別建立不同種類大米及不同產地糯米的PCA模型,發現所有樣品被明顯地分成3個組,各自明顯區分且擁有聚集中心,表明能夠按照種類將大米分開,且分類效果良好。利用交互留一驗證法建立PCA模型的校正均方根誤差(root mean square error of calibration,RMSEC)及交互驗證均方根誤差(root mean square error of cross validation,RMSECV),由于驗證集是從訓練集中抽離一部分樣本信息重新組成的,數據的方差會有所增加,因此驗證集的剩余方差會相應地比校正集稍微高一些。在考察PCA模型效果時,RMSEC和RMSECV應該比較低,同時RMSECV略高于RMSEC是兩個判斷依據。

大米品種的PCA模型中RMSEC和RMSECV維持在10-3和10-4兩個數量級,表明只需要幾個主成分就能使模型的剩余殘差很低,很好地達到了降維的效果,而每個主成分數中RMSECV略比RMSEC大(差異出現在10-5水平),滿足了前述的兩個判斷依據,說明PCA模型良好,可以進一步建立SIMCA模型。不同產地糯米的PCA模型中RMSEC和RMSECV都很小,已達到10-4和10-5的數量級,同時RMSECV也略大于RMSEC,說明PCA模型良好,可以進一步建立SIMCA模型。按照已選的預處理方法和PCA建模方法,對3種大米建模,可得到3種大米各自的PCA模型(表2-9)。

表2-9 PCA模型的RMSEC和RMSECV 

利用上述SIMCA模型對不同品種大米預測集樣本進行預測,得到了在5%顯著性水平下,PCs(4,4,6)的識別率和拒絕率全部為100%。對3種大米進行預測,SIMCA模型都能100%地識別本來屬于同一類的大米樣本,而不屬于同一類的樣本也能100%“拒絕”,說明建立的SIMCA模型具有很好的識別效果。進一步利用該模型進行稻米種類模式識別在黃酒釀造中的應用,具體方法在下面內容中詳細介紹。

2.1.4.2 稻米種類模式識別在黃酒釀造中的應用

(1)黃酒ATR-FTIR譜圖紅外吸收的Matrix圖

研究發現黃酒紅外吸收信號主要集中在850~1800cm-1和2780~3010cm-1兩個波段范圍內,主要有13個明顯的吸收峰,2780~3010cm-1是乙醇中C—H伸縮振動信號,2899cm-1是脂肪酸中C—H的伸縮振動信號,2932cm-1是糖中C—H的伸縮振動信號;850~1800cm-1作為特征基團吸收和“指紋”區域是分析黃酒的重要信息,850~900cm-1是芳香族物質的平面外振動信息,950~1800cm-1是平面內振動,其中最強峰1044cm-1是乙醇的C—OH振動,1081cm-1和1151cm-1是C—O的伸縮振動,1273cm-1是O—H的彎曲振動,1383cm-1和1453cm-1分別是—CH3的對稱和反對稱振動,同時1200~1800cm-1為蛋白質酰胺鍵和糖醛酸類的信號區域,1650~1750cm-1是糖醛酸中CO和甲基化羰基或離子化COOH中羰基的吸收,1600~1650cm-1、1500~1600cm-1和1400~1500cm-1分別是Ⅰ類酰胺鍵、Ⅱ類酰胺鍵和Ⅲ類酰胺鍵的吸收信號。通過分析發現黃酒中物質種類多、組分濃度不確定且不同黃酒的譜圖差異不明顯,難以直接進行辨識和區分,因此需要借助化學計量學對其建立模式識別模型,以達到對不同黃酒進行分類和識別的目的。通過將譜圖進一步劃分成4個吸收區域,即975~1165cm-1、1250~1500cm-1、1600~1755cm-1和2780~3010cm-1,這些波長范圍的紅外吸收為建立SIMCA識別模型提供了有力依據。

通過Matrix分析,確定選擇4個波數范圍的紅外吸收作為特征向量:Ⅰ(975~1165cm-1,1250~1500cm-1,1600~755cm-1,2780~3010cm-1),Ⅱ(975~1165cm-1,1250~1500cm-1,1600~1755cm-1),Ⅲ(975~1165cm-1,1250~1500cm-1),Ⅳ(975~1165cm-1)。通過初步試驗,發現Savitzky-Golay的9點平滑、自動基線校正、SNV和一階求導對PCA有明顯影響。因此以其建立3種預處理方法:A(Savitzky-Golay的9點平滑、自動基線校正),B(Savitzky-Golay的9點平滑、自動基線校正、SNV),C(Savitzky-Golay的9點平滑、自動基線校正、SNV和一階求導)。得到了在5%顯著性水平下不同預處理的識別率和拒絕率,見表2-10。

表2-10 三種大米訓練集樣本的識別率和拒絕率  單位:%

從表2-10中數據顯示利用特征向量Ⅲ和預處理B建立識別模型得到了100%的識別率和最高的拒絕率,表明該預處理方法是最優的,因此選用特征向量Ⅲ和預處理B作為黃酒按照大米品種進行分類的模式識別的預處理方法。

(2)按照稻米品種建立黃酒的SIMCA識別模型

選取975~1165cm-1和1250~1500cm-1波段作為特征向量,進行Savitzky-Golay的9點平滑、自動基線校正和SNV處理后,采用交互留一驗證法可對黃酒進行PCA分析,同時可利用建立的SIMCA模型對不同黃酒的預測集樣本進行預測驗證模型的識別能力。在5%顯著性水平下所有選擇的黃酒可實現100%的識別率,而拒絕率除糯米黃酒為75%外其余均達100%,該模型在975~1165cm-1和1250~1500cm-1特定波段作為特征向量時對粳米和秈米稻米品種具備良好的識別能力。對不同稻米品種和對應的黃酒PCA分析顯示了前3個主成分,其中PC1、PC2分別表達了所有數據83%、15%的方差,共計98%,說明前兩個主成分表達了絕大部分的信息,從統計學角度考慮,剩余的2%的方差可能是誤差,這一點與表2-11顯示的RMSEC和RMSECV數據相吻合。

表2-11 不同黃酒PCA模型的RMSEC和RMSECV 

從表2-11中可知當PCs≥3時,RMSEC和RMSECV都小于10-4數量級,與數據總體均方根誤差相比已經足夠小,可以將其看作誤差舍棄。另外前兩個主成分中RMSECV均比RMSEC略大(差異出現在10-5水平),可以進一步建立SIMCA模型。

(3)按照糯米產地建立黃酒的SIMCA識別模型

通過Matrix分析,確定選擇4個波數范圍的紅外吸收作為特征向量:Ⅴ(970~1172cm-1,1245~1370cm-1,1600~1722cm-1,2865~2956cm-1),Ⅵ(970~1172cm-1,1245~1370cm-1,1600~1722cm-1),Ⅶ(970~1172cm-1,1245~1370cm-1),Ⅷ(970~1172cm-1)。通過初步試驗,發現Savitzky-Golay的3點平滑、自動基線校正、MSC和一階求導對PCA有明顯影響。因此以其建立3種預處理方法:D(Savitzky-Golay的3點平滑、自動基線校正),E(Savitzky-Golay的3點平滑、自動基線校正、MSC),F(Savitzky-Golay的3點平滑、自動基線校正、MSC和一階求導)。得到了在5%顯著性水平下不同預處理的識別率和拒絕率,如表2-12。

表2-12 不同產地糯米黃酒訓練集樣本的識別率和拒絕率  單位:%

從表2-12中數據顯示每種特征向量和預處理方法建立的識別率都是100%,但是拒絕率并非如此,因此拒絕率成為選取最優特征向量和預處理方法的重要指標。觀察發現利用特征向量Ⅵ和預處理D建立識別模型中除AB拒絕率為93%外,其余黃酒的拒絕率均為100%,是效果最優的預處理,因此選用特征向量Ⅵ和預處理D對不同產地糯米黃酒進行分類和模式識別的預處理方法。

SIMCA模型能100%地識別黃酒的種類,而拒絕率基本均達100%,該模型在特定波段作為特征向量對糯米的產地識別具備良好的識別能力。PCA分析了前3個主成分,其中PC1、PC2分別表達了所有數據81%、14%的方差,共計95%,說明前兩個主成分表達了絕大部分的信息,從統計學角度考慮,剩余的5%的方差可能是誤差,因此以2個主成分數建立PCA模型,這一點與表2-13顯示的RMSEC和RMSECV數據相吻合。

表2-13 不同產地糯米黃酒PCA模型的RMSEC和RMSECV 

從表2-13中可知當PCs≥3時,RMSEC和RMSECV都小于10-5數量級,與數據總體均方根誤差相比已經足夠小,可以將其看作誤差舍棄;另外前兩個主成分中RMSECV都略比RMSEC大一點(差異出現在10-5和10-6水平),說明PCA模型良好,可以進一步建立SIMCA模型。按照已選的預處理方法和PCA建模方法,對6種黃酒建模,得到各自的PCA模型。檢驗SIMCA模型與上述稻米SIMCA模型相同。

主站蜘蛛池模板: 舟曲县| 葫芦岛市| 罗定市| 固镇县| 屏边| 九台市| 册亨县| 和龙市| 如皋市| 乐山市| 蛟河市| 怀远县| 南城县| 桂平市| 宜阳县| 沿河| 永昌县| 蓝田县| 桃江县| 阿坝县| 双城市| 吐鲁番市| 灌阳县| 辽宁省| 大石桥市| 四子王旗| 兴国县| 邯郸市| 台江县| 东光县| 湖南省| 南木林县| 宕昌县| 邓州市| 高要市| 剑阁县| 永修县| 吉隆县| 临颍县| 梅河口市| 信阳市|