官术网_书友最值得收藏!

第1章 緒論

隨著數據庫和計算機網絡的廣泛應用,數據處理領域面臨兩方面的難題。一方面是數據雪崩:現實世界中產生的數據量呈指數級增長,人們所擁有的信息量急劇增大,超大規模的數據集與日俱增,待處理的海量數據層出不窮,信息量遠遠超過了人腦掌握、消化的能力,這就是數據雪崩。另一方面,先進的觀測技術和現代監測儀器的推廣和應用使我們的監測范圍更加廣泛,隨著數據維度的增加,許多數據分析變得非常困難,特別是隨著維度的增加,數據在它所占據的空間中越來越稀疏。對于分類,這可能意味著沒有足夠的數據對象來創建模型,將所有可能的對象可靠地指派到一個類;對于聚類,點之間的密度和距離的定義(對聚類而言是至關重要的)失去了意義,這就是“維災難”。

如此龐大的信息量已經遠遠超過了人腦可以駕馭的范圍,傳統的人工處理方法已經無法處理和利用如此大規模的海量、高維數據,更無法快速、準確地從中獲取有用知識,傳統的數據庫技術和數據處理手段也已經不能滿足要求。由于人們迫切需要將這些數據轉換成有用的信息和知識,所以如何從海量、高維數據中快速提取有用信息已成為亟待解決的問題之一。正是基于這樣的需求,數據挖掘技術受到了廣泛關注,并得以快速發展。

主站蜘蛛池模板: 乃东县| 岳阳市| 鹤壁市| 吴堡县| 永川市| 商都县| 沿河| 平阳县| 金川县| 巩留县| 顺昌县| 汽车| 凤山市| 凤台县| 新蔡县| 大足县| 石阡县| 澎湖县| 河西区| 潜山县| 泰宁县| 郴州市| 开平市| 墨脱县| 镇安县| 江城| 北票市| 同心县| 邛崃市| 阜宁县| 香港| 鹰潭市| 扎赉特旗| 青海省| 卢氏县| 徐水县| 贵州省| 资兴市| 浑源县| 湘阴县| 宣汉县|