- 實戰Python網絡爬蟲
- 黃永祥
- 698字
- 2019-11-22 18:44:32
2.4 HTML
HTML是超文本標記語言,標準通用標記語言下的一個應用。“超文本”就是指頁面內可以包含圖片、鏈接,甚至音樂、程序等非文字元素。超文本標記語言的結構包括“頭”部分(Head)和“主體”部分(Body),其中“頭”部分提供關于網頁的信息,“主體”部分提供網頁的具體內容。
爬蟲開發對HTML的要求是能看懂HTML各個標簽的含義,了解標簽的屬性作用以及整個HTML布局設計。下面來看一個簡單的HTML文檔的結構:

一個完整的網頁必定以〈html〉〈/html〉為開頭和結尾,整個HTML可分為兩部分:
(1)〈head〉〈/head〉,主要是對網頁的描述、圖片和JavaScript的引用。〈head〉元素包含所有的頭部標簽元素。在〈head〉元素中可以插入腳本(scripts)、樣式文件(CSS)及各種meta信息。該區域可添加的元素標簽有〈title〉、〈style〉、〈meta〉、〈link〉、〈script〉、〈noscript〉和〈base〉。
(2)〈body〉〈/body〉是網頁信息的主要載體。該標簽下還可以包含很多類別的標簽,不同的標簽有不同的作用,標簽以〈〉開頭,以〈/〉結尾,〈〉和〈/〉之間的內容是標簽的值和屬性,每個標簽之間可以是相互獨立的,也可以是嵌套、層層遞進的關系。
根據這兩個組成部分就能很容易地分析整個網頁的布局。其中,〈body〉〈/body〉是整個HTML的重點部分,通過示例講述如何分析〈body〉〈/body〉:

上述例子分析如下:
(1)〈h1〉和〈div〉是兩個不相關的標簽,兩個標簽是相互獨立的。
(2)〈div〉和〈p〉是嵌套關系,〈p〉的上一級標簽是〈div〉。
(3)〈h1〉和〈p〉這兩個標簽是毫無關系的。
(4)〈h2〉標簽包含一個〈p〉標簽,〈p〉標簽再包含一個〈a〉標簽,一個標簽可以包含多個標簽在其中。
除上述示例的標簽之外,大部分標簽都可以在〈body〉〈/body〉中添加,常用的標簽如表2-1所示。
表2-1 HTML常用的標簽

- 在最好的年紀學Python:小學生趣味編程
- Apache Spark 2 for Beginners
- WSO2 Developer’s Guide
- Android Application Development Cookbook(Second Edition)
- 微信公眾平臺開發:從零基礎到ThinkPHP5高性能框架實踐
- 軟件架構:Python語言實現
- Flux Architecture
- Mastering Linux Security and Hardening
- Java網絡編程實戰
- Getting Started with React Native
- Emgu CV Essentials
- 快速入門與進階:Creo 4·0全實例精講
- 現代CPU性能分析與優化
- HTML5移動Web開發
- Python面試通關寶典