官术网_书友最值得收藏!

2.4 HTML

HTML是超文本標記語言,標準通用標記語言下的一個應用。“超文本”就是指頁面內可以包含圖片、鏈接,甚至音樂、程序等非文字元素。超文本標記語言的結構包括“頭”部分(Head)和“主體”部分(Body),其中“頭”部分提供關于網頁的信息,“主體”部分提供網頁的具體內容。

爬蟲開發對HTML的要求是能看懂HTML各個標簽的含義,了解標簽的屬性作用以及整個HTML布局設計。下面來看一個簡單的HTML文檔的結構:

一個完整的網頁必定以〈html〉〈/html〉為開頭和結尾,整個HTML可分為兩部分:

(1)〈head〉〈/head〉,主要是對網頁的描述、圖片和JavaScript的引用。〈head〉元素包含所有的頭部標簽元素。在〈head〉元素中可以插入腳本(scripts)、樣式文件(CSS)及各種meta信息。該區域可添加的元素標簽有〈title〉、〈style〉、〈meta〉、〈link〉、〈script〉、〈noscript〉和〈base〉。

(2)〈body〉〈/body〉是網頁信息的主要載體。該標簽下還可以包含很多類別的標簽,不同的標簽有不同的作用,標簽以〈〉開頭,以〈/〉結尾,〈〉和〈/〉之間的內容是標簽的值和屬性,每個標簽之間可以是相互獨立的,也可以是嵌套、層層遞進的關系。

根據這兩個組成部分就能很容易地分析整個網頁的布局。其中,〈body〉〈/body〉是整個HTML的重點部分,通過示例講述如何分析〈body〉〈/body〉:

上述例子分析如下:

(1)〈h1〉和〈div〉是兩個不相關的標簽,兩個標簽是相互獨立的。

(2)〈div〉和〈p〉是嵌套關系,〈p〉的上一級標簽是〈div〉。

(3)〈h1〉和〈p〉這兩個標簽是毫無關系的。

(4)〈h2〉標簽包含一個〈p〉標簽,〈p〉標簽再包含一個〈a〉標簽,一個標簽可以包含多個標簽在其中。

除上述示例的標簽之外,大部分標簽都可以在〈body〉〈/body〉中添加,常用的標簽如表2-1所示。

表2-1 HTML常用的標簽

主站蜘蛛池模板: 成武县| 乌恰县| 镇赉县| 阳信县| 滦平县| 泸水县| 建始县| 旺苍县| 土默特右旗| 延川县| 观塘区| 济源市| 宿州市| 新宾| 皮山县| 杭锦后旗| 建德市| 若尔盖县| 巴青县| 客服| 甘洛县| 广州市| 封丘县| 克东县| 开平市| 仙居县| 牙克石市| 西乌珠穆沁旗| 拉萨市| 淄博市| 于都县| 开封县| 大余县| 漳平市| 卢湾区| 丹东市| 稻城县| 武穴市| 读书| 固始县| 芦溪县|