網頁原始碼:Excel解析10個以上超連結網址爬蟲

網頁原始碼裡面有很多HTML資訊,爬蟲的時候常常會用到。本文教你先以Word解析,再用VBA一次帶入10個以上超連結網址,設計程式自動執行,下載資料到Excel。

本書第六章為《Excel稅務新聞》,到最後是將取得的資料儲存於Word文件、透過Outlook發送電子郵件。當時只有新聞標題,寫在郵件內文中寄出,在這一章綜合範例中,會介紹如何批量取得新聞全文,以習慣的附件形式寄出。

一、稅務新聞

和第六章第四節、第五節相同,這裡想取得新竹市稅務局的最新稅務新聞。

E36e11

二、網頁超連結

網頁中每條稅務新聞都是其他網頁的超連結,分析網頁原始碼,可知該網頁一共有616個超連結,這些新聞是其中的的第501個開始,如同第五章第四節的分析結果。

E36e21

三、取得網頁連結程式

編寫VBA程式碼如下:

130:以「r」變數建立一個計數器,從一開始,每次「j」迴圈就再加一;

160:在第「r」列第「1」欄寫入所取得的網頁資料「news」

E36e31

四、網頁連結清單

取得資料如下,正是該網頁中所有稅務新聞的網址。

E36e41

五、實際瀏覽網頁

以上個步驟第一個網址為例,實際瀏覽該網頁如截圖。

E36e51

六、取得新聞內容程式

再編寫VBA程式碼如下:

E36e61

七、網頁新聞連載

成功於Excel取得各個超連結網址的稅務新聞全文如下:

E36e71

VBA取得網頁超連結

這一節運用綜合VBA技術,將一個網頁所特定類型的多個超連結網址,一次依序取得各個相對應網址的特定內容,並且井然有序地寫入Excel工作表上,格式經過自動調整。最後兩點補充:其一,超連結正是如今網頁之所以便利的原因,通常一個網頁上都會很多其他網頁的超連結,像這樣都是可以利用本節方法,批次量取得同一網頁多個超連結結址的內容;其二,這一節是將資料寫入Excel,其實如果以可閱讀性來說,Word會是比較適合的軟體,對此將於下一節繼續介紹。


贊贊小屋VBA教學中心:

Excel巨集錄製教學Excel巨集程式VBA編輯器VBA自學入門VBA基礎語法VBA基本應用VBA UserFormVBA VLOOKUP

取得範例程式請前往VBA社團,訂閱請加入VBA Line社群

VBA課程推薦:零基礎入門進階的20小時完整內容

VBA課程:20小時完整入門進階,職場及投資應用

最新文章: