網路爬蟲先解析網站網址,以台灣銀行匯率為例

網路爬蟲是利用程式取得網頁資料。通常非瀏覽器「閱讀」網頁,無非是系統性下載,因此首要工作是瞭解網站網址結構,本文以台灣銀行匯率為例介紹。

本書前三章「藝文展覽」、「天氣預報」、「借閱排行」,題材較為生活化,用意在將Excel的wifi「打開」,介紹如何在技術層面連上網路取得資料。現今網路資訊如此多元,讀者也可以依照自己興趣和需要,設計專屬的Excel生活助理。這一章開始,題材會以商業化應用為主,首先是分享如何運用Excel取得匯率資料。

一、台灣銀行匯率

台灣銀行匯率利率黃金牌價查詢服務,如今無論公司或者個人,對於匯率多少應該都有興趣。仔細拆解網址結構,「rate」代表利率、「bot」代表Bank of Taiwan台灣銀行、「com.tw」則是台灣網址。瞭解網址是批量取得網頁資料的基礎。

二、牌告匯率

這是「牌價最新掛牌時間」,所以是營業時間工作日才有掛牌匯率,周末和例假日沒有,注意到最下面有個「下載Excel檔」。

三、Excel檔案下載

下載後的Excel檔如圖所示,已經將網頁資料整理很好了, 現今公務機關資訊公開,很多資料都像這樣整理成Excel檔供下載。

四、歷史匯率查詢

依照網頁上選單,最早是到2016年1月。

五、2016年1月美金匯率

網頁上呈現的資料很完整,還可以「下載Excel檔」。

六、2015年1月美金匯率

雖然主頁上看不到「2015-01」的超連結選項,但是於瀏覽器網址手工修改,發現其實「2015-01」的網頁仍然存在。

七、網站網址清單

將這一節的網址羅列清單如圖所示:

瞭解台灣銀行網站網址結構

將台灣銀行網站查詢匯率的相關網頁列出來,可以很清楚其結構邏輯,其實不難想像,每個大型長期經營的網站建置者,預期網站內容會越來越豐富、網頁會越來越多,在以超連結串起來的各網頁之間,一定有規則可循,尤其是像歷史匯率這樣有時間性的資訊,大部份於網址結構會有個時間日期在裡面,當需要將一段區間的網頁內容全部打包下載到Excel時,掌握了網址規則,方能編寫適當VBA程式碼。

每天學習,每天充電:VBA爬蟲文章合集

最新文章: