爬取台灣上市上櫃公司股票代碼
今天要小編要介紹給大家如何用python爬取現在台灣上市上櫃的股票代碼,只要簡簡單單的寫幾行程式,網路上的資料就被爬下來了。今天要爬的網路資料如下圖所示,這是網站位置:http://isin.twse.com.tw/isin/C_public.jsp?strMode=2
爬取結果
寫完整個程式小編才知道原來台灣的上市股票總共有916檔阿!!
關鍵代碼:pd.read_html(url)
爬取網頁前需要先安裝python 的pandas套件,pandas是專門做資料處理的,簡單的來說就是表格的處理包,可以想像成程式化的excel,excel可以處理的pandas都能處理,甚至功能更多更強,例如小編要介紹函式read_html,只要給予網站網址就能抓取所有的表格下來,是個非常方便的功能。底下附上完整代碼,header的功能是為了模仿網頁瀏覽器,因為有些網站會擋爬蟲程式碼,因此要偽裝成chrome瀏覽器才能順利爬取資料。
pd.read_html 官網源碼
解決亂碼問題:
小編第一次爬的時候發現爬出來的資料都是亂碼,這時候就必須檢查網頁的原始編碼的形式,結果發現是MS950