seo爬蟲

爬蟲是 Google 的先鋒小兵,也是 SEO 判別網站好壞的重要執行者。要是爬蟲願意常常來光臨網站那可是要放鞭炮的事。網路爬蟲 web crawler,也叫網路蜘蛛 spider。可以說是一種用來自動瀏覽全球所有的資訊的網路機器人,目的是編纂網路索引。

Google 曾經說過自詡為全世界圖書館,圖書館管理書籍便是由圖書館管理員將書籍分門別類,製作索引目錄,當有人要找書時便由索引目錄找到類似相關的一堆書籍,以前沒有電腦的時代就是找到第幾櫃第幾排,然後由找書人自己去櫃面上看。

現代去書局找書也是類似這樣的,書店店員跟你說在哪一櫃然後讓你自己去看,而店員在進書時整理書籍,這個步驟就像是爬蟲要做的事。

實體書前面都有目錄的是吧,你知道書店店員如何判別這本書要放在門口平台還是直接去側插書櫃?待夠久夠專業都會是從書的簡介跟目錄決定。這個作業方式剛好跟爬蟲是一樣的,只是爬蟲會遵循 SEO 演算法規定去執行,而書店店員則是靠經驗。

 

爬蟲 怎麼抓資料

爬蟲是怎麼把資料呈現在搜尋平台上讓我們找到的?當我們將網站做好了把內容放上去了,為什麼 Google 會知道要來抓取放到搜尋平台上?而爬蟲是如何找到我們的資料?又如何知道我們有新的資料?這就要靠網址。

當我們在網站上生成內容了,像是一篇文章就會有網址,這個網址就可以視為蜘蛛絲,讓爬蟲順著爬過來,所以爬蟲我們一般才會叫他 spider(蜘蛛)。那下一個問題就會是爬蟲何時會發現這條蜘蛛絲並順著爬過來?會有不爬過來的狀況嗎?這蜘蛛絲不會斷鏈嗎?

會的,這些就是我們要經營好網站需要努力的事情了。

一般經常被使用的網站,爬蟲就會常常光顧,也就會很容易被發現有新的資訊。你可以想像成因為很多人搜尋,所以這一個網址這一條蜘蛛絲就越來越粗,所以爬蟲就很容易通行。

至於會有多快被發現呢?以我的經驗 10~30 分鐘就可以搜尋的到是相當快速的了,一般不常被使用的小網站大概 3 天最久二個禮拜都有可能。如果我們希望能快一點出現在搜尋平台中也可以自己去提交,等於是我們主動告知爬蟲有新資訊請他過來。

不過,最好最根本的辦法還是讓網站活絡常常被使用。現在已經很少有需要自己得跑去提交的狀況了。

 

SEO爬蟲 二者的關係

至於 “ 斷鏈 “ 呢?這在建久了的網站其實經常發生,所以我們要常常檢查修復。這麼說來我們是不是需要做些討好爬蟲的事,好讓我們的排名更好?其實爬蟲管的是 “ 索引 “ 。網路爬蟲可以將自己所搜索的頁面儲存下來,以便搜尋引擎事後生成索引提供使用者作搜尋。所以我們要做的是,讓爬蟲方便進來,看的懂,快速抓到重點,判別我們的內容資料很重要。

那爬蟲如何判別我們的內容資訊呢?

那就是靠 Google 演算法了。不過,近年來 Google 置入了AI自動學習的技術,目的是要能更人性化的呈現資訊,所以,未來 Google 可能會走到不再公佈什麼演算法了,而我們的經營面向則是要努力趨近於 ” 人 ” 的需求習慣。

 

那些原因會讓爬蟲無法蒐錄資料

1. 沒有網址

其實有不少網站和電商平台的圖片是沒有網址的,只是你自己不知道而已。如果你會羨慕很多人在 Google 圖片的頁面有被蒐錄,那就要去檢查圖片有沒有網址了。

 

2. 斷鍊

就是有時候你按了網址連結結果出現 404 網頁顯示此網頁不存在,那就是這個網址斷鍊了。這就要去網站後台修復。

 

3. 不認可的程式

Google 認可的程式目前的主流是 HTML5 。建議就是使用這種程式語法最不會有問題。

 

4. 使用noindex

為了不要讓 Google 認為有作弊嫌疑,很多網址後面有加 ” noindex ” ,爬蟲看到後雖會去搜尋但是就不會用演算法運算了。

 

5. 通知不要蒐錄

一般就是不想公開讓人搜尋的資料。

 

那不想公開的資料怎辦

這要分二部份說明:

一、與隱私權有關,如會員資料

這裡我們要介紹一個功能:robots.txt

robots.txt 的主要功用在於,告訴搜尋引擎某個頁面是否應該爬取?藉由 robots.txt 中寫程式語法告訴 Google 哪些內容不要在搜尋平台出現,哪些是不要做搜尋排名,而 Google 也的確會照做。

但是,駭客可不會!所以我們真正要防堵的並不是 Google 的爬蟲,而是駭客。

我們對於運用任何非法手段、不正當手段,在網路上獲取利益者稱作黑帽駭客或簡稱黑帽。我們要防的就是會竊取資料的黑帽駭客。以黑帽的技術來說,只要資料有和網路連結的痕跡,他就能順著痕跡竊取資料。

比如你的 USB 有被植入木馬程式,從電腦移到主機存取資料時,他就能竊取資料了,所以真要預防並不那麼容易。一般企業對於內部資料包括會員資料的資安保護,除了有工程師作資安防護外,會把資料另外儲存在另一台主機中,如果沒有資安工程師,把資料另外儲存在另一台主機中是最一般會作的防護。

另外,不想出現在搜尋排名的頁面,像是每個網站都會有的隱私權聲明,或電商的退貨程序這類的,就是利用 robots.txt 寫程式語法通知 Google 即可。

二、移除特定資訊

已上傳網路需要移除,或是只想給一部分的人看見。我們要有一個觀念,一旦上傳了網路,就算後來刪除了,網路上還是有痕跡可以查的到的。比如有人將網址或資料轉傳分享到 LINE 等其他搜尋引擎,Google 就沒有權限去刪掉他了。

因此,移除是能移除的,只要到 Google Search Console 就有移除網址的功能,不過就算移除了在 Google 平台上也不會馬上消失,要等一段時間。

 


探索更多來自 網路行銷講師蔡沛君| 不踢客網路行銷公司 的內容

訂閱後即可透過電子郵件收到最新文章。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *