爬蟲

我發現在講SEO課時,大家最疑惑最不懂的就是和『 爬蟲 』相關的所有的事了!所以關於『 爬蟲 』,我們就來多說一點。

爬蟲不是真的一隻蟲也不是真的一隻機器蜘蛛。爬蟲英語:web crawler,也叫蜘蛛spider。這是為了讓初學者能一看到字,就能初步了解爬蟲的運作模式的形容詞。

因為網址就被形容成蜘蛛絲,爬蟲就是順著這些蜘蛛絲(網址)找到網站資訊的。換句話說,沒網址爬蟲就到不了了。

另外,你該知道的『 爬蟲 』概念:

 

一、爬蟲不只一隻

應該是說,這個自動化蒐集資訊的系統不會那麼簡化的一次只看一處一個地方,而是同時多處在作業的。

 

二、同一個地方爬蟲不會只有進來一次

依照網站的受歡迎程度,來決定這個網站要蒐集的資料該蒐集到多仔細。若是受歡迎的網站,可是連相似的相關的關鍵字詞都可以出現排名的。

這個自動化蒐集資訊的系統會依照網站的架構來蒐集資訊,若是不受歡迎沒人看的冷門網站,搞不好看完大標跟第一段就不會再進來了。

 

三、不是只有Google才有爬蟲

所謂的爬蟲就是來蒐集資訊的,所以YAHOO也有爬蟲,百度也有爬蟲,偵測網站功能的網站(比如偵測網站速度)也有爬蟲,駭客盜資料也有爬蟲。

 

四、爬蟲是認網址來確認他來過沒,之前的評估是好是壞

所以換了網址對爬蟲而言就是全新的頁面,網址前面是網站網址,所以已經被判定好的網站素質,看前面就知道了。而網址後面代表的頁面,就看內容爭不爭氣能不能幫整個網站拉抬加加分了。

 

五、爬蟲記錄走的資料不會是全部

爬蟲可以將自己所存取的頁面重點儲存下來,以便搜尋引擎事後生成索引,但不會是全部。因為全球的資訊太過多了記不完的。

 

 

說真的,講爬蟲講半天大家一直就要認為是一隻蟲,是駭客任務電影看太多了吧,很困擾欸!

歡迎留言問問題