GOOGLE優(yōu)化的原理與關(guān)鍵詞的選擇
本文有848個文字,大小約為4KB,預計閱讀時間3分鐘
原文標題:GOOGLE優(yōu)化的原理與關(guān)鍵詞的選擇
搜索引擎的運行原理也是SEO新手入門需要了解的知識,能夠幫助你對搜索引擎這個工具有個整體的認知。對于所有的搜索引擎來說,他們基本的工作流程都是相同的。
首先是抓取,搜索引擎通過蜘蛛(搜索引擎的抓取程序),抓取互聯(lián)網(wǎng)上的眾多網(wǎng)站信息;
然后是收錄,搜索引擎會把抓取到的網(wǎng)頁信息,收錄到自己的數(shù)據(jù)庫中;
最后是排名,搜索引擎根據(jù)用戶使用的搜索詞通過它的特定算法在數(shù)據(jù)庫中找到匹配的相關(guān)頁面,通過搜索結(jié)果的形式展示給用戶。
抓取規(guī)則(Crawling)
搜索引擎會利用蜘蛛工具抓取互聯(lián)網(wǎng)上可以抓取到的所有網(wǎng)頁信息。可能有人會問蜘蛛工具是什么?互聯(lián)網(wǎng)上的網(wǎng)站是相互鏈接的,網(wǎng)站內(nèi)部的叫做內(nèi)鏈,對外的鏈接叫做外鏈。這些鏈接就像一張大網(wǎng)一樣,把幾乎所有的網(wǎng)站都連接到了一起,從而組合成了整個互聯(lián)網(wǎng)。
而搜索引擎的抓取工具,就像蜘蛛一樣,可以順著這個網(wǎng)絡(luò)對網(wǎng)頁信息一個個地進行抓取。所以,我們把搜索引擎的抓取工具稱之為蜘蛛。谷歌的抓取工具就叫做谷歌蜘蛛,百度的抓取工具就叫做百度蜘蛛,有些人也把蜘蛛叫做機器人,都是同一個意思。
檢查網(wǎng)站是否可以被抓取
蜘蛛到你的網(wǎng)站上第一步會檢測你的網(wǎng)站是否處于可以抓取的狀態(tài),因為不是所有的網(wǎng)站都愿意讓搜索引擎抓取。
比如,一個網(wǎng)站剛剛搭建,還沒有什么實質(zhì)性的內(nèi)容,不想立刻對外開放,也不想給搜索引擎留下不好的第一印象,于是可以選擇不讓蜘蛛抓取。這一步實現(xiàn)起來也很簡單,主要是利用網(wǎng)站中的一個叫做robots.txt的協(xié)議文件告訴蜘蛛是否可以抓取本網(wǎng)站,甚至進一步規(guī)定哪些頁面可以抓取,哪些頁面不可以抓取。
谷歌爬蟲抓取網(wǎng)頁
在獲得網(wǎng)站內(nèi)容抓取權(quán)限后,蜘蛛就會開始自己的抓取工作,搜集網(wǎng)站中各個網(wǎng)頁的信息。前面提到過,蜘蛛是順著鏈接爬行的,所以你的網(wǎng)站中的各個頁面需要有鏈接聯(lián)系起來,這樣才能方便蜘蛛爬行抓取,這些鏈接也就是我們說的內(nèi)鏈。
內(nèi)鏈的一般形式有:各類導航鏈接、文中鏈接、圖片鏈接等。如果你的某一個網(wǎng)頁,其他頁面上均無法跳轉(zhuǎn)到,sitemap站點地圖里也沒有,外部也沒有任何鏈接指向它,那么這個頁面蜘蛛也就無法到達了,除非你單獨提交給搜索引擎,但這種頁面也就沒什么意義了。
另外,蜘蛛的抓取工作不一定都是通過首頁開始的,可能蜘蛛是順著別的網(wǎng)站指向你網(wǎng)站中的某個頁面的鏈接爬進來的,也就是通過外鏈來到了你的網(wǎng)站。所以,外鏈也能起到幫助網(wǎng)站被抓取的作用。
即便robots規(guī)則沒有阻止抓取,搜索引擎的蜘蛛抓取工具也不是任何內(nèi)容都可以抓取到的。和我們?nèi)庋鄄榭淳W(wǎng)站的方式不一樣,搜索引擎看的是網(wǎng)站被抓取到的源代碼。
?
本文來源:http://www.kyotomoriagedaisakusen.com/seo/206.html
版權(quán)聲明:本文為向前網(wǎng)絡(luò)工作室,未經(jīng)站長允許不得轉(zhuǎn)載。