最新消息  
最新消息 > 最新消息
(發佈時間:2020-06-04 16:02:04)
當代搜尋引擎

Google的兩名創始者拉里·佩奇(Larry Page) 和謝爾蓋·布林(Sergey Brin)帶來了一個給網頁評估的新概念,稱為「網頁級別」 (PageRank),是Google搜尋引擎演算法[1]重要的開端。網頁級別十分倚賴匯入連結(incoming link),並利用「每個匯入某網頁的連結相當於給該網頁價值投一票」的理論建立起邏輯系統。越多匯入連結意味著該網頁越有「價值」。而每個匯入連結本身價值直接根據該連結從何而來的網頁級別,以及相反的該頁導出連結 (outgoing link) 。而在2009年的10月,Google網站管理工具正式移除了PageRank[2],而緊接著 Google 在2011年移除了 Firefox 的 Google Toolbar,並在2016年正式除 Google PageRank[3]

Google 在服務相關的結果上證明網頁級別相當優異。Google 成為了最普遍和最成功的搜尋引擎。由於網頁級別納入站點外因子,Google認為它們會比頁內因子難以動手腳。

然而網站員們已經開發出對付Inktomi搜尋引擎的連結操作工具和計劃。這些方法證明對Google 演算法一樣管用。許多站集中於交換、買賣大量連結。隨著網站員尋求獲取連結只單單要影響Google送更多流量給該站,而不管對站點訪客是否有用,這種行為的增加,讓網頁級別對原始演算法的信賴度漸漸被破壞了。

此時,是Google 和其它查尋引擎對廣大範圍的站外因子仔細檢視的時候。開發更加聰明的演算法有其他原因。網際網路已經擴大到擁有並無相關技術的廣大用戶。他們經常無法使用先進的提問技巧來取得資訊;而且他們得面對網際網路比起發展早期更龐大資料、更複雜的索引。搜尋引擎必須開發具備預測性語義性語言性啟發性演算法。

目前,網頁級別的縮小版仍然被顯示在Google 工具條上,不過網頁級別只不過是Google考慮在網頁分級時超過100個因素裡中的一個。

今天,大多數搜尋引擎對它們的如何評等的演算法保密。搜尋引擎也許使用上百因素在排列目錄;每個因素本身和因素所佔比重可能不斷地在改變。

大部分當代搜尋引擎最佳化的思路──哪些有效、哪些沒效──這些很大部分在於觀察與根據內線訊息來的猜測。某些最佳化員得在執行控制下的實驗中取得不同最佳化方法的結果。

儘管如此,以下是搜尋引擎發展它們演算法時的一些參考,一份Google的專利清單[4]也許可以讓讀者猜出他們會走哪條路線:

  • 站點的年齡
  • 自該網域註冊後過多久
  • 內容的年齡
  • 新內容增加的規律性
  • 連結的年齡,連接站點的名譽和其相關程度
  • 一般站內因素
  • 負面站內因素 (例如,太多關鍵字匯標(meta tag),很顯然被最佳化過,會對站點造成傷害)
  • 內容的獨特性
  • 使用於內容的相關術語 (搜尋引擎關聯到的術語的方式視同如何關聯到網頁的主要內容)
  • Google網頁級別 (只被使用在Google 的演算法)
  • 外在連結、外部連結的連結文字、在那些和在站點/網頁包含的那些連結
  • 引證和研究來源(表明內容是研究性質)
  • 在搜尋引擎資料庫裡列舉的詞根與其相關的術語(如 finance/financing)
  • 匯入的逆向連結,以及該連結的文字
  • 一些匯入連結的負面計分 (或許那些來自低價值頁、被交換的逆向連結等)
  • 逆向連結取得速率:太多太快意味著「不自然」的連結購買活動
  • 圍繞在導出連結、匯入的逆向連結周圍的文字。例如一個連結如果被 "Sponsored Links" (贊助商連結)包圍,該連結可能會被忽略。
  • 用 "rel=nofollow" 建議搜尋引擎忽略該連結
  • 在站點該檔案的結構深度
  • 從其他資源收集的網格表,譬如監視當搜尋結果導參照戶到某頁後,用戶有多頻繁按瀏覽器的返回
  • 從來源像:Google AdWords/AdSenseGoogle 工具條等程式收集的網格表
  • 從第三方資料分享協定收集的網格資料 (譬如監測站點流量的統計程式提供商)
  • 刪除匯入連結的速率
  • 使用子網域、在子網使用關鍵字和內容品質等等,以及從這些活動來的負面計分
  • 和主檔案語意上的連結
  • 檔案增加或改動的速率
  • 主機服務商 IP 和該 IP 旗下其它站點的數量/品質
  • 其他連結站會員 (link farm / link affiliation) 與被連結的站 (他們分享IP嗎? 有一個共同的郵遞位址在"聯絡我們 (Contact Us)" 頁嗎?)
  • 技術細節像利用301重新導向被移除的網頁、對不存在網頁顯示404伺服器標頭而非200伺服器標頭、適當的利用 robots.txt
  • 主機服務商正常運行時間
  • 是否站點對不同類的用戶顯示不同的內容(稱為「掩飾」(cloaking))
  • 未及時矯正、無效的導出的連結
  • 不安全或非法內容
  • HTML代碼品質,以及錯誤出現數
  • 由搜尋引擎自他們搜尋結果觀察到的實際點擊通過率評等
  • 由最常存取搜尋結果的人手動評等