蜘蛛抓取和網絡爬蟲的定義

蜘蛛和網絡爬蟲:你需要知道什麼來保護網站數據

蜘蛛程序(或自動化腳本)可以通過網絡“抓取”數據。 蜘蛛通過網站URL訪問,並可以從網頁中獲取數據,例如電子郵件地址。 蜘蛛也被用來將網站上的信息提供給搜索引擎。

蜘蛛,也被稱為“網絡爬蟲”,搜索網絡,並不是所有的人都很友善。

垃圾郵件發送者蜘蛛網站收集信息

Google,Yahoo!

而其他搜索引擎並不是唯一對抓取網站感興趣的搜索引擎 - 詐騙者和垃圾郵件發送者也是如此。

垃圾郵件發送者使用蜘蛛和其他自動化工具在網站上查找電子郵件地址(在互聯網上這種做法通常稱為“收穫”),然後使用它們創建垃圾郵件列表。

蜘蛛也是搜索引擎使用的一種工具,用於查找有關您網站的更多信息,但未經檢查,沒有關於如何抓取您的網站的說明(或“權限”)的網站可能會帶來重大的信息安全風險。 蜘蛛通過以下鏈接旅行,他們非常善於找到數據庫,程序文件和其他信息的鏈接,您可能不希望它們訪問這些鏈接。

網站管理員可以查看日誌以查看哪些蜘蛛和其他機器人訪問了他們的網站。 這些信息可以幫助網站站長知道誰在索引他們的網站以及頻率。

這些信息非常有用,因為它允許網站管理員微調他們的SEO並更新robot.txt文件,以禁止某些機器人將來抓取他們的網站。

關於保護您的網站免受不必要的機器人爬蟲的提示

有一個相當簡單的方法可以讓不需要的抓取工具離開您的網站。 即使您不關心惡意蜘蛛抓取您的網站(模糊電子郵件地址無法保護您免受大多數抓取工具的攻擊),您仍然需要為搜索引擎提供重要說明。

所有網站應該有一個位於名為robots.txt文件的根目錄中的文件。 這個文件允許您指示網頁抓取工具,如果它們是搜索引擎,您希望它們在索引頁面中查找(除非在特定頁面的元數據中另行聲明為無索引)。

就像您可以告訴您想要瀏覽的想要的抓取工具一樣,您也可以告訴它們可能不去的地方,甚至阻止整個網站上的特定抓取工具。

重要的是要記住,一個好的拼湊robots.txt文件將為搜索引擎帶來巨大的價值,甚至可能是提高網站性能的關鍵因素,但一些機器人爬蟲仍然會忽略你的指示。 出於這個原因,保持所有軟件,插件和應用程序始終處於最新狀態非常重要。

相關文章和信息

由於用於惡意(垃圾郵件)目的的信息收集普遍存在,2003年通過立法使某些做法非法。 這些消費者保護法屬於2003年的CAN-SPAM法。

如果您的業務涉及任何群發郵件或信息收集,請務必詳細閱讀CAN-SPAM法案。

通過閱讀以下文章,您可以了解更多有關反垃圾郵件法律以及如何處理垃圾郵件發送者以及您作為企業所有者可能無法做到的事情: