Semalt: Jak používat rozšíření Web Scrapper Chrome

Prostřednictvím sítě je k dispozici obrovské množství dat. Pokus o zkopírování dat do použitelné databáze přímo z webu může být náročný na práci. Použití metody seškrabávání z webu k extrahování dat z webových stránek proto může ušetřit váš čas, energii a peníze.

Webové škrabání, známé také jako Web Data Extraction nebo Web Harvesting, je proces používání robotů k extrahování dat z webů. Webové škrabky procházejí webem, hodnotí jeho obsah a poté jej stáhnou a umístí do tabulky nebo databáze.

Na trhu je k dispozici celá řada nástrojů pro stírání webových stránek , ale pro netechnicky důvtipné lidi jsou poměrně drahé. Rozšíření Chrome Web Scraper je však zdarma a snadno použitelné. S tímto rozšířením můžete dokonce zastavit proces uprostřed jeho práce.

Software Web Scraper Chrome Extension si můžete stáhnout z Internetového obchodu Google Chrome. Jedinou nevýhodou je to, že musíte škrábat stránky ručně a není to snadný proces. Také nemůžete provádět stírání v pravidelných intervalech programově.

Instalace rozšíření Web Scraper Chrome

  • Spusťte prohlížeč Google Chrome;
  • Navštivte Internetový obchod Chrome a vyhledejte rozšíření Web Scraper Extension;
  • Přidejte nástroj do Chromu;
  • Nyní jste připraveni začít seškrabávání webů pomocí prohlížeče Chrome.

Po instalaci škrabky otevřete stisknutím vývojového nástroje F12 vývojářské nástroje Google Chrome. Případně můžete kliknout pravým tlačítkem na obrazovku a vybrat "Prohlédnout prvek". Po otevření nástrojů pro vývojáře se zobrazí karta s názvem „Web Scraper“.

Nyní se naučíme, jak to používat na živé webové stránce. Představme si, že chceme zrušit web Awesomegifs a extrahovat z něj nějaký obsah a data. Otevřete web. Co je první věc, kterou vidíš? Obrázky jsou načteny líně, že?

Po otevření webové stránky je třeba extrahovat adresy URL obrázků gif. To znamená, že musíte vybrat selektor CSS odpovídající obrázkům. Web má přibližně 130 stránek s obrázky; a pro přepínání mezi stránkami je třeba změnit číslo stránky, která je aktuálně 125. Nejjednodušší způsob, jak to udělat, je vytvořit nový soubor Sitemap a přidat pole Počáteční URL. Tímto způsobem bude webová škrabka vyzvána k nepřetržitému otevírání adresy URL, čímž se zvyšuje konečná hodnota v procesu. Otevře první stránku, druhou stránku, třetí stránku…, dokud nedosáhne stránky 125.

Chcete-li zahájit proces stírání, otevřete kartu sitemap a klikněte na „Scrape“. Nástroj začne škrábat požadovaná data. V případě, že chcete zastavit proces stírání uprostřed, stačí zavřít okno a přejít na kartu sitemap a exportovat extrahovaná data do souboru CSV.