Semalt: een webpagina schrapen met de Google Chrome-extensie

Een schermschraper is een script dat sites leest en nuttige informatie van internet haalt. Schermschrapen is de ultieme oplossing om echte gegevens van websites en webpagina's naar Microsoft Excel te krijgen. Google Chrome Extension Scraper is een krachtige tool voor het schrapen van schermen die werkt op zowel Windows als Mac OS.

Waarom Google Chrome Extension Scraper?

Google Chrome extension scraper is een krachtige tool voor schermschrapen die gratis beschikbaar is in de Chrome Web Store. Deze scraping-tool is als plug-in in de Chrome-browser geïnstalleerd. Met de plug-in kunnen bloggers en marketeers gegevens van webpagina's ophalen door met de rechtermuisknop op een element te klikken. '' Scrape Similar '' zou op uw scherm moeten verschijnen als u met de rechtermuisknop op een element klikt.

Inleiding tot XPaths

XPath is een programmeertaal die wordt gebruikt om cruciale informatie in XML-structuren te vinden. Het HTML-bestand is een uitstekend voorbeeld van een XML-structuur. XPath wordt vaak gebruikt om gerichte knooppunten te selecteren. In deze context wordt XPaths gebruikt om te bepalen welke tekst op een webpagina moet worden geëxtraheerd. XPaths zal ook helpen bij het identificeren van partijnamen en telefoonnummers van de Zweedse parlementsleden.

De schraper van Google Chrome gebruiken om toegang te krijgen tot adresgegevens van 349 Zweedse parlementsleden

Met de Scraper van Chrome is het extraheren van informatie van een webpagina niet alleen eenvoudig, maar ook fantastisch. Je zult genieten van het proces en de techniek zelf.

Op de website staan alle Zweedse leden en hun adressen. Klik om te beginnen met de rechtermuisknop op een willekeurige MP en selecteer "Vergelijkbare schrapen". U zou de volgende weergave op uw scherm moeten zien.

Stapsgewijze handleiding voor het screenen van een webpagina

Als u met de rechtermuisknop op één MP klikt en "Inspect element" selecteert, wordt er een alfabetische lijst gemaakt onder de klasse "" grid_6 alpha omega zoekresultaat container clist ". Er worden twee stappen gebruikt om deze webpagina te schrapen. Stap één omvat het selecteren tags die bestaan uit MP's-gegevens met een XPath. Stap twee omvat het kiezen van specifieke delen van gegevens zoals partijnamen, namen en telefoonnummer en de gegevens in kolommen organiseren.

Stap 1

Graaf dieper in de HTML-structuur en houd de elementen intact. Wijs de tags aan om het aantal tags te identificeren dat overeenkomt met elementen in uw structuur. Identificeer de laatste tag die de beoogde gegevens bevat. Voer een XPath-test uit op de structuur door op "Schrapen" te klikken.

Er verschijnt een lijst met 349 rijen op uw scherm. 349 vertegenwoordigen het totale aantal Zweedse parlementsleden.

Stap 2

Verdeel de gepresenteerde gegevens in kolommen. Inspecteer de HTML-code op de webpagina die u hebt gebruikt. In dit geval zijn de te extraheren stukken op dit moment geel gemarkeerd. Voeg de XPaths in het gemaakte kolommenveld in en klik op "Scrape" om de plug-in uit te voeren.

Als je basiskennis van XPaths hebt, zal het begrijpen van programmeren geen hectische taak voor je zijn. De hierboven gemarkeerde stappen helpen u bij het screenen van een webpagina. Als u werkt aan het scrapen van meerdere webpagina's, moet u over programmeervaardigheden beschikken.

mass gmail