Het schrapen van inhoud (aka web scraping, web harvesting, web data mining etc.) is de procedure voor het kopiëren van gegevens van een website. De "schrapers" (ruitenwissers) inhoud zijn de mensen of software die de gegevens kopiëren. Webschrapen is geen slechte zaak.

In feite zijn alle webbrowsers in feite inhoudschrapers. Er zijn veel legitieme doeleinden voor het schrapen van inhoud, zoals bijvoorbeeld webindexering voor zoekmachines.

Zie ons artikel op Hoe u kunt voorkomen dat Google uw WordPress-blog indexeert

De echte zorg is of de schrapers van inhoud op uw website schadelijk zijn of niet. Concurrenten willen misschien uw inhoud stelen en publiceer het als van hen. Als je legitieme gebruikers van slechteriken kunt onderscheiden, heb je een betere kans om jezelf te beschermen. Dit artikel legt de basis van webschrapen uit, evenals enkele methoden om er vanaf te komen (of op zijn minst hun belang verminderen).

Maar eerder, als je WordPress nog nooit hebt geïnstalleerd, ontdek je Hoe installeer ik een WordPress blog in 7 stappen et Hoe te vinden, installeren en activeren van een WordPress theme op uw blog 

Ga dan terug naar waarom we hier zijn.

Soorten inhoudscrapers

Er zijn veel verschillende manieren waarop inhoudsschrapers gegevens kunnen downloaden. Het is belangrijk om de verschillende methoden en de technologie die ze gebruiken te kennen. De methoden variëren van lage technologie (een persoon kopieert en past inhoud in handmatig) naar geavanceerde robots (geautomatiseerde software die menselijke activiteit in een browser kan simuleren). Hier is een samenvatting van wat u mogelijk moet doen:

  • Spinnen: Webcrawling is een groot deel van de manier waarop inhoudsschrapers werken. Een spin zoals Googlebot begint met het ophalen van één webpagina en gaat van link naar link om webpagina's te downloaden.
  • Shell Scripts: U kunt Linux Shell gebruiken om inhoudschrapers te maken met scripts zoals GNU Wget om inhoud te downloaden.
  • HTML-schraper: ze lijken op shell-scripts. Dit type schraper is heel gebruikelijk. Het werkt door de HTML-structuur van een website op te halen om gegevens te vinden.
  • Schermen: Een schermwisser is een programma dat gegevens van een website vastlegt door het gedrag van een menselijke gebruiker na te bootsen die een computer gebruikt om op internet te surfen.
  • Human Copy: Dit is waar een persoon handmatig inhoud van uw website kopieert. Als je ooit online hebt gepost, is het je misschien opgevallen dat plagiaat wijdverbreid is. Nadat de aanvankelijke vleierij is uitgewerkt, past de realiteit dat iemand van uw baan profiteert.

Er zijn verschillende manieren om hetzelfde te doen. De hierboven genoemde categorieën schrapers is geen uitputtende lijst. Daarnaast is er veel overlap tussen de categorieën.

Lees ook ons ​​artikel op Hoe en waarom een ​​kwalitatieve controle van uw content

Hoe uw blog te beschermen

Bescherm een ​​blog tegen inhoudschrapers

1. Tariefbeperking en blokkering

Je kunt veel bots afweren door eerst het probleem te detecteren. Het is typisch voor een geautomatiseerde robot spam uw server met een uitzonderlijk hoog aantal verzoeken. Rate throttling, zoals de naam suggereert, beperkt serververzoeken van een individuele client door een regel in te stellen.

U kunt bijvoorbeeld de milliseconden tussen verzoeken meten. Als de interactie met uw website te snel is, weet u dat het een bot is. Daarna blokkeer dit IP-adres. U kunt IP-adressen blokkeren op basis van een aantal criteria, waaronder hun land van herkomst.

2. Registratie en verbinding

Registratie en inloggen zijn een populaire manier om inhoud uit de buurt van nieuwsgierige blikken te houden. Je kunt de voortgang van de robots belemmeren. Het enige dat u hoeft te doen, is de toegang tot uw inhoud afhankelijk maken van een verbinding. De basisprincipes van inlogbeveiliging zijn hier van toepassing. Houd er rekening mee dat pagina's waarvoor registratie en aanmelding vereist zijn, niet worden geïndexeerd door zoekmachines.

3. Honeypots en valse gegevens

In de informatica zijn "honeypots" virtuele steekoperaties. U rondt potentiële aanvallers af door vallen met een honeypot in te stellen om verkeer van inhoudschrapers te detecteren. Er zijn oneindig veel manieren om dit te doen.

U kunt bijvoorbeeld een onzichtbare link op uw webpagina plaatsen. Maak vervolgens een algoritme dat het IP-adres blokkeert van de klant die op de link heeft geklikt. Meer geavanceerde honeypots kunnen moeilijk zijn op te zetten en te onderhouden. Het goede nieuws is dat er veel open source Honeypot-projecten zijn. Bekijk dit geweldig lijst met geweldige honeypots op github.

4. Gebruik een CAPTCHA

Captcha betekent " Volledig geautomatiseerd Public Turing test om computers en mensen uit elkaar eigenlijk een test om het verschil tussen mensen en robots te zien. Captcha's kunnen saai zijn, maar ze zijn ook nuttig. U kunt a gebruiken om gebieden te blokkeren waarvan u denkt dat een bot deze wil targeten, zoals een e-mailknop op uw Contact formulier. Er zijn veel goede Captcha-plug-ins beschikbaar op WordPress, waaronder de " Captcha Van Jetpack.

Ontdek ook enkele premium WordPress-plug-ins  

U kunt andere gebruiken WordPress plugins om een ​​moderne uitstraling te geven en de afhandeling van uw blog of website te optimaliseren.

We bieden je hier enkele premium WordPress-plug-ins die je daarbij kunnen helpen.

1. Stripe voor Arforms

ARForms heeft een nieuwe extensie die betalingen accepteert via de Stripe-betalingsgateway. Het heet "ARForms Stripe". De laatste integreert formulierinvoer en betalingen in één proces.

Streep voor vormen

je kunt klanten factureren met een dynamisch bedrag direct na het indienen van ARForms-formulieren.

Lees ook ons ​​artikel op Hoe te Stripe te gebruiken op WooCommerce en eenvoudig digitale download

U hoeft alleen een formulier met ARForms te maken, het met Stripe te configureren en alles is klaar! U kunt de betaling met Stripe in een mum van tijd instellen.

Downloaden | demonstratie | web hosting

2. AX Sociale stroom

Indien u wenst meerdere sociale media-feeds op uw website weergeven, dan de plug-in WordPress sociaal bord stelt u in staat dit te doen door u zes manieren te bieden om uw accountactiviteit te bekijken. U profiteert ook van ondersteuning voor 17 sociale netwerken en verschillende aanpasbare lay-outs.

Axe sociale stream wordpress plug-in

De functies zijn onder andere: 6 verschillende feedweergavemodi, ondersteuning voor een grote meerderheid van sociale netwerken, volledig responsieve lay-out, ondersteuning voor reclamebanners, Meertalige ondersteuning, een themamanager, gedetailleerde documentatie, enz ...

Downloaden | demonstratie | web hosting

3. Interactieve wereldkaarten

Interactieve wereldkaarten helpen u zoveel geolocatiekaarten te maken als u wilt, continenten, landen of regio's… en dit met interactieve en gekleurde markeringen.

Kaarten Interactive World

Het is compatibel met de nieuwste versies van WordPress en past perfect bij de Visual Composer-plug-in.

Ontdek onze 8 WordPress plug-ins om het uiterlijk van uw website aan te passen

Dankzij Interactive World Maps kunt u verschillende soorten regio's weergeven, zoals: een kaart van de hele wereld, een continent of een subcontinent, een land en nog veel meer.

Downloaden demonstratie | web hosting

Andere aanbevolen bronnen

We nodigen u ook uit om de onderstaande bronnen te raadplegen om verder te gaan in de greep en controle van uw website en blog.

Conclusie

Hier! Dat is alles voor deze tutorial, ik hoop dat het je zal helpen een praktische takenlijst op te stellen om je effectief te beschermen WordPress blogAarzel niet om deel de tip met je vrienden op je sociale netwerken.

U kunt echter ook onze ressources, als u meer elementen nodig hebt om uw projecten voor het maken van internetsites uit te voeren, raadpleeg onze gids op de WordPress blog creatie.

Maar vertel ons in de tussentijd over uw commentaires en suggesties in de speciale sectie.

...