Prosessen med dataskraping, også kjent som nettskraping, innebærer automatisk import av data fra en webside til en fil. Det finnes en rekke skrapverktøy tilgjengelig. Bedrifter og andre enheter bruk nettskraping i dag for å få informasjon om konkurrenter, markedsføring, rekruttering og ulike typer analyser. Men er nettskraping lovlig?
Svaret er at det kommer an på. Selv om handlingen i seg selv ikke er ulovlig, hva du gjør med dataene etter at den har skjedd skrapt kan være.
Skraping av personopplysninger
GDPR og andre lover om personopplysninger i forskjellige land er ganske strenge når det gjelder å samle inn og lagre personopplysninger. Så hvis du skraper personlig informasjon, spesielt av EU-innbyggere, må du ha en lovlig grunn til å gjøre det. Det kan være:
- Eksplisitt samtykke - usannsynlig med mindre nettstedets bruksvilkår lar brukerne vite at dataene deres kan bli skrotet når de registrerer seg. Spesielt eksplisitt samtykke er nødvendig for å skrape sensitive data.
- Legitim interesse - Det ville være vanskelig for skrapere å vise at de har en legitim interesse i å skrape og lagre personopplysninger, med mindre de for eksempel er en rettshåndhevelse eller et myndighetsorgan.
GDPR krever bare å behandle så mye data som nødvendig for å utføre en oppgave. Gitt at automatisert nettskraping vanligvis behandler svært store datamengder for forskjellige formål, kan det anses å være i strid med denne GDPR-bestemmelsen.
Ettersom data fra millioner av Facebook- og LinkedIn-brukere angivelig blir gjort tilgjengelige online, @jon_belcher ser på #dataskraping og ansvar for medieplattformer. https://t.co/FUqXMB1k7X Publisert @BizMattersmag pic.twitter.com/I5awC1MTKG
- Excello Law (@ExcelloLaw) April 22, 2021
Derfor, hvis dataskrapere trenger å behandle personopplysninger om EU-borgere, selv om de er offentlig tilgjengelige, må de enten innhente sitt eksplisitte samtykke eller bevise en legitim interesse og sikte på å minimere mengden data som samles inn. Det betyr bare å samle inn det som er nødvendig for et bestemt formål / klient og ikke bare laste ned hele brukerlisten til en LinkedIn-gruppe, inkludert for eksempel hver brukerprofil.
En nylig russisk personopplysningslov går et skritt videre. Fra 1. mars i år er det en ny type personopplysninger kalt “personopplysninger tillatt for formidling”. Det betyr for eksempel pressemeldinger fra selskaper som inkluderer andre personopplysninger enn spesifikke personers navn og etternavn (bilder, stillinger) eller CV-er på headhunting-nettsteder. I det vesentlige inkluderer den alle personlige data som den registrerte har gitt samtykke til distribusjonen. Slikt samtykke er obligatorisk, og den registrerte har rett til å inkludere eventuelle begrensninger de ønsker i dette samtykke. Dette samtykke må deles av nettstedet.
Hvis en dataskrape ønsker å skrape slike data fra nettet, må de overholde begrensningene i dette samtykke. Og hvis en registrert har delt sine data offentlig alene og ikke har gitt samtykke, har hver enhet som bruker disse dataene “bevisbyrde for at de behandler dataene lovlig“. Derfor begrenser denne loven, i likhet med GDPR, alvorlig hvor mye utrangering av offentlig tilgjengelige personopplysninger som nettskrapere kan gjøre innenfor jurisdiksjonen.
Datasvindel, opphavsrettsbeskyttet data og samsvar
I 2019, den amerikanske lagmannsretten holdt i sin avgjørelse til fordel for et dataanalyseselskap hiQ mot LinkedIn om at data som er offentlig tilgjengelige og ikke er opphavsrettsbeskyttet, kan skrapes. Dette gjelder imidlertid kun offentlig tilgjengelig informasjon.
hiQ Labs, Inc. V. Linkedin Corp .: En føderal domstol avveier nettskraping, ytringsfri ... https://t.co/hIOWj2b2hE By @ropesgray
- Mondaq (@Mondaq) September 18, 2019
Siden dataskrapere ikke kan skrape data som ikke er offentlig tilgjengelig, kunne ikke LinkedIn bruke den aktuelle loven - Computer Fraud and Abuse Act - for å få hiQ til å stoppe skraping. Bare loven beskytter privat informasjon. Hvis imidlertid et dataskrapingselskap skaffer seg opphavsrettsbeskyttede filer som videoer og deretter legger dem ut for kommersielle formål, er det ulovlig i henhold til lov om opphavsrett.
Noen nettsteds vilkår for bruk forbyder uttrykkelig dataskraping eller gjennomsøking av noe slag. Disse vilkårene kan også være spesifisert i en fil i et nettsteds rotkatalog med tittelen robots.txt. For å gi deg et eksempel, sjekket jeg robots.txt av Twitter for skrapetillatelser. Her er et skjermbilde av den relevante delen av vilkårene:

Som du ser, har skraprobotene lov til å skrape hashtags, men ikke informasjon om brukere og deres følgers informasjon.
Hvordan praktiserer bedrifter etterlevelse?
Bedrifter som tilbyr dataskrapingstjenester må overholde lover og regler for å beskytte rettighetene til kundene sine. De bør rådføre seg med juridisk rådgiver om hvilke data som er tillatt å skrape og hvilken type lisens som kreves for det. I tillegg bør de kreve at kundene signerer en juridisk bindende avtale som beskriver deres forpliktelser og ansvar angående bruken av dataskrapingstjenesten. Videre bør bedrifter sørge for at teamene deres er riktig opplært i beste praksis for databeskyttelse og personvern når de bruker tjenesten.
Og hva med proxy-tjenesteleverandører? Som ledende innen IPPN (IP proxy networks) markedet, Lyse data har satt høye standarder for samsvar i proxy-industrien. Alle nye Bright Data Residential-/mobilkunder blir grundig undersøkt og må godkjennes av en compliance officer for å sikre at brukertilfellet deres oppfyller våre strenge standarder. Bright Datas grundige introduksjonsprosess krever at klienter deler sin nasjonale ID og signerer vår samsvarserklæring blant forskjellige andre identitetsbekreftelsesteknikker.
Så, lovligheten av skrapedata avhenger av typen og mengden data som skrapes. Uansett hva som er tilfelle, er det imidlertid alltid best å være så gjennomsiktig som mulig om skrapepraksis og innhente profesjonell råd hvis du er usikker. Du kan også kreve en konsekvensanalyse av databeskyttelse i henhold til GDPR, da noen myndigheter mener dataskraping er “usynlig behandling med høy risiko".
Fotokreditt: The featured bilde har blitt tatt av Maxim Hopman. Skjermbildet er tatt av forfatteren for TechAcute.
kilder: Zyte / Alexander Demchenko (DataOx) / Srishti Saha (datahut) / GDPR-info / Stanislav Rumyantsev (IAPP) / Fiona Campbell (Feltfisker)
