Semalt Review: Spletni razrez za zabavo in dobiček

Očistite lahko spletno mesto brez uporabe API-ja. Čeprav so lastniki spletnih mest agresivni glede prenehanja strjevanja, jim manj skrbi API-ji in namesto tega dajejo večji poudarek spletnim mestom. Dejstva, da številna spletna mesta ne varujejo samodejno, ustvarjajo prostor za strgala. Nekaj preprostih rešitev vam bo pomagalo pridobiti podatke, ki jih potrebujete.

Uvod v striženje

Strganje zahteva razumevanje strukture potrebnih podatkov in njihove dostopnosti. Začne se s pridobivanjem podatkov. Poiščite URL, ki vrne informacije, ki jih potrebujete. Brskajte po spletnem mestu in preverite, kako se spreminjajo URL-ji med navigacijo po različnih odsekih.

Lahko pa poiščete več izrazov na spletnem mestu in preverite, kako se URL-ji spreminjajo glede na vaš iskalni izraz. Pri iskanju novega izraza bi morali videti parameter GET, kot je q =, ki se spremeni. Ohranite parametre GET, potrebne za nalaganje podatkov, in odstranite ostale.

Kako ravnati s paginacijo

Ta stran vam preprečuje dostop do vseh potrebnih podatkov naenkrat. Ko kliknete stran 2, se URL-ju doda parameter offset =. To je bodisi število elementov na strani bodisi številka strani. Povečajte to številko na vsaki strani podatkov.

Za spletna mesta, ki uporabljajo AJAX, povlecite jeziček omrežja v Firebugu ali Inspectorju. Preverite zahteve XHR, prepoznajte in se osredotočite na tiste, ki vlečejo vaše podatke.

Pridobite podatke z označevanja strani

To dosežemo s pomočjo kljuk CSS. Z desno miškino tipko kliknite določen del podatkov. Potegnite Firebug ali Inspector in približajte drevesu DOM, da dobite skrajni <div>, ki ovije en element. Ko dobite pravilno vozlišče z drevesa DOM, si oglejte vir strani, da zagotovite, da so vaši elementi dostopni v surovem HTML-ju.

Za uspešno strganje spletnega mesta potrebujete knjižnico za razčlenitev HTML, ki bere v HTML-ju in jo pretvori v predmet, ki ga lahko ponavljate, dokler ne dobite tistega, kar potrebujete. Če vaša knjižnica HTTP zahteva, da nastavite piškotke ali glave, brskajte po spletnem mestu v svojem brskalniku in pošljite glave, ki jih pošlje vaš brskalnik. Dajte jih v slovar in jih pošljite z vašo zahtevo.

Ko potrebujete prijavo v Scrape

Če morate ustvariti račun in se prijaviti, če želite pridobiti želene podatke, morate imeti dobro knjižnico HTTP za obdelavo prijav. S prijavo v strgalo vas izpostavite spletnim mestom drugih proizvajalcev.

Če je omejitev hitrosti vaše spletne storitve odvisna od naslova IP, nastavite kodo, ki bo spletna storitev zadela Javascript na strani stranke. Nato rezultate pošljete nazaj na strežnik od vsakega odjemalca. Zdi se, da rezultati izvirajo iz toliko krajev in noben ne bo presegel omejitve hitrosti.

Slabo oblikovana oznaka

Nekatere pribitke je težko preveriti. V takih primerih se za nastavitve tolerance napak vkopajte v HTML razčlenjevalnik. Lahko pa celoten dokument HTML obravnavate kot dolg niz in razdelite niz.

Medtem ko lahko na spletnem mestu strgate vse vrste podatkov na spletu, nekateri strani uporabljajo programsko opremo za zaustavitev strganja, druga pa prepovedujejo spletno ostanke . Taka spletna mesta vas lahko tožijo in vas celo zaprejo zaradi zbiranja njihovih podatkov. Zato bodite pametni pri svojem spletnem zapisovanju in to storite varno.