Semalts ierosina 5 soļus Web lapu nokasīšanai

Terapija ir atvērts avots un ietvars informācijas iegūšanai no dažādām tīmekļa vietnēm. Tas izmanto API un ir uzrakstīts Python. Terapiju pašlaik uztur tīmekļa kasīšanas uzņēmums ar nosaukumu Scrapinghub Ltd.

Tā ir vienkārša apmācība par to, kā rakstīt tīmekļa rāpuļprogrammu, izmantojot Scrapy, parsēt Craigslist un uzglabāt informāciju CSV formātā. Šīs apmācības pieci galvenie soļi ir minēti zemāk:

1. Izveidojiet jaunu Scrapy projektu

2. Uzrakstiet zirnekli, lai pārmeklētu vietni un iegūtu datus

3. Eksportējiet nokasītos datus, izmantojot komandrindu

4. Mainiet zirnekli, lai sekotu saitēm

5. Izmantojiet zirnekļa argumentus

1. Izveidojiet projektu

Pirmais solis ir projekta izveidošana. Jums vajadzētu lejupielādēt un instalēt Scrapy. Meklēšanas joslā jums jāievada direktorija nosaukums, kurā vēlaties saglabāt datus. Informācijas iegūšanā izmanto dažādus zirnekļus, un šie zirnekļi sākotnēji pieprasa direktoriju izveidi. Lai zirneklis darbotos, jums jāapmeklē direktoriju saraksts un tajā jāievieto noteikts kods. Sekojiet līdzi failiem pašreizējā direktorijā un pamaniet divus jaunus failus: quotes-a.html un quotes-b.html.

2. Uzrakstiet zirnekli, lai pārmeklētu vietni un iegūtu datus:

Labākais veids, kā rakstīt zirnekli un iegūt datus, ir dažādu selektoru izveidošana Scrapy apvalkā. Jums vienmēr vajadzētu pievienot URL pēdiņās; pretējā gadījumā terapija nekavējoties mainīs šo vietrāžu URL raksturu vai nosaukumus. Lai pareizi uzrakstītu zirnekli, jums vajadzētu izmantot divkāršās pēdiņas ap URL. Jums jāizmanto.extract_first () un jāizvairās no indeksa kļūdas.

3. Eksportējiet nokasītos datus, izmantojot komandrindu:

Ir svarīgi eksportēt nokasītos datus, izmantojot komandrindu. Ja neeksportēsit, precīzus rezultātus nesaņemsit. Zirneklis ģenerēs dažādus direktorijus, kas satur noderīgu informāciju. Lai labāk eksportētu šo informāciju, jums vajadzētu izmantot Python atslēgvārdus. Datu importēšana JSON failos ir iespējama. JSON faili ir noderīgi programmētājiem. Rīki, piemēram, JQ, palīdz eksportēt nokasītos datus bez jebkādām problēmām.

4. Mainiet zirnekli, lai sekotu saitēm:

Mazos projektos varat mainīt zirnekļus, lai atbilstoši sekotu saitēm. Bet tas nav nepieciešams lieliem datu nokasīšanas projektiem. Mainot zirnekli, tiks izveidots vietņu fails vienumam Pipelines. Šo failu var atrast sadaļā apmācība / pipelines.py. Izmantojot terapiju, jūs jebkurā laikā varat izveidot sarežģītus zirnekļus un mainīt to atrašanās vietu. Jūs varat iegūt vairākas vietnes vienlaikus un veikt dažādus datu ieguves projektus.

5. Izmantojiet zirnekļa argumentus:

Parse_author atzvanīšana ir zirnekļa arguments, kuru var izmantot, lai iegūtu datus no dinamiskām vietnēm. Jūs varat arī sniegt komandrindas argumentus zirnekļiem ar noteiktu kodu. Zirnekļa argumenti īsā laikā kļūst par zirnekļa atribūtiem un maina jūsu datu kopējo izskatu.

Šajā apmācībā mēs apskatījām tikai terapijas pamatus. Šim rīkam ir daudz iespēju un iespēju. Lai uzzinātu vairāk par tā specifikācijām, jums vienkārši jālejupielādē un jāaktivizē terapija.