Semalt împărtășește un mod ușor de extragere a informațiilor din site-uri

Scraping Web este o metodă populară de obținere de conținut de pe site-uri web. Un algoritm special programat vine pe pagina principală a site-ului și începe să urmeze toate legăturile interne, asamblând interioarele de pe care le-ați specificat. Drept urmare - fișier CSV gata care conține toate informațiile necesare, într-o ordine strictă. CSV-ul rezultat poate fi folosit pentru viitor creând conținut aproape unic. Și, în general, ca un tabel, aceste date sunt de mare valoare. Imaginează-ți că întreaga listă de produse a unui magazin de construcții este prezentată într-un tabel. Mai mult, pentru fiecare produs, pentru fiecare tip și marcă de produs, toate câmpurile și caracteristicile sunt completate. Orice redactor care lucrează pentru un magazin online ar fi bucuros să dețină un astfel de fișier CSV.

Există o mulțime de instrumente pentru extragerea datelor de pe site-uri web sau razuire web și nu vă faceți griji dacă nu sunteți familiarizați cu niciun limbaj de programare, în acest articol vă voi arăta una dintre cele mai ușoare modalități - folosind Scrapinghub.

În primul rând, accesați scrapinghub.com, înregistrați-vă și conectați-vă.

Următorul pas cu privire la organizația dvs. poate fi doar sărit.

Apoi ajungi la profilul tău. Trebuie să creați un proiect.

Aici trebuie să alegeți un algoritm (vom folosi algoritmul „Portia”) și vom da un nume proiectului. Să o numim cumva neobișnuită. De exemplu, „111”.

Acum intrăm în spațiul de lucru al algoritmului de unde trebuie să tastați adresa URL a site-ului web din care doriți să extrageți datele. Apoi faceți clic pe „Spider nou”.

Vom merge la pagina care va servi ca exemplu. Adresa este actualizată în antet. Faceți clic pe „Adnotați această pagină”.

Mutați cursorul mouse-ului spre dreapta, care va face să apară meniul. Aici ne interesează fila „Element extras”, unde trebuie să faceți clic pe „Editați elemente”.

Cu toate acestea, lista goală a câmpurilor noastre este afișată. Faceți clic pe „+ câmp”.

Totul este simplu aici: trebuie să creați o listă de câmpuri. Pentru fiecare articol, trebuie să introduceți un nume (în acest caz, un titlu și conținut), să specificați dacă acest câmp este obligatoriu („Obligatoriu”) și dacă poate varia („Vary”). Dacă specificați că un element este „necesar”, algoritmul va omite pur și simplu paginile unde nu va putea să completeze acest câmp. Dacă nu este semnalizat, procesul poate dura pentru totdeauna.

Acum pur și simplu faceți clic pe câmpul de care avem nevoie și indicați care este:

Terminat? Apoi, în antetul site-ului, faceți clic pe „Salvați eșantionul”. După aceea, puteți reveni la spațiul de lucru. Acum algoritmul știe să obțină ceva, trebuie să stabilim o sarcină pentru el. Pentru a face acest lucru, faceți clic pe „Publicare modificări”.

Accesați tabla de sarcini, faceți clic pe „Run Spider” Alegeți site-ul web, prioritate și faceți clic pe „Executare”.

Ei bine, răzuirea este acum în proces. Viteza sa este afișată indicând cursorul pe numărul de solicitări trimise:

Viteza de pregătire a șirurilor în CSV - indicând un alt număr.

Pentru a vedea o listă de elemente deja făcute, faceți clic pe acest număr. Veți vedea ceva similar:

După terminarea acestuia, rezultatul poate fi salvat făcând clic pe acest buton:

Asta e! Acum puteți extrage informații de pe site-uri web fără experiență în programare.