Initiation au scraping de données (2/2)

Comprendre comment scraper Internet sans avoir aucune compétence technique

Écrit par
Nicolas Samir
Publié le
20/7/2022

⚡️ Qu'allons-nous réaliser ?

Nous avons vu dans la partie 1 de ce tuto comment aller extraire de n'importe quel site web toutes les URLs de pages contenant des données que nous souhaitons scraper.  Dans ce tuto, nous allons scraper ces pages pour aller chercher ces fameuses données 👇

S'équiper des bons outils

Pour scraper les pages d'un site web, j'utilise un outil précieux qui s'appelle Octoparse. La version gratuite de l'outil permet déjà de faire plein de choses 😉

Téléchargez Octoparse et installez-le sur votre ordi. Quand c'est fait, venez lire la suite de ce tuto 👇

Scraper avec Octoparse

Importer les URLs de départ

Octoparse fonctionne avec un système de "Task". Une "Task" est basée sur :

  • une URL de départ ou une liste d'URLs de départ
  • un scénario composé de plusieurs actions permettant d'effectuer des actions et/ou d'aller récupérer de la data sur les URLs données

Créer une nouvelle tâche, en cliquant sur "New" puis "Advanced Mode".

On va se servir de notre fichier Google Sheets avec toutes les URLs obtenues dans la partie du tuto. On va donc sélectionner "Import from file"

Téléchargez les données de votre Google Sheets au format CSV puis importez le fichier CSV dans Octoparse

Cliquez sur "Save" et c'est parti pour le scrapiiiiiiiing ⚡️

Scraaaaappeeeez !

Vous arrivez sur l'interface d'Octoparse qui permet de scraper. Ne prenez pas peur, ce n'est pas si compliqué que ça en a l'air.

Première chose : il vous faudra jouer souvent avec le toggle "Browse" en haut de l'écran qui va vous permettre de switcher entre la sélection d'éléments sur Octoparse et les interactions avec la page. Par exemple ici, le bandeau de cookies me gêne, donc je passe en "Browse" activé pour cliquer sur "Accepter" et le faire disparaître.

Sur votre écran, vous avez :

  • à gauche, le scénario qu'Octoparse va réaliser pour aller chercher les données. Pour l'instant, le scénario est "Go to Web Page" : cela signifie que que si vous lanciez Octoparse tout de suite, il ne ferait que consulter l'ensemble des pages Web que vous lui avez données en entrée
  • en bas, vous avez le panel qui affiche les datas que vous allez récupérer

Nous allons essayer de récupérer les données suivantes sur chaque médecin :

  • son prénom et nom
  • son adresse
  • son numéro de téléphone

Pour aller chercher ses datas, nous allons simplement cliquer dessus (n'oubliez pas de re-désactiver le mode "Browse"). Par exemple, si je veux le numéro, je clique dessus et Octoparse me propose directement plusieurs options dans la petite popup "Tips" qui s'ouvre. Dans notre cas, nous souhaitons extraire le texte de l'élément (= le numéro) donc je clique sur "Extract the text of the element"

Une nouvelle étape a été ajoutée à mon scénario et le panel du bas m'affiche désormais le numéro du médecin !

Je reproduis la même chose (clic sur l'info à extraire > clic sur "Extract the text of the element") pour chaque info que je veux aller scraper

Et voilà, vous avez quasiment terminé ! Il nous reste à lancer notre robot pour qu'il aille nous ramener toutes les données qu'on lui a dit d'aller chercher.

Pour ceci, sauvegardez votre scénario en cliquant sur "Save" en haut à droite, puis cliquez sur "Run". Vous avez alors 2 choix :

  • Run of your device : cela signifie vous êtes obligés de laisser Octoparse allumé (et donc votre ordi) pendant l'opération de scraping
  • Run in the Cloud : cela signifie que le scraping se fait dans le cloud et vous n'avez donc même pas à garder votre ordi allumé.

L'option "Cloud" étant payante, nous allons utiliser "Run on your device". Votre robot exécute votre scénario : il va sur toutes les pages et en extrait les données demandées.

A la fin de l'exécution du scénario, il vous suffit de cliquer sur "Export Data" pour récupérer toutes les données scrapées dans un fichier CSV ! ✨

On peut faire beaucoup beaucoup de choses avec Octoparse et vous n'êtes qu'au début des possibilités dingues que cela vous met entre les mains. Nous verrons dans d'autres tutos comment aller chercher de la data un peu partout grâce au scraping 😉

S'inscrire à la newsletter

Soyez informés dès la mise en ligne d'un nouvel outil ou d'un nouveau tuto

Vous pourrez bien sûr vous désabonner à tout moment 😉
C'est noté ! 🎉

Vous serez averti de chaque nouveauté !
Oops! Something went wrong while submitting the form.