Scrap avec pop-up !

HELLLPPP! ^^

Bonjour tout le monde! :slight_smile:

Cela fait quelques jours que je suis dessus, mais je n’arrive pas à scraper ce site internet afin de recuperer adresse, mail et téléphone :

http://www.observatoire-ajaccio.fr/quartiers/annuaire.php?num_page=0

J’ai essayé web sraper, mais en vain…
Avec en plus le nombre de page trop élevé (autopagerize ne marche pas) je commence vraiment à baisser les bras. Avez vous une idée ? :slight_smile:

Sinon je vais passer par amazon mechanical turk…

Merci à vous :slight_smile:

Hello,

si tu vas sur : https://repl.it/languages/python3

et que tu mets en code :

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
import lxml

maxRange = 5
url0 = "http://www.observatoire-ajaccio.fr/quartiers/fiche_association.php?id="
list = []
for k in range(maxRange):
    url = url0+str(k)
    html = urlopen(url).read()
    soup = BeautifulSoup(html, 'lxml')
    table = soup.find_all('td')
    tmp =""
    for l in table:
        tmp =tmp +"///"+str(l.get_text())
    list.append(tmp)

df = pd.DataFrame(list)

df.to_csv("test.csv")

En mettant un max range sur le nombre de pages max que tu veux récupérer tu devrais avoir un csv avec 1 colonne ou 1 ligne par page.

Après tu peux gérer sur excel pour récupérer les emails et les teléphones.

Bicorne

3 J'aimes

Salut Bicorne ! Merci beaucoup, mais j’ai " File

« main.py », line 1
‹ ›’
^
SyntaxError: invalid character in identifier
 "

Sorry je ne suis pas dev :confused:
Quel problème de syntaxe ?

Merci à toi !

J’ai édité le message pour que ça soit écrit en code.
L’éditeur du forum modifie les caractères :slight_smile:
Normalement ça devrait marcher maintenant.

Sinon tu peux utiliser ma fonction ImportFromWeb pour Google Sheets:

Voici le tableau complet pour 19 pages

1 J'aime