Scrap avec pop-up !

Daniel_Petrov · Septembre 13, 2020, 10:57

HELLLPPP! ^^

Bonjour tout le monde!

Cela fait quelques jours que je suis dessus, mais je n’arrive pas à scraper ce site internet afin de recuperer adresse, mail et téléphone :

http://www.observatoire-ajaccio.fr/quartiers/annuaire.php?num_page=0

J’ai essayé web sraper, mais en vain…
Avec en plus le nombre de page trop élevé (autopagerize ne marche pas) je commence vraiment à baisser les bras. Avez vous une idée ?

Sinon je vais passer par amazon mechanical turk…

Merci à vous

Bicorne · Septembre 13, 2020, 12:20

Hello,

si tu vas sur : Python Online Compiler & Interpreter - Replit

et que tu mets en code :

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
import lxml

maxRange = 5
url0 = "http://www.observatoire-ajaccio.fr/quartiers/fiche_association.php?id="
list = []
for k in range(maxRange):
    url = url0+str(k)
    html = urlopen(url).read()
    soup = BeautifulSoup(html, 'lxml')
    table = soup.find_all('td')
    tmp =""
    for l in table:
        tmp =tmp +"///"+str(l.get_text())
    list.append(tmp)

df = pd.DataFrame(list)

df.to_csv("test.csv")

En mettant un max range sur le nombre de pages max que tu veux récupérer tu devrais avoir un csv avec 1 colonne ou 1 ligne par page.

Après tu peux gérer sur excel pour récupérer les emails et les teléphones.

Bicorne

Daniel_Petrov · Septembre 13, 2020, 7:18

Salut Bicorne ! Merci beaucoup, mais j’ai " File

« main.py », line 1
‹ ›’
^
SyntaxError: invalid character in identifier
 "

Sorry je ne suis pas dev
Quel problème de syntaxe ?

Merci à toi !

Bicorne · Septembre 13, 2020, 9:08

J’ai édité le message pour que ça soit écrit en code.
L’éditeur du forum modifie les caractères
Normalement ça devrait marcher maintenant.

Mapi · Septembre 15, 2020, 9:07

Sinon tu peux utiliser ma fonction ImportFromWeb pour Google Sheets:
ezgif-7-0686c9d6bd5b

Voici le tableau complet pour 19 pages