Gerer Beaucoup de Data

Bonjour

J’ai un petit besoin d’aide,
afin d’enrichir mes données, j’ai récupérer sur un internet des bases de données assez grosses…
Seulement difficile de les mettre dans mon Mysql par le biais de mon CRM ou en direct car j’ai besoin de faire des recherches dessus.
Du coup je faisais à l’ancienne avec un bon Grep sous linux qui me renvoyait toutes les occurrences face à ma recherche, mais c’est long …

Pour ceux qui manipulent de grosses bases, vous faite comment? utilisez vous un logiciel, un script, bref j’espère avoir été à peu près clair sur ma recherche
Cordialement

Bonjour çà dépends de ce que tu appelles « beaucoup de data », combien de lignes ? quelle taille fait le fichier ?

En ce qui me concerne j’utilise python et la librairie pandas, déjà avec çà on peut gérer pas mal de données, et si c’est trop gros on peut le faire par batch (par tranches) du coup il n’y a pas vraiment de limites.

Tu peux gérer avec la techno que tu maitrises le mieux.

MySQL ou Postgres peuvent très bien gérer des très gros volumes, il faut juste savoir les utiliser correctement.

Le plus important c’est de faire des index corrects. Un index, c’est un « plan d’accès » à ta donnée.

Un exemple: L’annuaire téléphonique. Mettre un index sur la colonne « nom », c’est la ranger par ordre alphabétique, et ça devient beaucoup plus facile d’accéder à la donnée.

Sans index, tu as un annuaire dans le désordre. Et dans ce cas tu es obligé de lire l’intégralité de l’annuaire (et de l’envoyer à la commande grep sur linux par exemple).

Donc MySQL + indexer correctement c’est déjà un très bon stack. Je conseille vivement cette vidéo pour tout comprendre sur les index :

Pour info, Scrap.io, c’est uniquement du MySQL, avec une base de données de plusieurs téraoctets, 240 millions de google places, et des requêtes qui prennent toujours moins de 5 secondes.

Il y a d’autres technos comme MongoDB ou ElasticSearch, mais je connais beaucoup moins donc peut-être que d’autres seront plus compétents là dessus.

5 « J'aime »

Merci pour tout ses renseignements
J’ai regardé Elasticsearch mais cela ressemble à une usine à gaz à première vue.
J’en conclu par ailleurs que mysql encaisse bien les données mais rentrer les donnée est aussi un vrai labeur au quotidien.
Donc j’en suis toujours avec mes csv que je parse avec grep afin de trouver des correspondances et enrichir mes données de base de prospection.
Bien des bases emails+tel GSM existe u’ peu partout dans le monde mais curieusement en France il y a pas grand chose de concluant si ce n’est de ci de là des base « exotique »
Bon pas très RGPD ça…
Par contre je retiens l’indexation des données par ordre alphabétique par exemple à partir du nom que je recherche.
Merci en tout les cas pour tout
Si je fini par trouver une solution idéale je la partagerai ici

Microsoft Access ca gere aussi tres bien les grosse bd.

Il y a une commande native pour importer des CSV dans MySQL (LOAD DATA INFILE). Mais il faut créer la table d’abord avec la bonne structure, faire correspondre les colonnes, renseigner le séparateur du fichier CSV, etc.

Ça vaut le coup d’essayer en demandant l’aide de ChatGPT :wink:

1 « J'aime »

team postgresql et lucene

quelques projets en mongodb,

1 « J'aime »