PyCommonCrawl – Traiter le Web

Le but de ce projet est de créer un outil simple pour pouvoir traiter les données issues de CommonCrawl grâce à Python.

Je voulais faire quelque chose de simple. Le problème était que télécharger la totalité des données de CommonCrawl demandais trop d’espace (la version comprimée pesait à peu près 53 TiB). Il me fallait une “solution en streaming/en ligne”. Heureusement, les données étaient segmentées en plusieurs morceaux (56000) . Ma solution se contente de rendre la gestion des téléchargements et suppressions de fichiers transparente afin d’avoir l’impression de n’avoir qu’un seul fichier. Il est possible de traiter chaque ligne séparément ou par bloc au format WARC (le format des archives de l’internet).

Cependant, cette solution peut-être très longue et le facteur limitant est le téléchargement qui nécessite une bonne connexion.

Le code est disponible sur Github et j’ai créé un package python.

Laisser un commentaire

Your email address will not be published / Required fields are marked *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.