Realizar Web Scraping con Python y Google Chrome en Debian 10.x

Detalles: Escrito por David Fragoso Porras; Categoría: Tutoriales; Publicado: 05 Abril 2020; Visto: 5779

El Web Scraping, es el proceso mediante el cual se nos permite extraer información de una sitio web de forma automatizada, dependiendo del nivel de complejidad del algoritmo que realicemos, podemos extraer cantidades industriales de información en cuestión de minutos.

Ese artículo, tiene como finalidad exponer el proceso de instalación de todas las dependencias necesarias para la realización del proceso de Scraping en un equipo con Debian 10.x x64, usando como lenguaje de programación Python 3.x, así como Selenium, BeautifulSoup4 y Google Chrome.

El primer comando por ejecutar actualizara la lista de paquetes disponibles y sus versiones, mientras que el segundo se encarga de instalar algunos paquetes que necesitaremos.

apt-get update apt-get install python3 python3-pip zip unzip wget

Posteriormente instalaremos los paquetes que usaremos en Python 3.x

pip3 install selenium pip3 install beautifulsoup4

El siguiente paso es instalar la última versión de Google Chrome para Linux, lo cual podemos hacer descargándolo e instalando, usando los siguientes comandos.

wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb apt install ./google-chrome-stable_current_amd64.deb

Un paso critico es saber la versión de Google Chrome que se ha instalado, para ello ejecutamos el siguiente comando.

google-chrome --version

En mi caso la versión que tengo instalada es la 80.0.3987.163, pero esto puede ser diferente en tu instalación. Una vez que conocemos la versión de Google Chrome que tenemos instalada, debemos de ir a la siguiente página web "https://chromedriver.chromium.org/downloads" y descargar la versión de ChromeDriver que corresponda a nuestra versión de Google Chrome.

Una vez seleccionada la versión de ChromeDriver, nos redijera a una serie de enlaces, en donde dependiendo del sistema operativo que tengamos debemos de elegir la indicada, en este caso seleccionaremos "chromedriver_linux64.zip" y procedemos a copiar la dirección de enlace.

A continuación, procedemos a descargar el fichero zip, pegando el enlace que acabamos de copiar, quedando de la siguiente manera.

wget https://chromedriver.storage.googleapis.com/80.0.3987.106/chromedriver_linux64.zip

Una vez finalizada la descarga, procedemos a ejecutar los siguientes comandos, que se encargaran de instalar ChromeDriver.

unzip chromedriver_linux64.zip mv chromedriver /usr/bin/chromedriver chown root:root /usr/bin/chromedriver chmod +x /usr/bin/chromedriver

A continuación, podemos ejecutar el siguiente código de ejemplo, en donde obtendremos el nombre y precio de artículos de Mercado Libre que cumplen con una serie de parámetros de búsqueda.

El resultado de la ejecución del anterior código fuente debe de ser similar al siguiente.

Como podemos ver, se ha realizado correctamente el scraping y hemos obtenido la información que deseábamos, posteriormente podríamos almacenarla en una base de datos o realizar análisis sobre ella.

Espero que este tutorial te haya servido y permita obtener información que te sea de utilidad.

Realizar Web Scraping con Python y Google Chrome en Debian 10.x

Información del uso de cookies