Este proyecto incluye dos scripts de web scraping para extraer datos de sitios web populares en Costa Rica: CRautos y Yuplon. Los datos se almacenan en archivos Excel para su posterior análisis.
- Python 3.x
- Selenium
- BeautifulSoup
- pandas
- openpyxl
-
Clona el repositorio:
git clone https://github.com/mecanos28/ScraperForCrAutosYuplon.git cd ScraperForCrAutosYuplon
-
Crea un entorno virtual e instala las dependencias:
python -m venv env source env/bin/activate # En Windows: env\Scripts\activate pip install -r requirements.txt
-
Descarga el ChromeDriver compatible con tu versión de Chrome y tu sistema operativo desde aquí.
-
Coloca el ejecutable de ChromeDriver en la carpeta
chromedriver
dentro del directorio del proyecto.
Este script navega por las listas de vehículos en CRautos y extrae datos relevantes como modelo, año, precio, kilometraje, etc.
-
Ejecuta el script:
python3 crautos/crautos.py
-
Los datos extraídos se guardarán en un archivo Excel en la carpeta
output
.
Este script navega por las campañas en Yuplon y extrae detalles de las ofertas, incluyendo título principal, subtítulos, precios, descuentos y fechas de validez.
-
Ejecuta el script:
python3 yuplon/yuplon.py
-
Los datos extraídos se guardarán en exceles y generaran plots con datos relevantes.
Selenium es una herramienta para la automatización de navegadores web. Se usa en este proyecto para abrir y navegar por las páginas web de CRautos y Yuplon, interactuar con elementos de las páginas (como botones y enlaces), y extraer el contenido necesario.
BeautifulSoup es una biblioteca de Python para analizar documentos HTML y XML. Se usa junto con Selenium para extraer y analizar datos de las páginas web, permitiendo localizar y extraer información específica de las estructuras HTML de CRautos.
pandas es una biblioteca de Python para el análisis y manipulación de datos. En este proyecto se usa para almacenar los datos extraídos en estructuras de datos (DataFrames), facilitando la manipulación y el análisis de los datos. También se usa para exportar los datos a archivos Excel.
openpyxl es una biblioteca de Python para leer y escribir archivos Excel (xlsx). Se utiliza en este proyecto para guardar los datos extraídos de CRautos y Yuplon en archivos Excel, permitiendo un fácil acceso y análisis de los datos.
Contacto: ferojasmel@hotmail.com