El taller tiene dos objetivos, uno explícito y el otro encubierto. El objetivo explícito es presentar técnicas automáticas (o simplemente, digitales) para el tratamiento de textos mediante computadores. El objetivo encubierto, quizás más importante que el primero, es introducir a las/los estudiantes al lenguaje de programación Python. Este taller surge como una iniciativa del Laboratorio de Humanidades Digitales, Facultad de Letras y Ciencias Humanas, PUCP.
Para este taller, y en general para la Lingüística Computacional, lo fundamental es responder preguntas en el espacio que se forma en las interacciones entre Humanidades, Lingüística, Computación y Datos. En vista de esto, el taller está abierto a intereses/problemáticos planteadas por las/los estudiantes.
- Textos y corpus (1 semana)
- Github, Github desktop, Python, Jupyter notebooks!
- Google ngrams: algunos experimentos, ideas y nociones básicas
- ¿Por qué Python para el análisis de textos?
- Nociones básicas de Python
- ¿Qué es un lenguaje de programación?
- ¿Cómo aprendemos Python? ¿Python y Humanidades?
- Elementos de Python y textos (2 semanas)
- Elementos de Python: Variables, listas, ciclos
- ¿Qué es un texto para un computador?
- Manejo de archivos de texto: lectura/escritura
- Type/tokens
- Limpieza de textos
- Problema: palabras importantes de un texto
- Recapitulación 1: Python y textos en Humanidades
- Nociones de procesamiento del lenguaje natural (NLP) (1 semana)
- Elementos de Python: diccionarios
- Librerías de Python para NLP: spaCy, stanza
- Desafío: escaneos de textos!!! (OCR)
- Conceptos de NLP y Aprendizaje Automático
- Consideraciones éticas sobre datos, NLP y Humanidades: Kate Crawford
- Recapitulación 2: Python y textos en Humanidades
- Aplicaciones (1 semana)