Esos son los aputes básicos sobre que es Data Science, que roles existen, cómo es el flujo de trabajo, etc.
Las notas fueron tomadas desde un ciclo de charlas dictadas por Diego Vallarino, este ciclo se llamo "Coffe & Data Science".
El input son los DATOS
1. Trabajo puro de tratamientos de datos (70%)
- ETL (extract, transform and load)
- Database (familiarizarse con los datos, dibujarlos, primeros KPIs)
2. Trabajo de análisis (30%)
- Análisis (relación entre variables, tendencias, modelos)
- visualización (jugar con visualizaciones para presentar a otras personas)
El output son los INSIGHTS
1. Data Scientist
- Sabe de matematicas, programación y comunicación
- Generalmente utiliza SQL, Python y R
2. Data Engineer
- Sabe de programación, matematicas y big data
- Utiliza Hadoop, NoSQL y Python
- Se encarga de que las fuentes de datos sean confiables
- Se encarga de que la extracción de datos pueda ser reproducible o programable
- Limpia los datos
- Reduce el riesgo de errores en los datos
3. Data Analysts
- Sabe de estadistica, comunicación y conocimiento del negocio
- Utiliza Excel, Tableau y SQL
- Se enfoca en hacer análisis que estan muy ligados al negocio
- Tiene la capacidad de hacer queries básicas en bases de datos
Entre ellos se complementan, el Engineer se encarga de que los datos sean confiables y crea procesos para tenerlos disponibles. El Scientist limpia los datos, los procesa y los cura. El Analysts entiende el negocio para explotar los datos.
En el mercado hay personas de diferentes carreras trabajando con datos, principalmente de ingenieria y economia, pero también de biología, quimica, comunicación, etc.
Es importante saber trabajar con datos, pero también entender como se comportan las personas a traves de los datos, por eso los economistas son perfiles muy interesantes.
¿Qué tiene que saber un gerente de area de datos?
- Crear equipos de data scientist que se complementen
- Coordinar y seleccionar a los mejores talentos
- Definir los objetivos y prioridades del equipo
- Conocer las tecnologías disponibles
- Entender cual es el problema a resolver, para poner a las personas correctas. Esto es importante ya que se pueden tener roles muy diferentes, desde ingenieros hasta sociologos
¿Qué hay que estudiar para trabajar en cada perfil?
1. Data Scientist
- Matematicas
- Computer Science
2. Data Engineer
- Computer Science
- Ingenieria
3. Data Analysts
- Economia
- Finanzas
- Matematicas
- Entender el negocio
4. Head of Data
- MBA
- Finance
Transformar los datos en insights que generen impactos en el problema que se quiere resolver. Por ejemplo: ganar más dinero, ahorrar costos, incrementar productividad, etc.
Hay casos en todas las industrias, pero la clave es elegir empresas que manejen una gran cantidad de datos, pueden ir desde:
- Finanzas
- Turismo
- Retail
- E-comerce
- Apuestas
- Salud
Generalmente se buscan hacer predicciones.
Lo primero es entender en que estado esta en la empresa en cuanto a como utiliza los datos.
- Reporteria operacional, la clásica reporteria contable o financiera donde hay información básica
- Reportería KPIs, no solo se saben las ventas, sino que ventas por territorio o empleado por ejemplo
- Exploración y visualización de datos. No solamente se indentifica lo que pasó sino que tambien se empiezan a visualizar y comparar diferentes KPIs
- Segmentación, es cuando se empieza a trabajar con la segmentación inteligente. Por ejemplo una persona que formo una familia y tiene un buen salario es propensa a comprar un auto. Se segmenta por comportamientos, no por edad por ejemplo
- Modelos predictivos, todo lo que vimos hasta la 4 son comportamientos pasados o que sicedieron, siempre se mira hacia atrás. A partir de acá podemos empezar a entender modelos predictivos, osea no solo entender quien me compró sino quien me va a comprar
- Analytics cognitivos / Machine learning, esto son modelos dinámicos, la diferencia con el 5 es que los modelos de la 5 son estaticos. En machine learning los modelos son dinámicos, es decir a medidas que se usan el modelo aprende o "se entrena". A medida que tiene mas datos el algoritmo va ajustando los parametros automaticamente para llegar a mejores resultados
Data + Analytics + Technology = Soluciones
- Bases de datos propias
- Bases de datos diferenciadas
- Bases de datos alternativas
- Descriptiva, ¿que pasó?
- Diagnostico, ¿porque pasó?
- Predictiva, ¿qué es lo que va a pasar?
- Prescriptiva, ¿qué es lo que debería hacer? Por ej un algoritmo que toma la desición si dar un crédito o no a un cliente
- Python
- R
- Data Studio
Value = 4D + 3E
Lo primero es entender cual es el problema a resolver, entender la necesidad de negocio. Entender la industria es fundamental.
Comercial:
- Segmentación
- Originación
- Retención
- Pricing
Caracteristicas:
- Behavioral Science
- Estructura de incentivos
- Creación de valor
El diseño de las soluciones para estos problemas es la primera D, el Design.
Son todos los datos que tenemos para analizar el problema o generar predicciones. Sacamos datos desde doferentes fuentes. Tener muchos datos no significa que tenemos mejores soluciones, a veces los datos generan mucho ruido que nos hace pasar mucho tiempo limpiando y terminamos con pocas variables para los modelos.
Esta bueno tener data pero hay que tener la data correcta y que genere valor para el problema que se quiere solucionar. Esta es la segunda D.
Es quizas la parte más conocida o entretenido, el desarrollo de los algoritmos. Se utiliza data analytics junto a machine learning. Es la tercera D.
Hay algoritmos del tipo descriptivo, como por ejemplo:
- Procesamiento de carteras de cliente
- Text analytics
- Análisis de sentimientos
Hay algoritmos del tipo predictivo, como por ejemplo:
- Scoring de riesgo
- Score de churn
- Score recomendation
Se pueden utilizar las siguientes herramientas:
- Tableau, para análitica descriptiva, desarrollo de dashboards, etc
- Power BI, parecido a Tableau, mejor integrada a Excel, para análitica descriptiva
- Python y sus librerías para visualizar datos
Como se pueden usar algoritmos para modelar. Hay dos grandes grupos de algoritmos de machine learning:
En estos algoritmos no se tienen las variables de respuesta a partir de un input, no sabemos como se va a comportar la persona con determinado input, a diferencia del supervisado.
Uno de los principales modelos de este tipo de algoritmos es la Clustering
o clasterisación. Se trata de poder segmentar en función de patrones comunes. Por ejemplo, lograr algutinar en una función patrones de compra.
Por ej:
- Todas estas personas van a entrenar demañana
- Todas estas personas van a la facultad
Dependiendo de la cantidad de variables algutinadas que tenemos intentamos segmentar para predecir comportamientos.
Es importante tener variables historicas pero tambien un pequeño a futuro. Eso hace que tengamos un cluster con una lógica de propensión.
- kMeans, kmedoids, Fruzzy C-Means
- Hierachical
- Gaussian mixture
- Neural networks
- Hidden markov model
Generalmente se usan para predecir a traves de modelos, dónde hay input data y output data. Son los mas comunes.
Por ej:
- Si una persona quiere comprar
- Si una persona va a pagar
- Si una persona quiere ir a x lugar
Para predecir esto se tiene una enorme cantidad de datas con variables como por ejemplo: personas de tal edad, tal sexo, que compraron x cosa, que viajaron a x lugar.
Existen dos grandes tipos:
El objetivo es poder predecir el comportamiento de una variable Dicotomica(si o no) o Categórica(hugo, paco, luís).
- Support Vector Machines
- Discriminant Analytics
- Naive Bayes
- Neareset Neighbor
El objetivo es poder predecir el comportamiento de una variable Continua. El precio de un producto.
- Linear regression GLM
- SVR, GPR
- Ensemble methods
- Decision trees
- Neural networks
Dependiendo del problema que queramos resolver es el tipo de algoritmos o el conjunto de algoritmos a utilizar.
Si en google ponemos "Machine Learning Algorithm Cheat Sheet" seguro salen gráficos que nos ayudan en la elección de estos algoritmos.
Por ejemplo Microsoft Azure tiene uno muy bueno.
Se puede usar:
- Algoritmos en la nube (Azuro, AWS, Google)
- Python
Generalmente se ponen a competir a 3 o 4 algoritmos para ver cual performa mejor y da mejores predicciones.
Para eso se suele separar la data en 70% para entrenamiento y 30% para las pruebas de performance.
Los algoritmos o metodos de machine leargning más utilizados en el 2018-2019 son:
- Regresion 56%
- Decision Trees / Rules 48%
- Clustering 47%
- Visualization 46%
- Random Forests 45%
- Statics Descriptive 39%
- K-Nearest Neighbours 33%
- Time series 32%
- Ensemble methods 30%
- Text mining 28%
- PCA 28%
- Boosting 27%
- Neural Networks 25%
Corresponde a la cuarta D. Por ejemplo corresponde a cuando aparece una publicidad en Twitter recomendando algo a partir de las busquedas del usuario, sus comportamientos, etc.
-
Design
-
Data
-
Develop
-
Delivery
-
Easy to implement
-
Easy to use
-
Easy to revenue
Por ejemplo sirve para responder preguntas como: ¿cuanto cobrar el pop en el cine?, ¿qué tiene que ver 3 premios nobel con el precio de la cerveza artesanal?
Esta parte se trata de ver como mezclar la economia con la big data.
Se da ca cuando una de las partes, en un contrato, tiene mas/menos información sobre un bien.
El proceso por el cual dada una asimetría de información, la selección no es correcta.
Aquellas situaciones en las que un individuo tiene información asimetrica acerca de las consecuencias de sus propias acciones.
Con el análisis de datos, podemos tomar la desición con más información, disminuyendo la asimetría de información reduciendo el riesgo a caer en una selección adversa.
Es la rama de la economía que estudia como las personas toman desiciones, utilizando la psicología y la neurociencia.
El concepto de behavioral economics es muy importante para analizar mejor los datos y entender que sesgos tienen las personas y poder influir en ellos.
Hay dos grandes enfoques en el Behavioral economics:
- Entender los sesgos
- Crear incentivos para mover a las personas a dónde queremos
Los conjuntos de puntos en el espacio de combinaciones de bienes para los que la satisfacción del consumidor es idéntica.
No todos los productos son lo mismo, por ej 3 cafe pueden diferir en: experiencia de consumo, precio, etc.
El inferior es aquel cuya demanda aumenta a medida que la renta decrece.
El superior es aquel que cuando aumenta su precio aumenta su demanda, ya que se considera un bien exclusivo.
Se puede convertir un bien inferior en uno superior a traves de los datos.
Cantidad máxima que pagaría un cliente por un producto.
Es el costo de la alternativa a la que renunciamos cuando tomamos una determinada desición, incluyendo los beneficios que podríamos haber obtenido de haber escogido la opción alternativa.
Las personas en el corto plazo toman desiciones no racionales.
Netflix es una empresa basada en datos que toman una cantidad de información para mantener a las personas mirando series.
Se dice que las maratones de series generar dopamina. Llegaron a esa conclusión analizando los datos, dandose cuenta que la gente prefiere ver las series de corrido, preferiblemente los fines de semana.
Netflix mirando como la gente mira la series, decide como lanzar las series. Generalmente lanzan las series los viernes, para que las personas las miren en forma de maratón.
Esto es un comportamiento irracional de los usuarios, que por la generación de dopamina, mantiene a las personas enchufadas todo el fin de semana mirando una serie.
¿Qué hay detrás de la dopamina? Irracionalidad, incentivos y hábitos.
Es un canvas que demuestra como se puede pasar desde lo emocional a los hábitos. Se puede buscar en google y verlo visualmente.
- Disparador (extrenos: llamada, mail, publicidad, tweet, etc) (internos: hábitos, emociones, aburrimiento, etc)
- Acción que genera recompensa (scroll, buscar en google, ver videos)
- Recompenza (de tribu, de cazador, de yo)
- Inversión (de tiempo, de dinero, de recuerdos)
Esta rueda termina generando un hábito o un vicio. Con los datos se pueden armar este tipo de ruedas.
Este canvas se puede aplicar para diferentes comportamientos para entender un poco como funciona el mecanismo. Por ejemplo: para entender a los juagdores de fornaite, a las personas que miran maratones de series, a los compradores compulsivos, etc.