Los seres humanos estamos creando y almacenando datos constantemente en cantidades astronómicas (estructurados, no estructurados y semi-estructurados) que tomarían demasiado tiempo y sería muy costoso cargarlos a una base de datos relacional para su análisis. Tampoco pueden ser procesados y analizados utilizando procesos o herramientas tradicionales. Esta explosión de "Grandes Volúmenes de Datos" está transformando la manera en que se conduce una investigación, dado que plantea una nueva forma de abordarlos mediante el uso de técnicas, habilidades y recursos adecuados para su procesamiento, esto debido a la complejidad e intensidad del cómputo necesario.
En este contexto, la Ciencia de Datos es un área interdisciplinaria y tecnológica que utiliza herramientas, métodos y técnicas de solución y optimización, tanto en hardware como en software, que permiten el manejo y procesamiento de Grandes Volúmenes de Datos. Esto se lleva a cabo mediante cómputo intensivo (algoritmos y programas), y manipulando los datos de forma distribuida en nodos de un clúster logrando así un alto paralelismo en el procesamiento. Como consecuencia se obtienen drásticas reducciones de los tiempos de solución sin sacrificar la confiabilidad, integridad y seguridad de los datos.
Python es uno de los lenguajes más populares en el área de Ciencia de Datos. Provee herramientas robustas que dan soporte a todo el pipeline de la Ciencia de Datos. En este curso, el participante debe demostrar habilidades para el uso de librerías en Python usadas para la manipulación y visualización de datos, tales como numpy, pandas, matplotlib y conocimiento de herramientas de machine learning como TensorFlow.
- Instructor: Andrés Sanoja