06.- Métodos Multivariantes para el Análisis de Big Data

 

·       Introducción al  Big Data:

Historia y contexto. Definición, localización y consecuencias. Internet y el ‘Cloud Computing’. Open Data y Linked Data.


·       Infraestructura tecnológica:

Almacenamiento. Tipos de Bases de Datos.

Procesamiento y análisis: MapReduce, Hadoop, Spark, algoritmos.

Visualización. Comunicación de los resultados y aspectos legales.

Arquitecturas de Sistemas Big Data.

Programación y análisis estadístico: R y Python.


·       La Estadística en Big Data:

Introducción: Integración de la Estadística en el ámbito computacional moderno.

La aplicación de los métodos multivariantes clásicos en Big Data:

Técnicas de reducción de la dimensión:

Sparse Principal Component Analysis (SPCA): formulación, algorítmos e implicaciones en análisis de BIG DATA

Descomposición CUR vs SVD en la búsqueda de componentes principales: implicaciones en análisis de BIG DATA.

Técnicas de clasificación: 

Algoritmo K-MEANS, algoritmo K-MEDOIDS y Algoritmo  k-MODES

Algoritmo PAM (Partitioning Around Medoids) y gráficos relacionados: SILHOUETTE PLOT y CLUSPLOT

Algoritmos  CLARA (Clustering LARge Applications) y CLARANS (Clustering Large Applications based on RANdomized Search)

Arboles de Clasificación basados en Entropía

Método BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) para análisis en BIG DATA

Algoritmos de Cluster para datos Mixtos en BIG DATA

Two Step Cluster en SPSS

Algoritmo CLAM (Clustering Large Applicatios Using Metaheuristics)

Árboles ternarios

Cluster para datos binarios

Árboles de Regresión y Clasificación

CDPCA: Cluster and Disjoint Principal Component Analysis

Machine Learning: Reglas de Asociación, Métodos Supervisados. Redes Neuronales. Support Vector       Machines (SVM).

Social network analysis    

DEPARTAMENTO DE ESTADÍSTICA. UNIVERSIDAD DE SALAMANCA