Una aplicación del método jerárquico de mezclas para la clasificación de los municipios venezolanos según variables socioeconómicas

An Application of Hierarchical Method of Mixtures for the Classification of the Venezuelan Counties using Socioeconomic Variables

FREDDY OMAR LÓPEZ QUINTERO1, RAFAEL EDUARDO BORGES PEÑA2

1Instituto Venezolano de Investigaciones Científicas, Departamento de Matemáticas, Miranda, Venezuela. Estudiante de maestría. Email: folopez@ivic.ve
2Universidad de Los Andes, Facultad de Ciencias Económicas y Sociales, Escuela de Estadística, Mérida, Venezuela. Profesor agregado. Email: borgesr@ula.ve


Resumen

En este trabajo se presenta una aplicación del método propuesto por Fraley & Raftery (2002) para la obtención de grupos de municipios de Venezuela a partir de un conjunto de variables socioeconómicas. Las variables consideradas miden aspectos del hogar de las familias que viven en los municipios, la ocupación de sus miembros, la educación, aspectos demográficos, entre otros. Como datos de entrada, se decidió tomar los primeros seis componentes principales de un análisis previo realizado a estos datos. Se obtuvieron nueve grupos diferenciados entre sí marcando, principalmente, diferencias en el estatus social, en el acceso a algunos servicios, y la calidad de vida en general.

Palabras clave: factor de Bayes, análisis de conglomerados, algoritmo EM, modelos mezclados.


Abstract

In this work, we present an application of the method proposed by Fraley & Raftery (2002) to obtain groups of Venezuelan counties, using the information of socio-economic variables. The variables considered in the application includes some aspects related with the families that live in counties, such as occupation of its members, education, demographic aspects and others. For the analysis, we use the first six principal components taken from a previous analysis. A classification on nine groups was obtained, and the difference between these groups was influenced by the socioeconomic status, the access to some basic services and quality of life.

Key words: Bayes factor, Cluster analysis, EM algorithm, Mixture models.


Texto completo disponible en PDF


Referencias

1. Bandfield, J. & Raftery, A. (1993), `Model-based Gaussian and Non-Gaussian Clustering´, Biometrics 49, 803-821.

2. Bergonzoli, G. (2006), Sala situacional, IAESP. Instrumento para la vigilancia de salud pública.

3. Bouveyron, C., Girard, S. & Schmid, C. (2007), `High-Dimensional Data Clustering´, Computational Statistics & Data Analysis 52(1), 502-519.

4. Celeux, G. & Govaert, G. (1995), `Gaussian Parsimonious Clustering Models´, Pattern Recognition 28, 781-793.

5. Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), `Maximum Likelihood Estimation from Incomplete Data Via the EM Algorithm´, Journal of the Royal Statistical Society. Series B (Methodological) 39, 1-38.

6. Díaz, L. (2002), Estadística multivariada: inferencia y métodos, 1 edn, McGraw-Hill, Bogotá, Colombia.

7. Fraley, C. (1998), `Algorithms for Model-Based Gaussian Hierarchical Clustering´, SIAM Journal on Scientific Computing 20(1), 270-281.

8. Fraley, C. & Raftery, A. E. (2002), `Model-Based Clustering, Discriminant Analysis, and Density Estimation´, Journal of the American Statistical Association 97.

9. Fraley, C. & Raftery, A. E. (2006), `MCLUST: Model-based cluster analysis´. R port by Ron Wehrens. R package version 2.1-14. URLhttp://www.stat.washington.edu/mclust.

10. Gallegos, M. T. & Ritter, G. (2005), `A Robust Method for Cluster Analysis´, The Annals of Statistics 33, 347-380.

11. Gnanadesikan, R., Kettenring, J. R. & Maloor, S. (2007), `Better Alternatives to Current Methods of Scaling and Weighting Data for Cluster Analysis´, Journal of Statistical Planning and Inference 137, 3483-3496.

12. Haughton, D., Legrand, P. & Woolford, S. (2007), `Review of Three Latent Class Cluster Analysis Packages: Latent Gold, poLCA, and MCLUST´, The American Statistician 63(1), 81-91.

13. INE, (2005), Venezuela: estadísticas vitales, 2004, Instituto Nacional de Estadística.

14. Johnson, R. & Wichern, D. (1998), Applied Multivariate Statistical Analysis, 4 edn, Prentice Hall.

15. Lago, S., Mauro, M. & Álvarez, G. (2000), `Análisis exploratorio multivariado. La conformación de subregiones al interior de cuatro provincias argentinas según el impacto del desarrollo en las condiciones de vida´, Cinta de Moebio(9), 1-18.

16. Lebart, L., Morineau, A. & Warwick, K. M. (1984), Multivariate Descriptive Statistical Analysis, John Wiley & Sons, New York, United States.

17. Leisch, F. (2006), `A Toolbox for K-Centroids Cluster Analysis´, Computational Statistics and Data Analysis 51(2), 526-544.

18. López, F. (2007), `Búsqueda de estratos socieconómicos a nivel nacional. Caracterización estadística de los municipios de Venezuela´. Tesis para optar al título de Licenciado en Estadística. Universidad de Los Andes. Mérida, Venezuela.

19. López, N., Moreno, A., Medina, E., García, J., Rivera, E., Díaz, Y., Porcio, G., Sánchez, O., Aguirre, J., Ponce, X., Arias, J., Vivas, J. & Bergonzoli, G. (2002), Identificación y representación de necesidades sociales. Módulo II, Ministerio de Salud, Dirección de Análisis Estratégico.

20. Murtagh, F. & Raftery, A. (1984), `Fitting Straight Lines to Point Patterns´, Pattern Recognition 17, 479-483.

21. Oh, M. S. & Raftery, A. (2007), `Model-Based Clustering With Dissimilarities: A Bayesian Approach´, Journal of Computational and Graphical Statistics 16(3), 559-585.

22. Peña, D. (2004), Análisis de datos multivariantes, McGraw-Hill Interamericana.

23. Schwarz, G. (1978), `Estimating the Dimension of a Model´, Annals of Statistics 6(2), 461-464.


[Recibido en septiembre de 2008. Aceptado en octubre de 2009]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

@ARTICLE{RCEv32n2a04,
    AUTHOR  = {López Quintero, Freddy Omar and Borges Peña, Rafael Eduardo},
    TITLE   = {{Una aplicación del método jerárquico de mezclas para la clasificación de los municipios venezolanos según variables socioeconómicas}},
    JOURNAL = {Revista Colombiana de Estadística},
    YEAR    = {2009},
    volume  = {32},
    number  = {2},
    pages   = {231-245}
}