Changes

On October 25, 2017 at 2:04:28 PM UTC, Eduardo Flores:

Updated description of Muestra de Nombres y Apellidos Comunes en México from
# Nombres Mexicanos Para generar un dataset representativo de los nombres de personas en México se usó una idea tomada de [datamx](http://datamx.io/dataset/nombres-mas-comunes-en-mexico) que utiliza una [base de datos abierta de la Secretaría de Educación Pública](http://cumplimientopef.sep.gob.mx/registro_personal/) con los nombres de 1,256,438 trabajadores federalizados. La limpieza y el procesamiento de los datos está en [analizar_nombres_sep.R](analizar_nombres_sep.R). Realiza lo siguiente: * Elimina duplicados usando como llave el CURP * Obtiene el género a partir del caracter 11 del CURP * Obtiene el año de nacimiento de los caracteres 5 y 6 del CURP * Calcula la edad de cada registro al año 2012 que es el de actualización según la página de la SEP * Calcula las frecuencias de los primeros y segundos apellidos, elimina los que tienen una frecuencia menor a 5 y elimina algunos que son basura o nulos. Crea un solo data frame y lo guarda. * Divide el dataset en Hombres y Mujeres, calcula las frecuencias de los nombres en cada caso, elimina los que tienen una frecuencia menor a 5, calcula la edad promedio para cada nimbre y guarda el data frame Se usa un formato similar al de los [nombres y apellidos frecuentes en España](https://github.com/marcboquet/spanish-names/) de donde se inspiró este proyecto. Hay que notar que es una muestra grande pero dos órdenes de magnitud menor a lo que sería una completa y que está segmentada al ser únicamente trabajadores de la SEP. Los archivos originales y procesados estan en [data/sep](data/sep).
to
# Nombres Mexicanos Para generar un dataset representativo de los nombres de personas en México se usó una idea tomada de [datamx](http://datamx.io/dataset/nombres-mas-comunes-en-mexico) que utiliza una [base de datos abierta de la Secretaría de Educación Pública](http://cumplimientopef.sep.gob.mx/registro_personal/) con los nombres de 1,256,438 trabajadores federalizados. La limpieza y el procesamiento de los datos está en [analizar_nombres_sep.R](analizar_nombres_sep.R). Realiza lo siguiente: * Elimina duplicados usando como llave el CURP * Obtiene el género a partir del caracter 11 del CURP * Obtiene el año de nacimiento de los caracteres 5 y 6 del CURP * Calcula la edad de cada registro al año 2012 que es el de actualización según la página de la SEP * Calcula las frecuencias de los primeros y segundos apellidos, elimina los que tienen una frecuencia menor a 5 y elimina algunos que son basura o nulos. Crea un solo data frame y lo guarda. * Divide el dataset en Hombres y Mujeres, calcula las frecuencias de los nombres en cada caso, elimina los que tienen una frecuencia menor a 5, calcula la edad promedio para cada nimbre y guarda el data frame Se usa un formato similar al de los [nombres y apellidos frecuentes en España](https://github.com/marcboquet/spanish-names/) de donde se inspiró este proyecto. Hay que notar que es una muestra grande pero dos órdenes de magnitud menor a lo que sería una completa y que está segmentada al ser únicamente trabajadores de la SEP. Los archivos originales y procesados estan en [data/sep](data/sep). Repositorio: [github](https://github.com/eduardofv/mexican-names)

              
    
          
          
        
        
            f 1 { f 1 {
            2   "author": "Eduardo Flores", 2   "author": "Eduardo Flores",
            3   "author_email": "", 3   "author_email": "",
            4   "creator_user_id": "f377ea05-7c75-49c8-8579-cfdf548ccf82", 4   "creator_user_id": "f377ea05-7c75-49c8-8579-cfdf548ccf82",
            5   "id": "2f4f2e93-fb20-423b-bf44-e68256bcc635", 5   "id": "2f4f2e93-fb20-423b-bf44-e68256bcc635",
            6   "license_id": "cc-zero", 6   "license_id": "cc-zero",
            7   "maintainer": "", 7   "maintainer": "",
            8   "maintainer_email": "", 8   "maintainer_email": "",
            n 9   "metadata_modified": "2017-10-25T18:03:23.641051", n 9   "metadata_modified": "2017-10-25T18:04:28.601772",
            10   "name": "muestra-de-nombres-y-apellidos-comunes-en-mexico", 10   "name": "muestra-de-nombres-y-apellidos-comunes-en-mexico",
            11   "notes": "# Nombres Mexicanos\r\n\r\nPara generar un dataset  11   "notes": "# Nombres Mexicanos\r\n\r\nPara generar un dataset 
            12 representativo de los nombres de personas en M\u00e9xico se us\u00f3  12 representativo de los nombres de personas en M\u00e9xico se us\u00f3 
            13 una idea tomada de  13 una idea tomada de 
            14 [datamx](http://datamx.io/dataset/nombres-mas-comunes-en-mexico) que  14 [datamx](http://datamx.io/dataset/nombres-mas-comunes-en-mexico) que 
            15 utiliza una [base de datos abierta de la Secretar\u00eda de  15 utiliza una [base de datos abierta de la Secretar\u00eda de 
            16 Educaci\u00f3n  16 Educaci\u00f3n 
            17 P\u00fablica](http://cumplimientopef.sep.gob.mx/registro_personal/)  17 P\u00fablica](http://cumplimientopef.sep.gob.mx/registro_personal/) 
            18 con los nombres de 1,256,438 trabajadores federalizados.\r\n\r\nLa  18 con los nombres de 1,256,438 trabajadores federalizados.\r\n\r\nLa 
            19 limpieza y el procesamiento de los datos est\u00e1 en  19 limpieza y el procesamiento de los datos est\u00e1 en 
            20 [analizar_nombres_sep.R](analizar_nombres_sep.R). Realiza lo  20 [analizar_nombres_sep.R](analizar_nombres_sep.R). Realiza lo 
            21 siguiente:\r\n\r\n* Elimina duplicados usando como llave el CURP\r\n*  21 siguiente:\r\n\r\n* Elimina duplicados usando como llave el CURP\r\n* 
            22 Obtiene el g\u00e9nero a partir del caracter 11 del CURP\r\n* Obtiene  22 Obtiene el g\u00e9nero a partir del caracter 11 del CURP\r\n* Obtiene 
            23 el a\u00f1o de nacimiento de los caracteres 5 y 6 del CURP\r\n*  23 el a\u00f1o de nacimiento de los caracteres 5 y 6 del CURP\r\n* 
            24 Calcula la edad de cada registro al a\u00f1o 2012 que es el de  24 Calcula la edad de cada registro al a\u00f1o 2012 que es el de 
            25 actualizaci\u00f3n seg\u00fan la p\u00e1gina de la SEP\r\n* Calcula  25 actualizaci\u00f3n seg\u00fan la p\u00e1gina de la SEP\r\n* Calcula 
            26 las frecuencias de los primeros y segundos apellidos, elimina los que  26 las frecuencias de los primeros y segundos apellidos, elimina los que 
            27 tienen una frecuencia menor a 5 y elimina algunos que son basura o  27 tienen una frecuencia menor a 5 y elimina algunos que son basura o 
            28 nulos. Crea un solo data frame y lo guarda.\r\n* Divide el dataset en  28 nulos. Crea un solo data frame y lo guarda.\r\n* Divide el dataset en 
            29 Hombres y Mujeres, calcula las frecuencias de los nombres en cada  29 Hombres y Mujeres, calcula las frecuencias de los nombres en cada 
            30 caso, elimina los que tienen una frecuencia menor a 5, calcula la edad  30 caso, elimina los que tienen una frecuencia menor a 5, calcula la edad 
            31 promedio para cada nimbre y guarda el data frame\r\n\r\nSe usa un  31 promedio para cada nimbre y guarda el data frame\r\n\r\nSe usa un 
            32 formato similar al de los [nombres y apellidos frecuentes en  32 formato similar al de los [nombres y apellidos frecuentes en 
            33 Espa\u00f1a](https://github.com/marcboquet/spanish-names/) de donde se  33 Espa\u00f1a](https://github.com/marcboquet/spanish-names/) de donde se 
            34 inspir\u00f3 este proyecto. Hay que notar que es una muestra grande  34 inspir\u00f3 este proyecto. Hay que notar que es una muestra grande 
            35 pero dos \u00f3rdenes de magnitud menor a lo que ser\u00eda una  35 pero dos \u00f3rdenes de magnitud menor a lo que ser\u00eda una 
            36 completa y que est\u00e1 segmentada al ser \u00fanicamente  36 completa y que est\u00e1 segmentada al ser \u00fanicamente 
            37 trabajadores de la SEP. Los archivos originales y procesados estan en  37 trabajadores de la SEP. Los archivos originales y procesados estan en 
            n 38 [data/sep](data/sep).\r\n", n 38 [data/sep](data/sep).\r\n\r\nRepositorio: 
            39 [github](https://github.com/eduardofv/mexican-names)\r\n",
            39   "owner_org": null, 40   "owner_org": null,
            40   "private": false, 41   "private": false,
            t 41   "revision_id": "870d80a2-b1f1-49e9-9599-ec1b31c2a58c", t 42   "revision_id": "5019d0fb-ab10-4023-addc-d350a9b28eac",
            42   "state": "active", 43   "state": "active",
            43   "title": "Muestra de Nombres y Apellidos Comunes en M\u00e9xico", 44   "title": "Muestra de Nombres y Apellidos Comunes en M\u00e9xico",
            44   "type": "dataset", 45   "type": "dataset",
            45   "url": "http://cumplimientopef.sep.gob.mx/registro_personal/", 46   "url": "http://cumplimientopef.sep.gob.mx/registro_personal/",
            46   "version": "1.0" 47   "version": "1.0"
            47 } 48 }