Presentación módulo 4

 

Ficheros do

 Transcripción

En esta lección del módulo cuatro, vamos a ver lo que son los ficheros Do. Hay dos formas de trabajar en Stata, el modelo Interactivo y el modelo Batch.

En el modelo Interactivo, tenemos aquí todo lo que es la pantalla del Stata. Hemos cargado una base de datos, y lo que vemos es que tenemos las cinco ventanas, como hemos comentado siempre, y lo que pasa es que en el modo interactivo trabajamos, donde podemos ver que, le ponemos aquí los comandos y nos sale los resultados en la pantalla.

Sin guardar ningún resultado de ningún comando. En el modelo Batch, lo que nos pasa es que podemos estar grabando las instrucciones y los comandos del Stata, de tal forma que eso nos va a permitir agilizar después, a la hora de poder ejecutar los resultados que queremos ver y analizar los datos. El modelo Batch, trabaja con que se llama Do File.



Esto se hace yendo a la pestaña de Window. Vemos que tenemos el Do Date... el Do File Editor. Y entonces, se nos hace y se nos abre una pantalla. Cuando nosotros hacemos esto, observamos que se nos abre una ventanita adicional con el editor. Esto es pues un fichero, un archivo de código asci, como si fuera de texto.

A continuación, nosotros le podemos decir grabar y entonces nos aparecerá una ventana, como podemos ver, que tendrá el formato Do File. Estos, como he dicho, son archivos que tienen como si fueran de texto, y que los podemos abrir en cualquier editor de texto. Se recomienda utilizar el bloc de notas.

Esto es, por lo tanto, un fichero en el que tenemos, como ejemplo, observamos que, tenemos todas las instrucciones y todos los comandos que utiliza el Stata. ¿Cómo se han ejecutado todas estas instrucciones y comandos? Podemos ver que con la opción de File y Do, entonces abrimos el fichero y irán apareciendo todas las instrucciones y comandos que hemos grabado y hemos generado en nuestra pantalla. Quiero remarcar, como podéis observar, que tenemos, cuando queremos hacer comentarios, se pone un asterisco delante. Por ejemplo ahí tenemos: Esto es un ejemplo de trabajar con un Do File. Edición: el descriptor.

Ponemos aquí el asterisco y vemos que ponemos el comando. Después tendremos: Queremos editar los datos. Y ponemos el comando. Es decir, todo aquello que empecemos la frase con un asterisco, son comentarios que estamos poniendo nosotros en general y, después, todos los comandos se ponen tal cual.

Nosotros podremos ejecutar este fichero a través de File y Do File. Y vemos que en la pantalla de resultados irán apareciendo todas las instrucciones y comandos que hemos introducido en el fichero Do File. Después, lo que haremos es, si el Stata comete un error, entonces él parará del ejecutar el Do File.

Podremos entrar en un editor de texto, cambiar el comando o la instrucción que nos hemos equivocado y volver a reiniciar. Bueno, pues espero que hayáis disfrutado con este... con esta elección. Y nos vemos pronto en las siguientes. Hasta luego.

Ficheros do

1.0 point possible (ungraded)
¿Qué son los ficheros .do (.do file)?

Ficheros log

Intrucciones

Hola soy de Adela Garcia-Aracil, en esta edición del módulo cuatro de análisis interpretación de datos, vamos a ver lo que son los ficheros log.

Hay dos formas de mostrar los resultados en esta tabla, en la pantalla de resultados y en los ficheros log. Los ficheros log lo que nos permite dar salidas a los resultados, donde resultados que en se irán almacenando de tal forma que eso nos va a permitir después poder ir haciendo y observar y dar un tratamiento diferente a los resultados. ¿Como se abre un fichero logs? Podemos ir al stata y le decimos en fail hacemos la opción log y le decimos begin. 
Cuando hacemos esto se nos abre una ventana adicional y entonces stata tiene dos formatos que permite almacenar los resultados el estándar que es smcl  o el de la terminación tirada en log la terminación de log lo que nos permite es que los resultados se almacene como si fuera un editor de texto es decir con código asci txt entonces os recomiendo que utilicéis las siempre log porque con esa tensión lo podrá abrir cualquier usuario independientemente que tiene instalado su ordenador el stata o no. Si ya habéis creado un fichero logs anteriormente entonces el stata dará un aviso, una ventana y os dirá vamos a ver si queréis hacer con ese fichero lo queréis ver solamente leerlo queréis continuar trabajando con el, o lo que es hacer es reescribirlo que les borrarlo porque habéis hecho o habéis escrito comando instrucciones y os han dado unos resultados que nos ha gustado. 
Entonces lo podéis rescribir en necesario irse al explorador y cerrar y borrar etcétera. Stata te que estas facilidades, cuando queremos hacer un, os voy a poner un ejemplo de una tabla como tenéis aquí de tenemos aquí o en la base de datos con la que estamos trabajando todo lo que tenemos los países y distribución de género entre hombres y mujeres claro si yo esto lo hago de forma interactiva los resultados me sale aquí pero como le pasó yo estoy un compañero este resultado copio y pego y después aquel ve o si no ve o se desconfigura la tabla la forma de hacer esto es a través de un fichero logs.

Lo que haríamos sería abrir el fichero log y entonces si los resultados están grabando en ese fichero,
yo le digo la opción de view y al dar la opción view, vemos que está todo lo que nosotros hemos ejecutado incluso resultado de la tabla. 
Este fichero sólo puede pasar a cualquier compañero y el mismo lo puede observar y no estoy copiando y pegando y es configurando los resultados. Incluso esta tabla se puede abrir en Excel de tal forma que como tiene delimitados los campos en este caso por espacios perfectamente la puede permitir en excel y lo tenéis que está tecleando manualmente.

¿Que se puede ver con el fichero log? Pues o se cierra o se puede suspender las dos opciones que tenéis, entonces es un fichero con una extensión que te da opciones muy buenas para poder ir acumulando los resultados que vamos obteniendo de stata.

Pues lo dicho me podéis encontrar en los foros para cualquier consulta que tengáis, gracias.

Ficheros log

1.0 point possible (ungraded)
La instrucción capture log close ¿qué ejecuta?

Comando "generate"

Transcripción

Hola soy Adela Garcia-Aracil, nos encontramos en esta lección del módulo cuatro que va a versar sobre el comando Generate,  el comando gnerate lo que hace es analizar los datos y una forma de analizarlo es creando o definiendo variables nuevas. En stata la forma de crear esa variable nueva es a traves de generate la sintaxis básica que tenemos es generate ponemos la variable nueva y igualada a una expresión que queremos generar. La abreviatura de generate es gen si ponemos o tecleamos el comando gen es el mismo que generate si ponemos en esta el comando ayuda y ponemos a continuación la palabra gen o generate.

Nos sale toda la sintaxis del generate para crear variables nuevas e incluso nos poner hasta ejemplos. Vemos que a una forma de hacer esto también la utilizando las ventanas que nos pone le stata es a través data crear o cambiar une data y entonces tenemos aquí fijaros crear nueva variable. Esto lo podemos hacer y os continuo enseñando el generate tiene donde vemos que a la parte final es donde nos poner los diferentes ejemplos para poder crear una nueva variable, por si vamos un poco despistados o no conocemos el comando en cuestión. Os voy a poner diferentes expresiones que se pueden utilizar para cuando uno crea una variable, pueden ser por la suma de dos variables o la resta dos variables o la multiplicación división o una potencia asimismo pueden ser expresiones con una operadores lógicos. Como es el O e Y o también puede ser relacionales el mayor que, o menor que, mayor o igual que, el menor o igual que, el igual que, fijaros que hay dos iguales no es que sea una variable es igual que la otra y pongamos un signo igual fijaros que hay dos y distinto que le asigna admiración y el el igual.

Os voy a poner un ejemplo fijaros aquí si utilizando de nuevo tenemos aquí por ejemplo si decimos un tag de género, vemos que nos da los resultados de la la distribución de género entre hombres mujeres y valores misin tal como la observamos no sabemos qué valor tiene el nombre que valor tienen la mujer y los misin como están como ha sido categorizados esta variable.

Entoces ponemos el código de la variable género y nos damos cuenta que tenemos que el valor uno hace referencia a un hombre y valor dos mujer y que los valores mishi están codificados con el valor
número nueve. Entoces está ya nos da una idea de cómo está codificada esta variable, si nosotros queremos utilizar la variable genero al hace un estadístico o valores descriptivos, lo que tenemos que hacer es darle una definición diferente por ejemplo, imaginemos que queremos crear una variable dicotómica con valores enteros uno y cero puedo generar entonces una variable de mujer que le digo que tiene el valor misin.

Y le digo bueno toma valor uno si el la variable de género es igual a dos sustituye el valor de la mujer que es el yo generado una variable dicotómica igual a cero, si el valor de género de antes de la variable antes es igual a uno, puedo crear otra variable con la variable edad al cuadrado, por ejemplo, yo que una variable nueva que se llama egea dos y lo que hago es, cojo la variable edad y la elevó la potenciados puede hacer exactamente lo mismo la misma expresión pero decir bueno en vez de poner la a la potencia al cuadrado, la algo multiplicado por dos veces también puede tener una variable con el comando gen diciendo que o restrgiendo a un determinado campo de la base de datos. 
Por ejemplo vamos a crear la variable edad pero solamente para el caso de españa pongo una variable nueva, la edad y le pongo if que la condicional si cntry país es igual a españa acuerdo entonces estos serían los resultados del ejemplo que ha supuesto anterior con la variables edades a la potencia al cuadrado. Y yo puedo hacer con el comando por aquí lo tenéis comparar, lo que puedo decir es comparar las dos variables que creado. Entoces aquí nos han unos resultados en los que nos dice si hay igualdades entre las dos variables y sus diferencias observamos en este caso que hay iguales entre ellas.

Asimismo otra forma de ver todas las variables que hemos creado si yo creo fijaros, este ejemplo, aquí una variable de edad pero yo le pongo delante de lo que es la opción int vale que es que solamente considerar los valores integrados si después digo compararme la variable edad primera con esta que generado por la opción int observáis que ahora que me dice que sí que valores que coinciden pero hay otros que no coinciden. Esos que no coinciden son los mis varios sólo el tratamiento de los valores perdidos que después ya más adelante veremos con un poco más detenimiento y finalmente aquí al final de los está tabla.

Vemos que si yo le hago para comprobar los resultados de las diferentes variables que creado de la variable edad, me fijo como sum le como el inicio de las variables sean iguales le con un asterisco en todo el uno dos tres y tal, me saca todas las variables. Como podéis ver aquí abajo todas las variables que tienen el mismo inicio, de acuerdo y es cuando nos damos cuenta que en algunas de ellas que se han recogido los valores missin y en otras no. Se han excluido como aquella que termina en número cuatro, entonces una vez definidas todas las variables algunas de ellas las podemos mantener la base de datos u otras decimos bueno esto son pruebas que hecho y la verdad es que no quiero que se queden en las bases de datos que hago pues las borro el comando para borrarlas las diferentes variables que hemos generado porque no nos gustan es a través del el drop.

Entonces pues imaginaros en este caso y en este ejemplo que hemos visto en esta sección borrariamos la variable male, female, el dato al cuadrado, la edad que la hemos hecho la potencia al cuadrado también y todas las demás. Bueno pues con esto hemos visto cómo se genera una variable nueva, como se puede modificar y como podemos borrarlas si no nos interesa la misma. Muchas gracias y estamos en contacto.

Comando "generate"

1.0 point possible (ungraded)
¿Cuál sería la expresión para generar una variable que recoja la suma acumulada de otra variable?

Comando "egen"

Transcripcion

Hola soy Adela Garcia_Aracil, en esta lección vamos a ver lo que es el comando egen, en el comando egen es una extensión del comando generate, egen es una familia de funciones que también sirve para
crear nuevas variables con múltiples posibilidades.

La sintaxis básica la tenéis aquí es egen nueva variable entonces igualo a una función de una variable ya existente. Si ponemos en stata con el comando get la palabra egen ya sé que esto es ilegible pero lo que quiero que veais que siempre el stata os proporciona, de cada uno de los comandos la sintaxis básica. Pospone cuadro diferentes descriptores y como se dice que funciones hace y después esos ponen ejemplos como podéis ver aquí esto lo dividido en dos, para que diera solamente lo que era que es lo que hace a stata cuando uno de ofrecer comando ayuda de un comando. ¿Como se puede ejecutar el comando egen?

Esto lo vamos a hacer también otra forma es yendo a la opción data creamos o cambiamos data y lo que hacemos es crear una nueva variable. Acordaros que el que una variable que era la opción primera era para el generate y ahora lo que vamos a hacer es el egen, lo que hace es es una extensión de generate.

Cuando hacemos estos nos amplia se nos abre una ventana que hay lo que nos permite es introducir
que funciones queremos que defina, el nuestra variable nueva que vamos a crear de otra ya existente. 
Permitidme os pongo un ejemplo continuando con el ejemplo de la edad aquí tenemos generamos la variable edad al cuadrado y acordaros cuando antes puesto el ejemplo como podemos ver aquí en esta parte de aquí, que ponemos la opción int delante de la variable nueva que definimos como edad tres.
Si yo ahora ejecuto el comando egen y le digo calculame la diferencia, que hay entre la variable
al cuadrado edad dos, como veis aquí. 
Y la variable que yo le puesto delante y le puesto la opción int ¿que observamos? si yo digo sácame los resultados en una tabla de la variable diferencias entre la edad al cuadrado y la que yo he llamado tres observamos aquí en esta tabla los resultados ¿que nos damos cuenta? que los valores que marca como cero es porque son iguales entre las dos variables, pero el que es igual a uno está recogiendo los misin varios.

La varible de origen habían ciento treinta y tres casos de personas que no habían contestado la edad que tenían, de acuerdo, si yo defino la edad al cuadrado no como ninguna opción pues el va multiplicando todos los valores siempre que esté codificado los misin valours como novecientos noventa y nueve.

En cambio si le digo coge me solamente los valores enteros entonces los mis males quedan descartados y por eso la diferencia entre una variable y otra son los misin varios que podemos ver aquí.

Esto lo podemos ver que hacemos una comprobación a través de la edición de la estas variables fijaros aquí está la variable edad original.Vemos que para un un valor misin fijaros cuando yo definido la variable al cuadrado como valor misin me lo ha hecho la potencia al cuadrado cuando yo le puesto el ejemplo y la opción del int delante de la variable, como me ha respetado valor misin me acuesto un punto.

Y después cuando yo definido la variable diferencia con el egen, como valores que coincide vemos que es cero pero cuando hay una cosa que llama la atención nos ha puesto el valor uno. Podemos ver otros casos y otros ejemplos como la variable genero aquí tenemos la variable de origen en la distribución de hombres y mujeres y los valores misin. Imaginaros que quiero generar una variable dicotómica que le llamo hombre male y qué digo que va a ser igual a uno cuando la variable de género toma valor uno y que me va a valer cero en caso contrario, cuando se valor de mujer.

Si yo hago aquí y muestro los datos de la tabla observamos que los valores misin están excluidos tal como definido incluso lo compruebo con la opción coint. Cuentas si en la variable male y hay valores misin me sacar resultado de diecisiete. Os pongo otro ejemplo siguiendo con el caso de la distribución entre hombres y mujeres en la base de datos imágenes que ahora defino la variable dicotómica de hombre igual a cero directamente y le digo que me sustituya como valor uno cuando la variable inicial toma valor uno. Si yo muestro los resultados aquí lo podemos ver en esta tabla que me de cuenta que los valores misin están englobados donde el valor cero esto es un error.

Y de hecho si yo hago la comparación con el comando egen entre como definido antes la variable dicotómica hombre y como la definido aquí me dice que justamente ambas variables coinciden en todos los casos de valor cero excepto los misin válidos que tenemos los diecisiete tal como ya sabíamos anteriormente.

Entonces el comando egen es muy valioso para generar funciones de variables ya existentes hay que ir con cuidado. Hay que ir con cuidado cuando hacemos la función sum de sumar con los comandos gen y con el comando egen incluso pueden confundirse aquí se ha puesto una tabla de ejemplo.
Fijaros si yo tengo una variable original que es la variable a tal como podemos aquí, si yo genero la variable uno como la suma de la variable inicial y utilizar el comando eguen como vemos aquí y le digo que es la variable dos vemos que hay diferencia entre una y la otra. En la variable uno que está definida con el comando gen lo que hace es sumar acumuladamente en cada una de las filas los valores de la variable inicial que es a. En cambio con egen en lo que vemos es que nos está sacando
ya el valor total de toda la variable a.

Bueno pues estas extensiones de egen en que es de genere aquí con cuidado con ellas tiene muchas utilidades y podemos ir extendiendonos vamos a lo largo de cursos sobre ellas, pues cualquier consulta que sabe donde podéis encontrarme. Gracias.

 

Comando "egen"

0/1 point (ungraded)
¿Cuál sería la expresión para generar la media de todas las observaciones de una variable?
 
      egen salariopromedio=promedio(salario) if (age>=16 & age<=65)

Reemplazar valores

Transcripcion
Hola, soy de Adela Garcia-Aracil, ahora empezamos la lección seis dentro del módulo cuatro, que sobre cómo reemplazar valores en las variables existentes utilizando stata.

Con stata podemos o encontrar dos comandos el replace y replace vamos a ver empezamos con el replace funciona igual que el comando generate, pero en lugar de crear nuevas variables lo que hace es reemplazar los valores de las variables ya existentes.

La sintaxis básica vemos que es replace, el nombre de la variable nueva el valor nuevo que queremos darle, si se cumple una expresión o reemplazar el nombre de la variable, el nuevo valor que queremos dentro de un rango entre uno y diez, por ejemplo. Cuando utilizamos el comando replace stata nos va informando del número de observaciones que se han ido modificando, aqui os pongo un ejemplo utilizando de nuevo la base de datos de la europea social service.

En este caso vamos a coger la variable estado civil, vemos que está codificada de una forma, de tal forma que hicimos bueno no se, vemos el rango de valores en la que se distribuye esta variable. Con la opción codebook del nombre y el nombre de la variable observamos como esta variables, va del rango uno hasta el rango que tenemos aquí Don`t known y No answer que son están codificadas de otra forma valores como podemos ver setenta y siete, ochenta y ocho, y veinte y nueve, bien vamos a cambiar los valores de esta variable porque tenemos algunos que no nos gustan.

Para eso ya sabemos generamos una variable nueva le llamamos married y lo que hacemos es decirle, vamos a generar de valores diferentes quiero que coja el valor uno si la variable original va a entre uno y dos, quiero que me tome el valor dos si la variable original va entre tres y cuatro, que sea igual a tres si la variable original es igual cinco, y finalmente que tome el valor cuatro la nueva variable que hemos creado si la original toma el valor seis.

Hacemos un tab de la variable nueva que hemos creado y nos saca estos resultados que observamos. ¿Que vemos? Esta nuestra variable nueva que hemos definido y esta es la que teníamos originalmente. Observamos comprobamos que efectivamente fijaros el valor uno corresponde a valor uno y dos de la variable original.

Que valores de la nueva variable que hemos creado no aparecen de la que si que existía en la variable original. ni más ni menos nos hemos dejado fuera, cuando han contestado, han rechazado predecir los sujetos que han contestado la encuesta no ha querido contestar hay o no los habían, vamos nos habían es porque no han sido contestar o ha habido un misin, un valor perdido no han querido contestar.

Entonces nuestra variable estos tres valores los hemos dejado fuera no nos interesa para analizar qué podemos hacer. Cualquiera que nosotros hemos creado la variable sabemos que valores ha cogido uno dos tres y cuatro, pero un usuario de fuera dice qué valores es uno dos tres cuatro. Podemos generar etiquetas para esta variable que hemos generado.
Esto se hace con el comando label, decimos label nombre de variable que hemos llamado married y quiero llamar estado civil y ahora le voy a dar valores y etiquetas al uno, dos, tres y cuatro, que hemos definido, ¿Y esto como se hace? Le ponemos también la el comando label define entonces le digo unas etiquetas y quiero que me cojas para número uno le vas a llamar casado, para dos separado o divorciado, para tres viudo y para cuatro por voy a decir que son solteros.

Entonces después lo que hago es asignarle, estas etiquetas entre la variable que creado y como la codificado y si fijaros que hacemos otra vez un tab de la variable married ha cambiado la apariencia aquí tenemos uno, dos, tres y cuatro. Ya aquí nos pone ya como podemos comprobar estado civil casado, separad,o viudo o soltero. De nuevo vemos que los missin no nos aparecen tal como las hemos generado.

Otra forma de poder reemplazar valores en las variables existente es a través del comado replace, este también reemplaza los valores de la variable determinada. Volviendo a nuestro ejemplo que teníamos con el estado civil fijaros que si yo pongo aquí, recode y entonces genera una variable y le digo mirar, para los valores uno y dos de la variable original, le voy a llamar uno y quiero que me llames married o civil union con lo puesto en inglés para que veáis la diferencia entre el replace y recode, entre tres y cuatro que es sea valor dos y pone la etiqueta se parado divorciado, para los valores cuatro tenemos los viudos y después ya tenemos los no casados o solteros y hemos puesto una coma, y fijaros lo que está aquí en circulito que le digo y genérame una variable nueva decir estoy generando la codificación poniendo etiquetas y además genera una variable nueva que el llamado marriedr dr. Si yo muestro los valores con el tab de esta variable nueva que generado que observamos pues realmente me ha codificado, como yo he querido los valores uno, dos, tres y cuatro de la variable original. 
Pero atentos, fijaros como nos siguen apareciendo cosa que antes no los valores missin, la gente que no había contestado, la gente que ha rechazado y las que han pasado de ella de acuerdo. Esta es la diferencia entre el replace y el recode. Hacen lo mismo pero según tratamiento o las opciones que nosotros pongamos obtenemos resultados u otros, pues bueno cualquier cosa cualquier duda que tenga sobre esto, me podéis encontrar en los foros y seguimos en las siguientes elecciones. Gracias.

Reemplazar valores

1.0 point possible (ungraded)
¿Qué comandos podemos utilizar para reemplazar los valores de las variables?

Ordenación de datos

Transcripcion

Hola, soy Adela Garcia_Aracil, en esta elección del módulo cuatro vamos a ver lo que son la ordenación de datos. Para ordenar datos en stata hay tres comandos el comando sort el comando wail y el comando orden. Vamos a verlos con detenimiento en esta lección. El comando sort normalmente las bases de datos están ordenadas por algunas variables sino que nos interesa ordenar por una variable en concreto, lo que haré utilizaremos será el comando sort imaginemos, ahi he puesto un ejemplo que queremos ordenar por la variable género y por la variable edad.

Esto se haría poniendo sort tiende a ni entonces lo que hace este comando es estaría ordenando los datos por género dicide entre hombres mujeres y dentro de cada grupo por edades esto se puede hacer con el está ta viendo la opción hay fichero vemos que está la opción sort y nos dice si lo queremos hacer en orden ascendente o descendente lo que queremos ordenar. 
Cuando queremos hacer una unión de base de datos el comando sort es muy bueno normalmente queremos unir dos bases de datos siempre tiene que haber una variable al menos una que esté repetidas en ambas bases de datos. Esta variable se suele llamar la variable identificador dentro de nuestro caso de ejemplo, que estamos utilizando la european socail service esta variable se llama idno el identificador de cada uno de los registros.

¿Como se unen dos bases de datos? Pues imaginemos tenemos una base de datos que hemos llamado aquí en el ejemplo dos.dta Stata la llama using data set y lo que hacemos es primero de todo ordenarla por el identificador.

Sería sort id lo que hacemos una vez caso de los datos los es guardarlos, para que la base de datos se guarde ordenada y que después cuando queramos unirla con la base de datos inicial o lo que llama stata master data set. Entonces como ya está ordenada por sort id va a permitir que se haga esa unión en la base de datos.

En la base de datos uno, la master lo que hacemos es lo mismo lo que hacemos es ordenar la por la misma variable que hemos ordenado la anterior y después ya ponemos el comando merge que es unir y fijaros como digo une con el identificador y de usando también decir que con qué base de datos va a utilizar.

La que hemos puesto aquí en el ejemplo con dos.dta 
Cuando hacemos la unión de la base de datos entonces lo que nos dice stata nos genera una variable que se llama merge. Entonces esta variable merge tomará los siguientes valores, el valor uno
cuando la observación está sólo en la variable inicial, la que está considerada como master.

Tomará el valor dos cuando la observación está sólo en la using dataset se elegir la que nosotros hemos llamado dos de la segunda base de datos y tomará el valor tres cuando la observaciones están en ambas bases de datos.

Por lo tanto el comando sort nos permite generar ordenar perdón los loros las variables y además
se utiliza mucho cuando hacemos unión de bases de datos. Otro comando que nos permite ordenar las observaciones por grupos, en este caso el comando by si nosotros ponemos el held en la ayuda el by nos dice cómo se hace la sintaxis, y yo aqui os he puesto un ejemplo. Imaginaros que queremos
generar el ejemplo de agrupar el nivel de estudios entre o mostrarlo por hombres y mujeres. Lo que hacemos es primero ordenamos por género y después decimos, por género by gndr muéstrame el nivel educativo y fijaros resultados nos sale para los hombres en nivel educativo y para el grupo de las mujeres su nivel educativo.

De acuerdo esto se hace con el comando by y el último comando que tiene stata para ordenar variables es el comando orden, el comando order lo que hace es que nos ayuda a inspeccionar la base de datos que queremos que tenga otra apariencia. Vemos que las variables de datos suelen tener perdón, la base de datos suele tener muchas variables y hay algunas que miras utilizamos porque no nos interesa para el problema o proyecto investigación que estamos haciendo.

Y lo que nos interesa es ver las primeras que son las que más estamos utilizando por ejemplo nosotros que es en los ejemplos que ha sido poniendo estamos utilizando más la variable país, la variable género, la variable educación, el estado civil. Entonces yo puedo decir al stata ordename las variables por este orden y entonces el stata nos  mostrará la información como nosotros hemos indicado. Primero veremos la variable el identificador luego el país, de su género así, etcétera, etcétera, etcétera.

El comando help nos da también una visión de cómo se utiliza este comando que podemos utilizar perfectamente y las ventajas. Y fijaros para el ejemplo que os he puesto como cuando yo hago el edit que nos muestre los datos como si estuviéramos en una hoja de excel primero nos muestra la columna que identificador el país, la variable género, etcétera, etcétera, como nosotros hemos sido mostrando.

Pues bueno estos son los tres comandos que se utiliza en stata para la ordenación de datos. El order, el by, el sort, espero que os haya sido de utilidad y cualquier sugerencia me podéis encontrar en los foros. Gracias.

Ordenación de datos

1.0 point possible (ungraded)
¿Qué comando nos permitiría ver las variables ordenadas de una base de datos como a nosotros mejor nos acomode?

Tratamiento missing values

  Transcripcion

Hola, soy Adela Garcia-Aracil, en este vídeo vamos a ver la lección ocho que se tratamiento de los valores misin dentro del módulo cuatro de análisis e interpretación de datos. ¿Que son los valores missing? A veces nos encontramos en las bases de datos que nos falta información.

Puede ser porque ha habido un registro defectuoso de la información, puede ser porque hay una falta de respuesta a las preguntas del encuestador o ausencia natural de la información, porque puede ser
que hay quien está haciendo la comparación entre diferentes países queremos recoger un tipo de información, y aún país por ejemplo pues no encuentras esa información y esa ausencia se codifica como un valor missing. Esto lo que se conoce se registra en las bases de datos como valores perdidos o en anglo sajon missing.

Missing valures en stata se señala mediante un punto se considera missing valures es mayor que cualquier valor y eso hay que ir con cuidado. Por ejemplo si yo le digo la expresión que recoge todas aquellas observaciones donde la edad sea mayor que sesenta y yo no digo nada, más todos los valores missing quedarán también recogidos porque se considera que es un valor mayor a cualquier valor.

Para excluir esos valores missing lo que lo podemos hacer es ese indicarlo de esta forma. Por ejemplo genera una variable salario e ingreso que se igual salario para aquellos cuya edad sea mayor o igual que dieciséis y ojito que el valor de edad sea menor que el valor missing, así escribiremos los valores missing, otra forma de hacerlo es decir genérame la variable ingreso que sea igual salario.

Si el grupo de edad es mayor o igual que dieciséis y la edad tiene o toma valor distinto fijaros distinto al valor missing. Los valores missing para variables que sean alfanuméricas de caracteres se señalan por lo que es el blank entre comillas, vale. También stata nos puede o nos condiciona valores missing o asigna valores mesinng cuando estamos generando una variable y no se cumple la condición podemos puesto detrás del en este caso del comando o no.

O de la opción if, es decir, si gereamos una variable que le decimos que es igual, a un este caso. A división en una variable con la otra con respecto a la otra, si esa variable toma el valor igual a uno,
para aquellas observaciones registro donde no se está cumpliendo la condición stata les ignara un valor missing. Hay que también hay que tener también cuidado cuando definimos una variable a partir de otra ya existente y esa variable original ya contiene ella misma missing valures.

Por ejemplo los casos que hemos visto la variable género de la european social service, observamos que tenía valores missing que la variable género si nosotros generamos una variable dicotómica que queremos que tome valores cero y uno.

Vemos en esta tabla que no es lo mismo la columna de la derecha, que la columna de la izquierda. Si yo señalo aquí genera una variable que se llame male igual a cero y le digo que me sustituya igual a uno cuando la variable original de la base de datos es igual a uno no es lo mismo que si yo le digo generame una variable.

Pero ojo ten en cuenta los valores missing y sustituye valor uno cuando es hombre y valor cero cuando sea mujer. Aquí a los missing le hemos dado de la variable original a los valores missing de la variable original le hemos dado valor cero, estamos cometiendo un error.

En cambio aquí a los valores mising de la breve original de género los hemos reconocido y cuando hagamos estadísticas o descriptivos los va a mantener como missing valures y nos va hacer y generarse los en nuestros resultados. Otras veces en las bases de datos lo que han hecho y lo que se hace es codificar los valores missing por valores como nueve, nueve nueve, novecientos noventa y nueve, según el formato de la extensión de la variable.

Como estos valores nos pueden estar molestando nosotros podemos recodificar ¿Como? Le ponemos aquí recode la variable nueve nueve nueve igual a missing, entonces en stata nos transforma todos esos valores que están codificados como el nueve nueve nueve nueve etcétera. Como puntos que es el tratamiento que le da de stata para los valores missing por lo dicho con todo esto terminamos esta lección. Y espero que hayáis a aprendido algunos conceptos básicos con el análisis e interpretación de datos. Cualquier cosa me tenéis en los foros.

Tratamiento missing values

1.0 point possible (ungraded)
¿Cómo podemos observar que una variable contiene missing values?

Examen unidad 4

1.0 point possible (graded)
Un fichero do de Stata nos permite
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
Un fichero do de Stata puede utilizarse
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
Un fichero log de Stata sirve para
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
¿Qué comando utilizamos para definir una nueva variable en Stata?
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
Si encontramos valores perdidos (missing values) en una base de datos
unanswered
You have used 0 of 2 attempts

Módulo 4: Análisis e Interpretación de Datos

Presentación módulo 4

 

Ficheros do

 Transcripción

En esta lección del módulo cuatro, vamos a ver lo que son los ficheros Do. Hay dos formas de trabajar en Stata, el modelo Interactivo y el modelo Batch.

En el modelo Interactivo, tenemos aquí todo lo que es la pantalla del Stata. Hemos cargado una base de datos, y lo que vemos es que tenemos las cinco ventanas, como hemos comentado siempre, y lo que pasa es que en el modo interactivo trabajamos, donde podemos ver que, le ponemos aquí los comandos y nos sale los resultados en la pantalla.

Sin guardar ningún resultado de ningún comando. En el modelo Batch, lo que nos pasa es que podemos estar grabando las instrucciones y los comandos del Stata, de tal forma que eso nos va a permitir agilizar después, a la hora de poder ejecutar los resultados que queremos ver y analizar los datos. El modelo Batch, trabaja con que se llama Do File.



Esto se hace yendo a la pestaña de Window. Vemos que tenemos el Do Date... el Do File Editor. Y entonces, se nos hace y se nos abre una pantalla. Cuando nosotros hacemos esto, observamos que se nos abre una ventanita adicional con el editor. Esto es pues un fichero, un archivo de código asci, como si fuera de texto.

A continuación, nosotros le podemos decir grabar y entonces nos aparecerá una ventana, como podemos ver, que tendrá el formato Do File. Estos, como he dicho, son archivos que tienen como si fueran de texto, y que los podemos abrir en cualquier editor de texto. Se recomienda utilizar el bloc de notas.

Esto es, por lo tanto, un fichero en el que tenemos, como ejemplo, observamos que, tenemos todas las instrucciones y todos los comandos que utiliza el Stata. ¿Cómo se han ejecutado todas estas instrucciones y comandos? Podemos ver que con la opción de File y Do, entonces abrimos el fichero y irán apareciendo todas las instrucciones y comandos que hemos grabado y hemos generado en nuestra pantalla. Quiero remarcar, como podéis observar, que tenemos, cuando queremos hacer comentarios, se pone un asterisco delante. Por ejemplo ahí tenemos: Esto es un ejemplo de trabajar con un Do File. Edición: el descriptor.

Ponemos aquí el asterisco y vemos que ponemos el comando. Después tendremos: Queremos editar los datos. Y ponemos el comando. Es decir, todo aquello que empecemos la frase con un asterisco, son comentarios que estamos poniendo nosotros en general y, después, todos los comandos se ponen tal cual.

Nosotros podremos ejecutar este fichero a través de File y Do File. Y vemos que en la pantalla de resultados irán apareciendo todas las instrucciones y comandos que hemos introducido en el fichero Do File. Después, lo que haremos es, si el Stata comete un error, entonces él parará del ejecutar el Do File.

Podremos entrar en un editor de texto, cambiar el comando o la instrucción que nos hemos equivocado y volver a reiniciar. Bueno, pues espero que hayáis disfrutado con este... con esta elección. Y nos vemos pronto en las siguientes. Hasta luego.

Ficheros do

1.0 point possible (ungraded)
¿Qué son los ficheros .do (.do file)?

Ficheros log

Intrucciones

Hola soy de Adela Garcia-Aracil, en esta edición del módulo cuatro de análisis interpretación de datos, vamos a ver lo que son los ficheros log.

Hay dos formas de mostrar los resultados en esta tabla, en la pantalla de resultados y en los ficheros log. Los ficheros log lo que nos permite dar salidas a los resultados, donde resultados que en se irán almacenando de tal forma que eso nos va a permitir después poder ir haciendo y observar y dar un tratamiento diferente a los resultados. ¿Como se abre un fichero logs? Podemos ir al stata y le decimos en fail hacemos la opción log y le decimos begin. 
Cuando hacemos esto se nos abre una ventana adicional y entonces stata tiene dos formatos que permite almacenar los resultados el estándar que es smcl  o el de la terminación tirada en log la terminación de log lo que nos permite es que los resultados se almacene como si fuera un editor de texto es decir con código asci txt entonces os recomiendo que utilicéis las siempre log porque con esa tensión lo podrá abrir cualquier usuario independientemente que tiene instalado su ordenador el stata o no. Si ya habéis creado un fichero logs anteriormente entonces el stata dará un aviso, una ventana y os dirá vamos a ver si queréis hacer con ese fichero lo queréis ver solamente leerlo queréis continuar trabajando con el, o lo que es hacer es reescribirlo que les borrarlo porque habéis hecho o habéis escrito comando instrucciones y os han dado unos resultados que nos ha gustado. 
Entonces lo podéis rescribir en necesario irse al explorador y cerrar y borrar etcétera. Stata te que estas facilidades, cuando queremos hacer un, os voy a poner un ejemplo de una tabla como tenéis aquí de tenemos aquí o en la base de datos con la que estamos trabajando todo lo que tenemos los países y distribución de género entre hombres y mujeres claro si yo esto lo hago de forma interactiva los resultados me sale aquí pero como le pasó yo estoy un compañero este resultado copio y pego y después aquel ve o si no ve o se desconfigura la tabla la forma de hacer esto es a través de un fichero logs.

Lo que haríamos sería abrir el fichero log y entonces si los resultados están grabando en ese fichero,
yo le digo la opción de view y al dar la opción view, vemos que está todo lo que nosotros hemos ejecutado incluso resultado de la tabla. 
Este fichero sólo puede pasar a cualquier compañero y el mismo lo puede observar y no estoy copiando y pegando y es configurando los resultados. Incluso esta tabla se puede abrir en Excel de tal forma que como tiene delimitados los campos en este caso por espacios perfectamente la puede permitir en excel y lo tenéis que está tecleando manualmente.

¿Que se puede ver con el fichero log? Pues o se cierra o se puede suspender las dos opciones que tenéis, entonces es un fichero con una extensión que te da opciones muy buenas para poder ir acumulando los resultados que vamos obteniendo de stata.

Pues lo dicho me podéis encontrar en los foros para cualquier consulta que tengáis, gracias.

Ficheros log

1.0 point possible (ungraded)
La instrucción capture log close ¿qué ejecuta?

Comando "generate"

Transcripción

Hola soy Adela Garcia-Aracil, nos encontramos en esta lección del módulo cuatro que va a versar sobre el comando Generate,  el comando gnerate lo que hace es analizar los datos y una forma de analizarlo es creando o definiendo variables nuevas. En stata la forma de crear esa variable nueva es a traves de generate la sintaxis básica que tenemos es generate ponemos la variable nueva y igualada a una expresión que queremos generar. La abreviatura de generate es gen si ponemos o tecleamos el comando gen es el mismo que generate si ponemos en esta el comando ayuda y ponemos a continuación la palabra gen o generate.

Nos sale toda la sintaxis del generate para crear variables nuevas e incluso nos poner hasta ejemplos. Vemos que a una forma de hacer esto también la utilizando las ventanas que nos pone le stata es a través data crear o cambiar une data y entonces tenemos aquí fijaros crear nueva variable. Esto lo podemos hacer y os continuo enseñando el generate tiene donde vemos que a la parte final es donde nos poner los diferentes ejemplos para poder crear una nueva variable, por si vamos un poco despistados o no conocemos el comando en cuestión. Os voy a poner diferentes expresiones que se pueden utilizar para cuando uno crea una variable, pueden ser por la suma de dos variables o la resta dos variables o la multiplicación división o una potencia asimismo pueden ser expresiones con una operadores lógicos. Como es el O e Y o también puede ser relacionales el mayor que, o menor que, mayor o igual que, el menor o igual que, el igual que, fijaros que hay dos iguales no es que sea una variable es igual que la otra y pongamos un signo igual fijaros que hay dos y distinto que le asigna admiración y el el igual.

Os voy a poner un ejemplo fijaros aquí si utilizando de nuevo tenemos aquí por ejemplo si decimos un tag de género, vemos que nos da los resultados de la la distribución de género entre hombres mujeres y valores misin tal como la observamos no sabemos qué valor tiene el nombre que valor tienen la mujer y los misin como están como ha sido categorizados esta variable.

Entoces ponemos el código de la variable género y nos damos cuenta que tenemos que el valor uno hace referencia a un hombre y valor dos mujer y que los valores mishi están codificados con el valor
número nueve. Entoces está ya nos da una idea de cómo está codificada esta variable, si nosotros queremos utilizar la variable genero al hace un estadístico o valores descriptivos, lo que tenemos que hacer es darle una definición diferente por ejemplo, imaginemos que queremos crear una variable dicotómica con valores enteros uno y cero puedo generar entonces una variable de mujer que le digo que tiene el valor misin.

Y le digo bueno toma valor uno si el la variable de género es igual a dos sustituye el valor de la mujer que es el yo generado una variable dicotómica igual a cero, si el valor de género de antes de la variable antes es igual a uno, puedo crear otra variable con la variable edad al cuadrado, por ejemplo, yo que una variable nueva que se llama egea dos y lo que hago es, cojo la variable edad y la elevó la potenciados puede hacer exactamente lo mismo la misma expresión pero decir bueno en vez de poner la a la potencia al cuadrado, la algo multiplicado por dos veces también puede tener una variable con el comando gen diciendo que o restrgiendo a un determinado campo de la base de datos. 
Por ejemplo vamos a crear la variable edad pero solamente para el caso de españa pongo una variable nueva, la edad y le pongo if que la condicional si cntry país es igual a españa acuerdo entonces estos serían los resultados del ejemplo que ha supuesto anterior con la variables edades a la potencia al cuadrado. Y yo puedo hacer con el comando por aquí lo tenéis comparar, lo que puedo decir es comparar las dos variables que creado. Entoces aquí nos han unos resultados en los que nos dice si hay igualdades entre las dos variables y sus diferencias observamos en este caso que hay iguales entre ellas.

Asimismo otra forma de ver todas las variables que hemos creado si yo creo fijaros, este ejemplo, aquí una variable de edad pero yo le pongo delante de lo que es la opción int vale que es que solamente considerar los valores integrados si después digo compararme la variable edad primera con esta que generado por la opción int observáis que ahora que me dice que sí que valores que coinciden pero hay otros que no coinciden. Esos que no coinciden son los mis varios sólo el tratamiento de los valores perdidos que después ya más adelante veremos con un poco más detenimiento y finalmente aquí al final de los está tabla.

Vemos que si yo le hago para comprobar los resultados de las diferentes variables que creado de la variable edad, me fijo como sum le como el inicio de las variables sean iguales le con un asterisco en todo el uno dos tres y tal, me saca todas las variables. Como podéis ver aquí abajo todas las variables que tienen el mismo inicio, de acuerdo y es cuando nos damos cuenta que en algunas de ellas que se han recogido los valores missin y en otras no. Se han excluido como aquella que termina en número cuatro, entonces una vez definidas todas las variables algunas de ellas las podemos mantener la base de datos u otras decimos bueno esto son pruebas que hecho y la verdad es que no quiero que se queden en las bases de datos que hago pues las borro el comando para borrarlas las diferentes variables que hemos generado porque no nos gustan es a través del el drop.

Entonces pues imaginaros en este caso y en este ejemplo que hemos visto en esta sección borrariamos la variable male, female, el dato al cuadrado, la edad que la hemos hecho la potencia al cuadrado también y todas las demás. Bueno pues con esto hemos visto cómo se genera una variable nueva, como se puede modificar y como podemos borrarlas si no nos interesa la misma. Muchas gracias y estamos en contacto.

Comando "generate"

1.0 point possible (ungraded)
¿Cuál sería la expresión para generar una variable que recoja la suma acumulada de otra variable?

Comando "egen"

Transcripcion

Hola soy Adela Garcia_Aracil, en esta lección vamos a ver lo que es el comando egen, en el comando egen es una extensión del comando generate, egen es una familia de funciones que también sirve para
crear nuevas variables con múltiples posibilidades.

La sintaxis básica la tenéis aquí es egen nueva variable entonces igualo a una función de una variable ya existente. Si ponemos en stata con el comando get la palabra egen ya sé que esto es ilegible pero lo que quiero que veais que siempre el stata os proporciona, de cada uno de los comandos la sintaxis básica. Pospone cuadro diferentes descriptores y como se dice que funciones hace y después esos ponen ejemplos como podéis ver aquí esto lo dividido en dos, para que diera solamente lo que era que es lo que hace a stata cuando uno de ofrecer comando ayuda de un comando. ¿Como se puede ejecutar el comando egen?

Esto lo vamos a hacer también otra forma es yendo a la opción data creamos o cambiamos data y lo que hacemos es crear una nueva variable. Acordaros que el que una variable que era la opción primera era para el generate y ahora lo que vamos a hacer es el egen, lo que hace es es una extensión de generate.

Cuando hacemos estos nos amplia se nos abre una ventana que hay lo que nos permite es introducir
que funciones queremos que defina, el nuestra variable nueva que vamos a crear de otra ya existente. 
Permitidme os pongo un ejemplo continuando con el ejemplo de la edad aquí tenemos generamos la variable edad al cuadrado y acordaros cuando antes puesto el ejemplo como podemos ver aquí en esta parte de aquí, que ponemos la opción int delante de la variable nueva que definimos como edad tres.
Si yo ahora ejecuto el comando egen y le digo calculame la diferencia, que hay entre la variable
al cuadrado edad dos, como veis aquí. 
Y la variable que yo le puesto delante y le puesto la opción int ¿que observamos? si yo digo sácame los resultados en una tabla de la variable diferencias entre la edad al cuadrado y la que yo he llamado tres observamos aquí en esta tabla los resultados ¿que nos damos cuenta? que los valores que marca como cero es porque son iguales entre las dos variables, pero el que es igual a uno está recogiendo los misin varios.

La varible de origen habían ciento treinta y tres casos de personas que no habían contestado la edad que tenían, de acuerdo, si yo defino la edad al cuadrado no como ninguna opción pues el va multiplicando todos los valores siempre que esté codificado los misin valours como novecientos noventa y nueve.

En cambio si le digo coge me solamente los valores enteros entonces los mis males quedan descartados y por eso la diferencia entre una variable y otra son los misin varios que podemos ver aquí.

Esto lo podemos ver que hacemos una comprobación a través de la edición de la estas variables fijaros aquí está la variable edad original.Vemos que para un un valor misin fijaros cuando yo definido la variable al cuadrado como valor misin me lo ha hecho la potencia al cuadrado cuando yo le puesto el ejemplo y la opción del int delante de la variable, como me ha respetado valor misin me acuesto un punto.

Y después cuando yo definido la variable diferencia con el egen, como valores que coincide vemos que es cero pero cuando hay una cosa que llama la atención nos ha puesto el valor uno. Podemos ver otros casos y otros ejemplos como la variable genero aquí tenemos la variable de origen en la distribución de hombres y mujeres y los valores misin. Imaginaros que quiero generar una variable dicotómica que le llamo hombre male y qué digo que va a ser igual a uno cuando la variable de género toma valor uno y que me va a valer cero en caso contrario, cuando se valor de mujer.

Si yo hago aquí y muestro los datos de la tabla observamos que los valores misin están excluidos tal como definido incluso lo compruebo con la opción coint. Cuentas si en la variable male y hay valores misin me sacar resultado de diecisiete. Os pongo otro ejemplo siguiendo con el caso de la distribución entre hombres y mujeres en la base de datos imágenes que ahora defino la variable dicotómica de hombre igual a cero directamente y le digo que me sustituya como valor uno cuando la variable inicial toma valor uno. Si yo muestro los resultados aquí lo podemos ver en esta tabla que me de cuenta que los valores misin están englobados donde el valor cero esto es un error.

Y de hecho si yo hago la comparación con el comando egen entre como definido antes la variable dicotómica hombre y como la definido aquí me dice que justamente ambas variables coinciden en todos los casos de valor cero excepto los misin válidos que tenemos los diecisiete tal como ya sabíamos anteriormente.

Entonces el comando egen es muy valioso para generar funciones de variables ya existentes hay que ir con cuidado. Hay que ir con cuidado cuando hacemos la función sum de sumar con los comandos gen y con el comando egen incluso pueden confundirse aquí se ha puesto una tabla de ejemplo.
Fijaros si yo tengo una variable original que es la variable a tal como podemos aquí, si yo genero la variable uno como la suma de la variable inicial y utilizar el comando eguen como vemos aquí y le digo que es la variable dos vemos que hay diferencia entre una y la otra. En la variable uno que está definida con el comando gen lo que hace es sumar acumuladamente en cada una de las filas los valores de la variable inicial que es a. En cambio con egen en lo que vemos es que nos está sacando
ya el valor total de toda la variable a.

Bueno pues estas extensiones de egen en que es de genere aquí con cuidado con ellas tiene muchas utilidades y podemos ir extendiendonos vamos a lo largo de cursos sobre ellas, pues cualquier consulta que sabe donde podéis encontrarme. Gracias.

 

Comando "egen"

0/1 point (ungraded)
¿Cuál sería la expresión para generar la media de todas las observaciones de una variable?
 
      egen salariopromedio=promedio(salario) if (age>=16 & age<=65)

Reemplazar valores

Transcripcion
Hola, soy de Adela Garcia-Aracil, ahora empezamos la lección seis dentro del módulo cuatro, que sobre cómo reemplazar valores en las variables existentes utilizando stata.

Con stata podemos o encontrar dos comandos el replace y replace vamos a ver empezamos con el replace funciona igual que el comando generate, pero en lugar de crear nuevas variables lo que hace es reemplazar los valores de las variables ya existentes.

La sintaxis básica vemos que es replace, el nombre de la variable nueva el valor nuevo que queremos darle, si se cumple una expresión o reemplazar el nombre de la variable, el nuevo valor que queremos dentro de un rango entre uno y diez, por ejemplo. Cuando utilizamos el comando replace stata nos va informando del número de observaciones que se han ido modificando, aqui os pongo un ejemplo utilizando de nuevo la base de datos de la europea social service.

En este caso vamos a coger la variable estado civil, vemos que está codificada de una forma, de tal forma que hicimos bueno no se, vemos el rango de valores en la que se distribuye esta variable. Con la opción codebook del nombre y el nombre de la variable observamos como esta variables, va del rango uno hasta el rango que tenemos aquí Don`t known y No answer que son están codificadas de otra forma valores como podemos ver setenta y siete, ochenta y ocho, y veinte y nueve, bien vamos a cambiar los valores de esta variable porque tenemos algunos que no nos gustan.

Para eso ya sabemos generamos una variable nueva le llamamos married y lo que hacemos es decirle, vamos a generar de valores diferentes quiero que coja el valor uno si la variable original va a entre uno y dos, quiero que me tome el valor dos si la variable original va entre tres y cuatro, que sea igual a tres si la variable original es igual cinco, y finalmente que tome el valor cuatro la nueva variable que hemos creado si la original toma el valor seis.

Hacemos un tab de la variable nueva que hemos creado y nos saca estos resultados que observamos. ¿Que vemos? Esta nuestra variable nueva que hemos definido y esta es la que teníamos originalmente. Observamos comprobamos que efectivamente fijaros el valor uno corresponde a valor uno y dos de la variable original.

Que valores de la nueva variable que hemos creado no aparecen de la que si que existía en la variable original. ni más ni menos nos hemos dejado fuera, cuando han contestado, han rechazado predecir los sujetos que han contestado la encuesta no ha querido contestar hay o no los habían, vamos nos habían es porque no han sido contestar o ha habido un misin, un valor perdido no han querido contestar.

Entonces nuestra variable estos tres valores los hemos dejado fuera no nos interesa para analizar qué podemos hacer. Cualquiera que nosotros hemos creado la variable sabemos que valores ha cogido uno dos tres y cuatro, pero un usuario de fuera dice qué valores es uno dos tres cuatro. Podemos generar etiquetas para esta variable que hemos generado.
Esto se hace con el comando label, decimos label nombre de variable que hemos llamado married y quiero llamar estado civil y ahora le voy a dar valores y etiquetas al uno, dos, tres y cuatro, que hemos definido, ¿Y esto como se hace? Le ponemos también la el comando label define entonces le digo unas etiquetas y quiero que me cojas para número uno le vas a llamar casado, para dos separado o divorciado, para tres viudo y para cuatro por voy a decir que son solteros.

Entonces después lo que hago es asignarle, estas etiquetas entre la variable que creado y como la codificado y si fijaros que hacemos otra vez un tab de la variable married ha cambiado la apariencia aquí tenemos uno, dos, tres y cuatro. Ya aquí nos pone ya como podemos comprobar estado civil casado, separad,o viudo o soltero. De nuevo vemos que los missin no nos aparecen tal como las hemos generado.

Otra forma de poder reemplazar valores en las variables existente es a través del comado replace, este también reemplaza los valores de la variable determinada. Volviendo a nuestro ejemplo que teníamos con el estado civil fijaros que si yo pongo aquí, recode y entonces genera una variable y le digo mirar, para los valores uno y dos de la variable original, le voy a llamar uno y quiero que me llames married o civil union con lo puesto en inglés para que veáis la diferencia entre el replace y recode, entre tres y cuatro que es sea valor dos y pone la etiqueta se parado divorciado, para los valores cuatro tenemos los viudos y después ya tenemos los no casados o solteros y hemos puesto una coma, y fijaros lo que está aquí en circulito que le digo y genérame una variable nueva decir estoy generando la codificación poniendo etiquetas y además genera una variable nueva que el llamado marriedr dr. Si yo muestro los valores con el tab de esta variable nueva que generado que observamos pues realmente me ha codificado, como yo he querido los valores uno, dos, tres y cuatro de la variable original. 
Pero atentos, fijaros como nos siguen apareciendo cosa que antes no los valores missin, la gente que no había contestado, la gente que ha rechazado y las que han pasado de ella de acuerdo. Esta es la diferencia entre el replace y el recode. Hacen lo mismo pero según tratamiento o las opciones que nosotros pongamos obtenemos resultados u otros, pues bueno cualquier cosa cualquier duda que tenga sobre esto, me podéis encontrar en los foros y seguimos en las siguientes elecciones. Gracias.

Reemplazar valores

1.0 point possible (ungraded)
¿Qué comandos podemos utilizar para reemplazar los valores de las variables?

Ordenación de datos

Transcripcion

Hola, soy Adela Garcia_Aracil, en esta elección del módulo cuatro vamos a ver lo que son la ordenación de datos. Para ordenar datos en stata hay tres comandos el comando sort el comando wail y el comando orden. Vamos a verlos con detenimiento en esta lección. El comando sort normalmente las bases de datos están ordenadas por algunas variables sino que nos interesa ordenar por una variable en concreto, lo que haré utilizaremos será el comando sort imaginemos, ahi he puesto un ejemplo que queremos ordenar por la variable género y por la variable edad.

Esto se haría poniendo sort tiende a ni entonces lo que hace este comando es estaría ordenando los datos por género dicide entre hombres mujeres y dentro de cada grupo por edades esto se puede hacer con el está ta viendo la opción hay fichero vemos que está la opción sort y nos dice si lo queremos hacer en orden ascendente o descendente lo que queremos ordenar. 
Cuando queremos hacer una unión de base de datos el comando sort es muy bueno normalmente queremos unir dos bases de datos siempre tiene que haber una variable al menos una que esté repetidas en ambas bases de datos. Esta variable se suele llamar la variable identificador dentro de nuestro caso de ejemplo, que estamos utilizando la european socail service esta variable se llama idno el identificador de cada uno de los registros.

¿Como se unen dos bases de datos? Pues imaginemos tenemos una base de datos que hemos llamado aquí en el ejemplo dos.dta Stata la llama using data set y lo que hacemos es primero de todo ordenarla por el identificador.

Sería sort id lo que hacemos una vez caso de los datos los es guardarlos, para que la base de datos se guarde ordenada y que después cuando queramos unirla con la base de datos inicial o lo que llama stata master data set. Entonces como ya está ordenada por sort id va a permitir que se haga esa unión en la base de datos.

En la base de datos uno, la master lo que hacemos es lo mismo lo que hacemos es ordenar la por la misma variable que hemos ordenado la anterior y después ya ponemos el comando merge que es unir y fijaros como digo une con el identificador y de usando también decir que con qué base de datos va a utilizar.

La que hemos puesto aquí en el ejemplo con dos.dta 
Cuando hacemos la unión de la base de datos entonces lo que nos dice stata nos genera una variable que se llama merge. Entonces esta variable merge tomará los siguientes valores, el valor uno
cuando la observación está sólo en la variable inicial, la que está considerada como master.

Tomará el valor dos cuando la observación está sólo en la using dataset se elegir la que nosotros hemos llamado dos de la segunda base de datos y tomará el valor tres cuando la observaciones están en ambas bases de datos.

Por lo tanto el comando sort nos permite generar ordenar perdón los loros las variables y además
se utiliza mucho cuando hacemos unión de bases de datos. Otro comando que nos permite ordenar las observaciones por grupos, en este caso el comando by si nosotros ponemos el held en la ayuda el by nos dice cómo se hace la sintaxis, y yo aqui os he puesto un ejemplo. Imaginaros que queremos
generar el ejemplo de agrupar el nivel de estudios entre o mostrarlo por hombres y mujeres. Lo que hacemos es primero ordenamos por género y después decimos, por género by gndr muéstrame el nivel educativo y fijaros resultados nos sale para los hombres en nivel educativo y para el grupo de las mujeres su nivel educativo.

De acuerdo esto se hace con el comando by y el último comando que tiene stata para ordenar variables es el comando orden, el comando order lo que hace es que nos ayuda a inspeccionar la base de datos que queremos que tenga otra apariencia. Vemos que las variables de datos suelen tener perdón, la base de datos suele tener muchas variables y hay algunas que miras utilizamos porque no nos interesa para el problema o proyecto investigación que estamos haciendo.

Y lo que nos interesa es ver las primeras que son las que más estamos utilizando por ejemplo nosotros que es en los ejemplos que ha sido poniendo estamos utilizando más la variable país, la variable género, la variable educación, el estado civil. Entonces yo puedo decir al stata ordename las variables por este orden y entonces el stata nos  mostrará la información como nosotros hemos indicado. Primero veremos la variable el identificador luego el país, de su género así, etcétera, etcétera, etcétera.

El comando help nos da también una visión de cómo se utiliza este comando que podemos utilizar perfectamente y las ventajas. Y fijaros para el ejemplo que os he puesto como cuando yo hago el edit que nos muestre los datos como si estuviéramos en una hoja de excel primero nos muestra la columna que identificador el país, la variable género, etcétera, etcétera, como nosotros hemos sido mostrando.

Pues bueno estos son los tres comandos que se utiliza en stata para la ordenación de datos. El order, el by, el sort, espero que os haya sido de utilidad y cualquier sugerencia me podéis encontrar en los foros. Gracias.

Ordenación de datos

1.0 point possible (ungraded)
¿Qué comando nos permitiría ver las variables ordenadas de una base de datos como a nosotros mejor nos acomode?

Tratamiento missing values

  Transcripcion

Hola, soy Adela Garcia-Aracil, en este vídeo vamos a ver la lección ocho que se tratamiento de los valores misin dentro del módulo cuatro de análisis e interpretación de datos. ¿Que son los valores missing? A veces nos encontramos en las bases de datos que nos falta información.

Puede ser porque ha habido un registro defectuoso de la información, puede ser porque hay una falta de respuesta a las preguntas del encuestador o ausencia natural de la información, porque puede ser
que hay quien está haciendo la comparación entre diferentes países queremos recoger un tipo de información, y aún país por ejemplo pues no encuentras esa información y esa ausencia se codifica como un valor missing. Esto lo que se conoce se registra en las bases de datos como valores perdidos o en anglo sajon missing.

Missing valures en stata se señala mediante un punto se considera missing valures es mayor que cualquier valor y eso hay que ir con cuidado. Por ejemplo si yo le digo la expresión que recoge todas aquellas observaciones donde la edad sea mayor que sesenta y yo no digo nada, más todos los valores missing quedarán también recogidos porque se considera que es un valor mayor a cualquier valor.

Para excluir esos valores missing lo que lo podemos hacer es ese indicarlo de esta forma. Por ejemplo genera una variable salario e ingreso que se igual salario para aquellos cuya edad sea mayor o igual que dieciséis y ojito que el valor de edad sea menor que el valor missing, así escribiremos los valores missing, otra forma de hacerlo es decir genérame la variable ingreso que sea igual salario.

Si el grupo de edad es mayor o igual que dieciséis y la edad tiene o toma valor distinto fijaros distinto al valor missing. Los valores missing para variables que sean alfanuméricas de caracteres se señalan por lo que es el blank entre comillas, vale. También stata nos puede o nos condiciona valores missing o asigna valores mesinng cuando estamos generando una variable y no se cumple la condición podemos puesto detrás del en este caso del comando o no.

O de la opción if, es decir, si gereamos una variable que le decimos que es igual, a un este caso. A división en una variable con la otra con respecto a la otra, si esa variable toma el valor igual a uno,
para aquellas observaciones registro donde no se está cumpliendo la condición stata les ignara un valor missing. Hay que también hay que tener también cuidado cuando definimos una variable a partir de otra ya existente y esa variable original ya contiene ella misma missing valures.

Por ejemplo los casos que hemos visto la variable género de la european social service, observamos que tenía valores missing que la variable género si nosotros generamos una variable dicotómica que queremos que tome valores cero y uno.

Vemos en esta tabla que no es lo mismo la columna de la derecha, que la columna de la izquierda. Si yo señalo aquí genera una variable que se llame male igual a cero y le digo que me sustituya igual a uno cuando la variable original de la base de datos es igual a uno no es lo mismo que si yo le digo generame una variable.

Pero ojo ten en cuenta los valores missing y sustituye valor uno cuando es hombre y valor cero cuando sea mujer. Aquí a los missing le hemos dado de la variable original a los valores missing de la variable original le hemos dado valor cero, estamos cometiendo un error.

En cambio aquí a los valores mising de la breve original de género los hemos reconocido y cuando hagamos estadísticas o descriptivos los va a mantener como missing valures y nos va hacer y generarse los en nuestros resultados. Otras veces en las bases de datos lo que han hecho y lo que se hace es codificar los valores missing por valores como nueve, nueve nueve, novecientos noventa y nueve, según el formato de la extensión de la variable.

Como estos valores nos pueden estar molestando nosotros podemos recodificar ¿Como? Le ponemos aquí recode la variable nueve nueve nueve igual a missing, entonces en stata nos transforma todos esos valores que están codificados como el nueve nueve nueve nueve etcétera. Como puntos que es el tratamiento que le da de stata para los valores missing por lo dicho con todo esto terminamos esta lección. Y espero que hayáis a aprendido algunos conceptos básicos con el análisis e interpretación de datos. Cualquier cosa me tenéis en los foros.

Tratamiento missing values

1.0 point possible (ungraded)
¿Cómo podemos observar que una variable contiene missing values?

Examen unidad 4

1.0 point possible (graded)
Un fichero do de Stata nos permite
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
Un fichero do de Stata puede utilizarse
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
Un fichero log de Stata sirve para
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
¿Qué comando utilizamos para definir una nueva variable en Stata?
unanswered
You have used 0 of 2 attempts

problem

1.0 point possible (graded)
Si encontramos valores perdidos (missing values) en una base de datos
unanswered
You have used 0 of 2 attempts