Los salarios en México y las malas estadísticas del INEGI

(This one is in Spanish since it mainly interests Mexican people. I might translate it later)

Yo crecí en México en lo que consideré la clase media, pero después viví en E.U.A y en Europa, por lo que tal vez mi concepción de las diferentes clases dejó de estar apegada a la realidad. Yo pensaba que un salario mensual de $20,000 (una cantidad módica en países del primer mundo) se consideraría clase media, y cuando una persona me dijo que el salario promedio era $8,000 no lo creí, y así comenzó la tarea de buscar los salarios de las diferentes clases en México que resultó no ser tan fácil como parecía.

ENIGH

El INEGI realizó una encuesta (Encuesta Nacional de Ingresos y Gastos de los Hogares) que supuestamente contiene estos datos, sin embargo, estos son los resultados:

I $1,674
II $3,033
III $3,977
IV $4,900
V $5,959
VI $7,183
VII $8,800
VIII $11,313
IX $16,012
X $42,120
* Trimestral.

En teoría ahí está toda la información y la tarea está hecha, sin embargo hay un problema al tratar de entender estos números. La tabla se titula “ingreso corriente total promedio trimestral per cápita en deciles de personas”. Ahí vemos los diez grupos, pero un decil se define como: “cualquiera de los nueve valores que dividen los datos ordenados en diez partes iguales”; nueve valores, y en la tabla hay diez, esos números no son deciles.

Básicamente, la tabla es completamente inútil. Si una persona gana $10,000 trimestrales, ¿Está en el grupo VII o VIII? El número que necesitamos para saber eso no está en esta tabla.

A mano

Afortunadamente el INEGI provee los datos originales, y gracias a mis habilidades de programación pude hacer las manipulaciones necesarias para sacar los datos de interés. Desafortunadamente en el proceso me di cuenta que las tablas del INEGI están llenas de errores, así que tuve que hacer los cálculos por mi cuenta.

10% $632
20% $959
30% $1,234
40% $1,541
50% $1,907
60% $2,358
70% $3,012
80% $4,024
90% $6,476

Estos números sí son deciles, y es fácil saber a qué grupo perteneces. Si tu salario mensual es de $3,000 pesos (y no tienes familia), eso significa que ganas más que el 70% de la población (grupo VII). Curiosamente es fácil ver la media (50%), que es $1,907, es decir: 50% de la población gana menos de $1,907, 50% gana más.

De forma similar podemos dividir la población en tres grupos:

baja menos de $1,329
media de $1,329 a $2,777
alta más de $2,777

Parece difícil de creer, pero estos números se pueden comprobar fácilmente. El tamaño de la muestra del INEGI son 19479 personas, con un filtro para ver cuántas personas ganan más de $2,777, el resultado es 6491 (33.32307%). Cabe mencionar que los números son per cápita. Es decir, si ganas $8,000 pesos y mantienes a una familia de 4, cada persona se considera que recibe un ingreso de $2,000 pesos, más detalles abajo.

Los números para la clase súper rica son:

91% $6,926
92% $7,433
93% $8,028
94% $8,750
95% $9,674
96% $10,853
97% $12,713
98% $15,858
99% $20,724

Promedios

Los promedios pintan un panorama muy diferente, por ejemplo; la clase alta es más de $2,777, sin embargo hay mucha diferencia entre un ingreso de $3,000 y $300,000 pesos, pero ambos están en el mismo rango y al promediar toda la gente de este rango, el resultado está muy lejos. El promedio de la clase alta (top %33) es de $6,795, el promedio del top 90% es de $13,115, y el promedio del top %1 es de $37,644.

Por eso son peligrosos los promedios. A pesar de que el promedio de todo el país es de $3,187, el promedio del bottom 99% es de $2,839, pero al juntarlo con el top %1 de $37,644 se eleva bastante (2839 * 0.99 + 37644 * 0.01).

Detalles

Hay muchos detalles de estos números, pero en general es el ingreso de todo el hogar: salarios, utilidades, rentas, ganancias de negocios propios, y transferencias, dividido por el número de integrantes. Por alguna razón el aguinaldo no lo cuentan.

Si agregamos el aguinaldo e ignoramos los miembros que no reciben ingresos (e.g. niños), el resultado es un poco más positivo.

10% $895
20% $1,416
30% $1,946
40% $2,533
50% $3,189
60% $3,983
70% $5,091
80% $6,912
90% $10,480

Desigualdad

Existe un número que se usa para medir la desigualdad de forma rápida, el coeficiente Gini. Aunque no es perfecto es el más utilizado, y no deja de ser útil. Una sociedad perfectamente igual tendría un valor de 0%, mientras que una totalmente desigual 100%. Alemania, un país con mucha igualdad social tiene un valor de 27%, Estados Unidos, conocido por su desigualdad, 45%. Según el INEGI México tiene un valor de 48%, pero según mis cálculos el valor es 52%.

Lorenz Curve

Probablemente la forma más fácil de visualizar la increíble desigualdad que hay es graficando todos los ingresos de la muestra:

graph

Errores del INEGI

Ya mencioné el hecho de que para empezar su tabla de deciles no contiene deciles, al parecer contiene promedios de los diversos grupos, que como ya vimos los promedios son peligrosos por que pueden pintar las cosas más positivas de lo que son. Pero aún así los números no cuadran.

Además hay discrepancias muy curiosas. Por ejemplo, hay dos tablas ligadas; ‘ingresos’ y ‘concentradohogar’, la segunda como su nombre lo dice es un concentrado.

Aquí hay un ejemplo simplificado de la tabla de ‘ingresos’:

folioviv foliohg numren clave ing_tri
0860298316 1 01 P043 4499.99
0860298316 1 01 P071 24173.8

Aquí vemos dos ingresos de una persona, P043 es un beneficio de PROCAMPO, P071 es la clave de negocios agrícolas.

Los datos correspondientes a el mismo hogar en la tabla de ‘concentradohogar’:

folioviv foliohg ing_mon agricolas bene_gob
0860298316 1 175412.92 170912.93 4499.99

Vemos que los beneficios del gobierno están correctos, pero los ingresos por negocios agrícolas son 7 veces la cantidad original. ¿De dónde salió ese número? La descripción de la tabla dice que esa columna se genera sumando los ingresos de clave P071 o P078, y como ya vimos arriba, sólo hay dos ingresos. Buscando el número 175412.92 en la tabla de ingresos no regresa nada, así que no parece haber ningúna razón para la existencia de ese número.

La mayoría de los números parecen estar correctos, pero sí existen discrepancias, tanto positivas como negativas. El total de discrepancia son $4,585,356, pero como unas son negativas la diferencia neta es de $2,685,778.

Mapa de la muestra

Update: Mucha gente preguntó que de dónde sacaron las encuestas, aquí hay un mapa para visualizarlo. Por alguna extraña razón en el centro de Tabasco es donde tomaron más información. Se ve muy evidente que a el norte no le prestaron mucha atención.

Mapa

Conclusión

No queda más que aceptar que estamos mucho peor de lo que pensaba, no solo en cuestión de salarios, pero desigualdad, e incluso disponibilidad de la información. Si el organismo dedicado a proveer datos estadísticos no sabe ni lo que es un decil, realmente no se puede esperar mucho del futuro.

Nota: Estos números son confiables sólo si la muestra del INEGI es realmente aleatoria. Dado que ya detecté muchos errores en sus tablas, es posible que la muestra del INEGI también la hayan hecho mal. Desafortunadamente no hay mejores datos, así que hasta donde yo sé, estos son los números más confiables.

Método

Cualquier persona puede verificar los datos si le interesa. Las bases de datos se encuentran en liga de microdatos, ‘ingresos’ es “Ingresos y percepciones financieras y de capital de cada uno de los integrantes del hogar”, y ‘concentradohogar’ es “Principales variables por hogar”. El formato debe ser CSV, una vez extraídos los archivos se corre mi script que genera los ingresos corregidos.

El resultado es este archivo, cada renglón corresponde a un hogar. La columna “ingreso” contiene el ingreso monetario por hogar trimestral, y “ingreso_pc” es lo mismo pero per cáptia.

Se puede importar con Excel y hacer las operaciones ahí, pero yo utilicé un software estadístico llamado R.

data = read.csv("corregido.csv")
ingreso = data$ingreso_pc / 3

# deciles
quantile(ingreso, probs = seq(1/10, 9/10, 1/10))

# terciles
quantile(ingreso, probs = seq(1/3, 2/3, 1/3))

# ricos
quantile(ingreso, probs = seq(91/100, 99/100, 1/100))

# promedio
mean(ingreso[ingreso > 2777])

# gini
library(ineq)
ineq(ingreso)