📘 ENECO641 — Ejercicios Tipo Examen

Economía Laboral • Universidad de Chile

Ejercicio 1: Ejercicio 1: Potential Outcomes y LATE (35 pts)

Cap. 1LATE, Potential Outcomes
Considere el marco de potential outcomes con tratamiento binario $T_i \in \{0,1\}$ e instrumento binario $Z_i \in \{0,1\}$. Defina $Y_i(1), Y_i(0)$ como los potential outcomes y $T_i(1), T_i(0)$ como los potential treatments. El parámetro de interés es el efecto causal del tratamiento sobre los compliers.
[6 pts] Problema Fundamental y Parámetros. Escriba el outcome observado $Y_i$ en función de los potential outcomes y explique por qué no podemos calcular $\tau_i = Y_i(1) - Y_i(0)$ directamente. Luego, defina formalmente ATE, ATT y ATU. ¿Cuál de estos tres parámetros requiere el supuesto identificador más débil? Justifique brevemente.
Respuesta: El outcome observado se relaciona con los potenciales mediante la identidad de consistencia (parte de SUTVA): $$ Y_i = T_i Y_i(1) + (1-T_i) Y_i(0) = \begin{cases} Y_i(1) & \text{si } T_i = 1 \\ Y_i(0) & \text{si } T_i = 0 \end{cases} $$ No podemos calcular $\tau_i = Y_i(1) - Y_i(0)$ para cada individuo porque para cada persona solo observamos uno de los dos potenciales: el que corresponde al tratamiento que realmente recibió. El potencial no observado es un contrafactual que nunca podemos ver. Este es el Problema Fundamental de la Inferencia Causal (Holland, 1986). \bigskip Parámetros de interés:
  • ATE (Average Treatment Effect): $\E[Y_i(1) - Y_i(0)]$ — efecto promedio en toda la población.
  • ATT (Average Treatment Effect on the Treated): $\E[Y_i(1) - Y_i(0) \mid T_i = 1]$ — efecto promedio en quienes reciben el tratamiento.
  • ATU (Average Treatment Effect on the Untreated): $\E[Y_i(1) - Y_i(0) \mid T_i = 0]$ — efecto promedio en quienes no lo reciben.
El parámetro que requiere el supuesto identificador más débil es el ATT. Para identificarlo solo necesitamos construir el contrafactual de los tratados (qué les habría pasado si no hubieran recibido el tratamiento), lo que requiere un supuesto de selección en observables o un diseño cuasi-experimental para el grupo de tratados. El ATE requiere identificar ambos contrafactuales (tratados y no tratados), y el ATU requiere identificar el contrafactual de los no tratados.
[10 pts] Supuestos LATE. Enuncie los cuatro supuestos del teorema LATE (Independence, Exclusion, First Stage, Monotonicity) en notación formal y en lenguaje intuitivo. Para monotonicidad, escriba tanto la forma binaria como la forma general para un instrumento ordenado ($z > z' \implies T_i(z) \geq T_i(z')$). Explique por qué monotonicidad descarta a los defiers y qué implicancia tiene esto para la interpretación del estimador IV.
Respuesta: Los cuatro supuestos del teorema LATE (Imbens \& Angrist, 1994; Angrist, Imbens \& Rubin, 1996) son:
  1. [S1.] Independencia (Independence): $$ (Y_i(1), Y_i(0), T_i(1), T_i(0)) \perp Z_i $$ Intuición: el instrumento $Z_i$ es ``tan bueno como asignado aleatoriamente'' con respecto a todos los potenciales. No comparte causas comunes no observadas con los resultados ni con los tratamientos potenciales.
  2. [S2.] Exclusión (Exclusion): $$ Y_i(t, 1) = Y_i(t, 0) = Y_i(t) \quad \text{para } t = 0, 1 $$ Intuición: el instrumento $Z_i$ afecta el outcome $Y_i$ solo a través de su efecto sobre el tratamiento $T_i$. No hay canales directos $Z_i \to Y_i$.
  3. [S3.] Primera Etapa (First Stage): $$ \E[T_i \mid Z_i = 1] \neq \E[T_i \mid Z_i = 0] $$ Intuición: el instrumento realmente predice el tratamiento. Sin esto, no hay variación que explotar.
  4. [S4.] Monotonicidad (Monotonicity): $$ T_i(1) \geq T_i(0) \quad \forall i \quad \text{o} \quad T_i(1) \leq T_i(0) \quad \forall i $$ Para un instrumento ordenado (no necesariamente binario): $$ z > z' \implies T_i(z) \geq T_i(z') \quad \forall i $$ Intuición: el instrumento empuja a todos en la misma dirección. Nadie hace lo contrario de lo que el instrumento incentiva. Esto elimina a los defiers: individuos que toman el tratamiento cuando $Z=0$ pero no cuando $Z=1$.
Implicancia de monotonicidad: al eliminar defiers, el estimador IV/Wald se interpreta como un promedio ponderado de efectos causales con pesos no negativos, específicamente sobre la subpoblación de compliers. Sin monotonicidad, los defiers contribuirían con signo opuesto al numerador del Wald y el estimador podría no ser un promedio interpretable de efectos individuales.
[8 pts] Wald Estimator. Partiendo del estimador IV $\beta_{\text{IV}} = \Cov(Y_i, Z_i)/\Cov(T_i, Z_i)$, demuestre que para un instrumento binario este se reduce al Wald estimator: $$ \beta_{\text{Wald}} = \frac{\E[Y_i \mid Z_i = 1] - \E[Y_i \mid Z_i = 0]}{\E[T_i \mid Z_i = 1] - \E[T_i \mid Z_i = 0]} $$ Ayuda: use el resultado $\Cov(A_i, Z_i) = \Pr(Z_i=1)\Pr(Z_i=0)(\E[A_i|Z_i=1] - \E[A_i|Z_i=0])$ para $A_i \in \{Y_i, T_i\}$. Bajo los supuestos LATE, ¿qué identifica exactamente este estimador? Sea preciso sobre la población.
Respuesta: Demostración: Partiendo del estimador IV con $A_i \in \{Y_i, T_i\}$: $$ \beta_{\text{IV}} = \frac{\Cov(Y_i, Z_i)}{\Cov(T_i, Z_i)} $$ Usando la ayuda: $\Cov(A_i, Z_i) = \Pr(Z_i=1)\Pr(Z_i=0)\big(\E[A_i \mid Z_i=1] - \E[A_i \mid Z_i=0]\big)$. Aplicando para $Y_i$ y $T_i$: $$ \beta_{\text{IV}} = \frac{\cancel{\Pr(Z_i=1)\Pr(Z_i=0)}\big(\E[Y_i \mid Z_i=1] - \E[Y_i \mid Z_i=0]\big)}{\cancel{\Pr(Z_i=1)\Pr(Z_i=0)}\big(\E[T_i \mid Z_i=1] - \E[T_i \mid Z_i=0]\big)} = \frac{\E[Y_i \mid Z_i=1] - \E[Y_i \mid Z_i=0]}{\E[T_i \mid Z_i=1] - \E[T_i \mid Z_i=0]} $$ que es el estimador Wald. \bigskip ¿Qué identifica bajo los supuestos LATE? Bajo los supuestos S1--S4 (Independencia, Exclusión, First Stage, Monotonicidad), el estimador Wald identifica: $$ \beta_{\text{Wald}} = \E[Y_i(1) - Y_i(0) \mid T_i(1) > T_i(0)] $$ Este es el LATE (Local Average Treatment Effect): el efecto causal promedio del tratamiento para la subpoblación de compliers — individuos cuyo tratamiento es afectado por el instrumento ($T_i(1)=1$, $T_i(0)=0$). Es un efecto local al instrumento: distintos instrumentos identifican efectos para distintos grupos de compliers.
[6 pts] Subpoblaciones. Defina las cuatro subpoblaciones definidas por $(T_i(0), T_i(1))$: compliers, always-takers, never-takers y defiers. Para cada grupo, indique su estatus de tratamiento bajo $Z_i=0$ y bajo $Z_i=1$. Considere el instrumento clásico de Angrist \& Evans (1998): $Z_i = 1$ si los dos primeros hijos son del mismo sexo, y $T_i = 1$ si la madre tiene un tercer hijo. Dé una interpretación intuitiva de quiénes son los compliers y los always-takers en este contexto.
Respuesta: Las cuatro subpoblaciones definidas por los tratamientos potenciales $(T_i(0), T_i(1))$ son: $$ \begin{array}{c|c|c|c} \text{Tipo} & T_i(0) & T_i(1) & \text{Descripción} \\ \hline \text{Complier (C)} & 0 & 1 & \text{Toman el tratamiento solo si } Z=1 \\ \text{Never-taker (NT)} & 0 & 0 & \text{Nunca toman el tratamiento} \\ \text{Always-taker (AT)} & 1 & 1 & \text{Siempre toman el tratamiento} \\ \text{Defier (D)} & 1 & 0 & \text{Hacen lo contrario al instrumento} \end{array} $$ \bigskip Aplicación: Angrist \& Evans (1998) — $Z_i = 1$ si los dos primeros hijos son del mismo sexo; $T_i = 1$ si la madre tiene un tercer hijo.
  • Compliers: madres que tienen un tercer hijo solo si los dos primeros son del mismo sexo. Son madres en el margen: prefieren tener al menos un hijo de cada sexo, pero si no logran esa composición con los dos primeros, intentan de nuevo.
  • Always-takers: madres que tienen un tercer hijo independientemente del sexo de los dos primeros. Su decisión está determinada por otros factores (preferencia por familias numerosas, creencias religiosas, etc.), no por la composición de género.
  • Never-takers: madres que no tienen un tercer hijo aunque los dos primeros sean del mismo sexo. Su decisión no cambia con el instrumento.
  • Defiers: (excluidos por monotonicidad) madres que tienen un tercer hijo solo si los dos primeros son de distinto sexo. Monotonicidad asume que no existen.
[5 pts] Equivalencia de Primera Etapa. Demuestre algebraicamente que para un instrumento binario: $$ \Cov(Z_i, T_i) \neq 0 \iff \E[T_i \mid Z_i = 1] \neq \E[T_i \mid Z_i = 0] $$ Muestre todos los pasos. Ayuda: defina $p \equiv \Pr(Z_i = 1)$.
Respuesta: Partimos de la definición de covarianza: $$ \Cov(Z_i, T_i) = \E[Z_i T_i] - \E[Z_i]\E[T_i] $$ Dado que $Z_i$ es binaria, $Z_i T_i = 1 \cdot T_i$ cuando $Z_i = 1$ y $0$ cuando $Z_i = 0$, por tanto: $$ \E[Z_i T_i] = \E[T_i \mid Z_i = 1] \cdot \Pr(Z_i = 1) $$ Además, $\E[Z_i] = \Pr(Z_i = 1)$. Y por ley de esperanzas totales: $$ \E[T_i] = \E[T_i \mid Z_i = 1]\Pr(Z_i = 1) + \E[T_i \mid Z_i = 0]\Pr(Z_i = 0) $$ Sea $p \equiv \Pr(Z_i = 1)$, entonces $\Pr(Z_i = 0) = 1-p$. Sustituyendo: $$ \begin{aligned} \Cov(Z_i, T_i) &= \E[T_i \mid Z_i = 1] \cdot p - p\big[\E[T_i \mid Z_i = 1] p + \E[T_i \mid Z_i = 0] (1-p)\big] \\ &= p\big[\E[T_i \mid Z_i = 1] - p\E[T_i \mid Z_i = 1] - (1-p)\E[T_i \mid Z_i = 0]\big] \\ &= p\big[(1-p)\E[T_i \mid Z_i = 1] - (1-p)\E[T_i \mid Z_i = 0]\big] \\ &= p(1-p)\big[\E[T_i \mid Z_i = 1] - \E[T_i \mid Z_i = 0]\big] \end{aligned} $$ Como $p(1-p) > 0$ (el instrumento tiene variación en ambos valores), entonces: $$ \Cov(Z_i, T_i) \neq 0 \iff \E[T_i \mid Z_i = 1] \neq \E[T_i \mid Z_i = 0] $$ Conclusión: la condición de primera etapa es equivalente a que la covarianza entre el instrumento y el tratamiento sea distinta de cero. Ambas son formas equivalentes de decir que el instrumento es relevante.

Ejercicio 2: Ejercicio 2: LATE con Outcome No Lineal (35 pts)

Cap. 1LATE con Outcome No Lineal
Considere el marco de LATE con tratamiento binario $T_i \in \{0,1\}$ e instrumento binario $Z_i \in \{0,1\}$. Sea $X_i > 0$ una covariable observable (por ejemplo, años de educación). El outcome de interés es: $$ Y_i = T_i \cdot X_i^2 + (1 - T_i) \cdot X_i $$ Suponga que se cumplen todos los supuestos del teorema LATE (Independencia, Exclusión, First Stage, Monotonicidad).
[8 pts] Potenciales del Outcome. Defina formalmente $Y_i(1)$ y $Y_i(0)$ en términos de $X_i$. Luego, escriba $Y_i(1)$ e $Y_i(0)$ para cada uno de los cuatro tipos: compliers (C), never-takers (NT), always-takers (AT) y defiers (D). No es necesario calcular esperanzas aún.
Respuesta: Potenciales del outcome: $$ Y_i(1) = 1 \cdot X_i^2 + (1-1) \cdot X_i = X_i^2, \qquad Y_i(0) = 0 \cdot X_i^2 + (1-0) \cdot X_i = X_i $$ Outcome observado por grupo según $Z$: \bigskip \begin{minipage}{0.48\textwidth} \centering $Z=0$ \\ \begin{tabular}{c|c|l} & $T_i(0)$ & Outcome \\ \hline C & 0 & $Y_i(0) = X_i$ \\ NT & 0 & $Y_i(0) = X_i$ \\ AT & 1 & $Y_i(1) = X_i^2$ \\ D & 1 & $Y_i(1) = X_i^2$ \end{tabular} \end{minipage} \hfill \begin{minipage}{0.48\textwidth} \centering $Z=1$ \\ \begin{tabular}{c|c|l} & $T_i(1)$ & Outcome \\ \hline C & 1 & $Y_i(1) = X_i^2$ \\ NT & 0 & $Y_i(0) = X_i$ \\ AT & 1 & $Y_i(1) = X_i^2$ \\ D & 0 & $Y_i(0) = X_i$ \end{tabular} \end{minipage}
[12 pts] Demostración LATE. Usando el algoritmo de expansión por LIE sobre los cuatro grupos, demuestre que: $$ \frac{E[Y_i \mid Z_i = 1] - E[Y_i \mid Z_i = 0]}{E[T_i \mid Z_i = 1] - E[T_i \mid Z_i = 0]} = E[X_i^2 - X_i \mid C] $$ donde $C = \{T_i(1) > T_i(0)\}$. Ayuda: Siga el algoritmo: (1) expanda numerador para $Z=1$ y $Z=0$ por LIE, (2) reemplace los potenciales según $Y_i(1)$ e $Y_i(0)$, (3) reste, (4) cancele usando los supuestos, (5) repita para el denominador, (6) cociente.
Paso 1: Numerador para $Z=1$. Por LIE sobre los cuatro grupos, usando consistencia ($Y_i = Y_i(T_i(Z_i))$): $$ \begin{aligned} E[Y_i \mid Z_i=1] &= E[Y_i(1) \mid C]P(C) + E[Y_i(0) \mid NT]P(NT) \\ &\quad + E[Y_i(1) \mid AT]P(AT) + E[Y_i(0) \mid D]P(D) \$$4pt] &= E[X_i^2 \mid C]P(C) + E[X_i \mid NT]P(NT) \\ &\quad + E[X_i^2 \mid AT]P(AT) + E[X_i \mid D]P(D) \end{aligned} $$ \bigskip Paso 2: Numerador para $Z=0$. $$ \begin{aligned} E[Y_i \mid Z_i=0] &= E[Y_i(0) \mid C]P(C) + E[Y_i(0) \mid NT]P(NT) \\ &\quad + E[Y_i(1) \mid AT]P(AT) + E[Y_i(1) \mid D]P(D) \$$4pt] &= E[X_i \mid C]P(C) + E[X_i \mid NT]P(NT) \\ &\quad + E[X_i^2 \mid AT]P(AT) + E[X_i^2 \mid D]P(D) \end{aligned} $$ \bigskip Paso 3: Resta. $$ \begin{aligned} E[Y_i \mid Z=1] &- E[Y_i \mid Z=0] = \\ &\big[E[X_i^2 \mid C] - E[X_i \mid C]\big] P(C) \\ &+ \big[E[X_i \mid NT] - E[X_i \mid NT]\big] P(NT) \\ &+ \big[E[X_i^2 \mid AT] - E[X_i^2 \mid AT]\big] P(AT) \\ &+ \big[E[X_i \mid D] - E[X_i^2 \mid D]\big] P(D) \end{aligned} $$ Los términos de $NT$ y $AT$ se cancelan algebraicamente (son idénticos). Bajo monotonicidad, $P(D) = 0$. Por tanto: $$ E[Y_i \mid Z=1] - E[Y_i \mid Z=0] = \big[E[X_i^2 \mid C] - E[X_i \mid C]\big] P(C) $$ \bigskip Paso 4: Denominador (first stage). $$ \begin{aligned} E[T_i \mid Z=1] &= 1 \cdot P(C) + 0 \cdot P(NT) + 1 \cdot P(AT) + 0 \cdot P(D) = P(C) + P(AT) \\ E[T_i \mid Z=0] &= 0 \cdot P(C) + 0 \cdot P(NT) + 1 \cdot P(AT) + 1 \cdot P(D) = P(AT) + \cancelto{0}{P(D)} \\ \Rightarrow \quad E[T_i \mid Z=1] - E[T_i \mid Z=0] &= P(C) \end{aligned} $$ \bigskip Paso 5: Cociente Wald. $$ \frac{E[Y_i \mid Z=1] - E[Y_i \mid Z=0]}{E[T_i \mid Z=1] - E[T_i \mid Z=0]} = \frac{\big[E[X_i^2 \mid C] - E[X_i \mid C]\big] \cancel{P(C)}}{\cancel{P(C)}} = E[X_i^2 - X_i \mid C] $$ donde $C = \{T_i(1) = 1,\; T_i(0) = 0\} = \{T_i(1) > T_i(0)\}$. $\square$
[7 pts] Interpretación Económica. Suponga que $X_i$ son años de educación y $T_i$ indica participación en un programa de capacitación laboral. ¿Qué interpretación económica tiene el parámetro $E[X_i^2 - X_i \mid C]$? ¿Bajo qué condiciones sería positivo? Relacione su respuesta con la noción de retornos crecientes a la educación.
Respuesta: El parámetro $E[X_i^2 - X_i \mid C]$ es el efecto causal promedio de la capacitación laboral sobre los compliers. Para un complier $i$, el efecto individual es: $$ Y_i(1) - Y_i(0) = X_i^2 - X_i = X_i(X_i - 1) $$ La función $f(x) = x^2 - x$ es convexa ($f''(x)=2>0$), con un mínimo en $x=0.5$ donde $f(0.5) = -0.25$. Cambia de signo en $x=0$ y $x=1$: $$ \begin{array}{c|c} X_i & \text{Efecto}\\ \hline 0 < X_i < 1 & \text{Negativo}\\ X_i = 1 & \text{Cero}\\ X_i > 1 & \text{Positivo y creciente} \end{array} $$ Interpretación económica: La capacitación laboral y la educación formal son complementos en la producción de ingresos. Para que la capacitación tenga un efecto positivo, se requiere una base educativa mínima ($X_i > 1$), lo que sugiere que la educación formal provee las habilidades previas necesarias para absorber y aplicar los conocimientos de la capacitación. Por debajo de ese umbral, la capacitación puede ser contraproducente o tener rendimiento nulo. El efecto crece cuadráticamente con $X_i$: a mayor educación base, mayor es el retorno de la capacitación. Esto es consistente con la noción de retornos crecientes a la capacitación en función de la educación previa, y explica por qué programas de capacitación dirigidos a poblaciones con baja escolaridad suelen mostrar efectos acotados o nulos.
¿Puede determinar si $E[X_i^2 - X_i \mid C]$ es necesariamente positivo? Justifique algebraicamente.
Respuesta: Sí, podemos determinar que es positivo. El razonamiento es el siguiente:
  1. Sea $g(x) = x^2 - x$. Su segunda derivada es $g''(x) = 2 > 0$, por lo que $g$ es convexa.
  2. Por la desigualdad de Jensen para funciones convexas: $$ E[g(X) \mid C] \geq g(E[X \mid C]) $$
  3. Reemplazando $g$ y el dato $E[X_i \mid C] = 3$: $$ E[X_i^2 - X_i \mid C] \geq (E[X_i \mid C])^2 - E[X_i \mid C] = 3^2 - 3 = 6 $$
  4. Como $6 > 0$, la cota inferior del LATE es positiva, luego: $$ E[X_i^2 - X_i \mid C] \geq 6 > 0 $$
No es necesario que cada $X_i$ individualmente supere 1 (lo cual no podemos saber con solo la media). La convexidad de $g$ nos da una cota inferior del LATE que solo depende de $E[X \mid C]$, y esa cota es positiva.
(Desafío) Encuentre una condición suficiente sobre $E[X_i \mid C]$ que garantice que el LATE sea positivo, y otra que garantice que sea negativo. Use la desigualdad de Jensen.
Respuesta: Condición suficiente para LATE positivo: Si $E[X_i \mid C] > 1$, entonces por Jensen: $$ E[X_i^2 - X_i \mid C] \geq (E[X_i \mid C])^2 - E[X_i \mid C] = E[X_i \mid C] \big( E[X_i \mid C] - 1 \big) > 0 $$ Por tanto $E[X_i^2 - X_i \mid C] > 0$. La condición $E[X_i \mid C] > 1$ es suficiente. \bigskip Condición suficiente para LATE negativo: Jensen da una cota inferior para funciones convexas, no una cota superior. No podemos usarlo para garantizar negatividad. En su lugar, si el soporte de $X_i \mid C$ está contenido en $[0,1]$, entonces cada término individual $X_i^2 - X_i = X_i(X_i-1) \leq 0$, y por tanto: $$ E[X_i^2 - X_i \mid C] \leq 0 $$ La condición suficiente es que $0 \leq X_i \leq 1$ para todos los compliers.

Ejercicio 3: Ejercicio 3: Returns to College — Fuzzy RDD (25 pts)

Cap. 1Fuzzy RDD, Returns to College
[5 pts] ¿Es este un diseño sharp o fuzzy? Aproximadamente, ¿cuál es el efecto de ser admitido sobre salarios?
Respuesta: Es un diseño Fuzzy, porque la probabilidad de admisión no salta de 0 a 1 en el cutoff, sino de aproximadamente 0.5 a 0.75. Esto implica que hay always-takers (admitidos pese a estar bajo el umbral) y never-takers (no admitidos pese a estar sobre el umbral). El efecto causal de la admisión sobre los ingresos se obtiene del cociente entre el salto en el outcome y el salto en la probabilidad de tratamiento: $$ \tau_{\text{FRD}} = \frac{\Delta Y}{\Delta T} \approx \frac{7{,}700 - 7{,}150}{0.75 - 0.50} = \frac{550}{0.25} \approx \$2{,}200 $$ El salto en ingresos de \$550 es el ITT (intention-to-treat), no el efecto del tratamiento en sí. Al escalar por el primer etapa, el efecto de ser admitido es de aproximadamente \$2{,}200 para los compliers del umbral.
[10 pts] Sea $Y_i$ el ingreso posterior a la universidad del individuo $i$, $g_i$ la distancia entre su nota y el umbral (GPA distance), y $A_i$ el tratamiento de interés: $A_i = 1$ si fue admitido a FIU, $A_i = 0$ si no lo fue. ¿Qué modelo de regresión podríamos usar para estimar el efecto del tratamiento (es decir, la admisión universitaria) sobre el resultado de interés (ingresos)? Justifique su modelo y describa cómo lo estimaría.
Respuesta: Se debe usar un modelo de Regresión Discontinua Fuzzy (Fuzzy RDD) estimado por 2SLS, ya que la admisión $A_i$ es endógena (autoselección: estudiantes con mayor GPA pueden tener mayor capacidad no observada). El instrumento es cruzar el umbral: $$ Z_i = \mathbf{1}\{g_i \geq 0\} $$ Primera etapa: predice la admisión usando el instrumento, controlando por la running variable $g_i$ con pendientes diferenciadas a cada lado del cutoff: $$ A_i = \alpha + \pi Z_i + \beta_1 g_i + \beta_2 (g_i \cdot Z_i) + \varepsilon_i $$ Segunda etapa: usa la admisión predicha para estimar el efecto causal sobre ingresos: $$ Y_i = \mu + \tau \hat{A}_i + \gamma_1 g_i + \gamma_2 (g_i \cdot Z_i) + \eta_i $$ El coeficiente $\tau$ es el LATE para los compliers del umbral. La estimación se realiza dentro de un bandwidth óptimo alrededor del cutoff (e.g., método IK o CCT) para asegurar que la comparación sea local a estudiantes con GPA similar.
[5 pts] ¿Qué figura adicional le gustaría ver para evaluar la validez interna de estas estimaciones?
Respuesta: Varias figuras adicionales permitirían evaluar la validez interna:
  1. McCrary density test: la densidad de la running variable $g_i$ debe ser continua en el cutoff $g_i = 0$. Si hay un salto, sugiere manipulación del GPA alrededor del umbral (estudiantes esforzándose apenas para pasar).
  2. Placebo test con covariables: gráfico de covariables predeterminadas (edad, género, educación de los padres, ingresos previos) contra $g_i$. No deberían saltar en $g_i = 0$.
  3. Placebo test con cutoffs falsos: estimar el mismo modelo en cutoffs arbitrarios (e.g., $g_i = -0.15$, $g_i = 0.15$) donde no debería haber efecto.
  4. Sensibilidad al bandwidth: mostrar que $\hat{\tau}$ es estable para distintos valores del bandwidth alrededor del cutoff.
[5 pts] En base a la evidencia estudiada en el curso, ¿es el impacto positivo en ingresos evidencia de retorno por ``capital humano''? ¿Existe una explicación alternativa para este resultado?
Respuesta: El impacto positivo puede ser evidencia de retornos a capital humano, pero no es la única interpretación posible. Existen explicaciones alternativas:
  • Capital humano: la universidad enseña habilidades que aumentan la productividad del estudiante, y por tanto sus ingresos. Este canal es especialmente plausible para estudiantes marginales (compliers del umbral), que son justamente quienes más pueden beneficiarse de la educación al no tener alternativas equivalentes.
  • Señalización (signaling): el título universitario sirve como señal de capacidad innata ante los empleadores, independientemente de lo aprendido. Los ingresos aumentan no por mayor productividad, sino porque el título ``certifica'' que el estudiante tenía la capacidad de completar los estudios.
  • Credencialismo / licensing: el título es un requisito legal o institucional para acceder a ciertos empleos, como ocurre en profesiones reguladas (medicina, derecho, ingeniería). En este caso, el título no necesariamente refleja productividad.
  • Networking / efectos de pares: la universidad provee contactos y redes sociales que mejoran las oportunidades laborales, independientemente del aprendizaje académico.
El artículo de Zimmerman (2014) usa un diseño de Fuzzy RDD con estudiantes justo en el margen de admisión, lo que hace más creíble el canal de capital humano: estos estudiantes son similares en capacidad observada (GPA casi idéntico), y la diferencia en ingresos aparece solo porque unos fueron admitidos y otros no. Sin embargo, distinguir entre capital humano y señalización requeriría evidencia adicional (e.g., efectos nulos en ocupaciones donde el título no es necesario, o retornos heterogéneos por tipo de habilidad enseñada).

Ejercicio 4: Ejercicio 4: Skill-biased Technical Change (25 pts)

Cap. 5SBTC, CES, Skill Premium
[15 pts] Derive una expresión para el premio de habilidades $\omega = \frac{w_H}{w_L}$, donde $w_H$ y $w_L$ son los productos marginales (salarios) del trabajo calificado y no calificado. Exprese su respuesta en términos de $A_H$, $A_L$, $H$, $L$ y $\sigma$.
Respuesta: Una empresa competitiva maximiza beneficios tomando los precios $w_H$ y $w_L$ como dados: $$ \max_{H, L} \; \pi = \big[(A_L L)^\rho + (A_H H)^\rho\big]^{1/\rho} - w_H H - w_L L $$ Las condiciones de primer orden igualan el producto marginal de cada factor a su salario: $$ \begin{aligned} \frac{\partial \pi}{\partial H} = 0 &\Rightarrow w_H = \frac{\partial Y}{\partial H} = \frac{1}{\rho}\big[(A_L L)^\rho + (A_H H)^\rho\big]^{\frac{1}{\rho}-1} \cdot \rho (A_H H)^{\rho-1} \cdot A_H \\ &\Rightarrow w_H = \big[(A_L L)^\rho + (A_H H)^\rho\big]^{\frac{1-\rho}{\rho}} \cdot A_H^\rho \cdot H^{\rho-1} \$$6pt] \frac{\partial \pi}{\partial L} = 0 &\Rightarrow w_L = \frac{\partial Y}{\partial L} = \frac{1}{\rho}\big[(A_L L)^\rho + (A_H H)^\rho\big]^{\frac{1}{\rho}-1} \cdot \rho (A_L L)^{\rho-1} \cdot A_L \\ &\Rightarrow w_L = \big[(A_L L)^\rho + (A_H H)^\rho\big]^{\frac{1-\rho}{\rho}} \cdot A_L^\rho \cdot L^{\rho-1} \end{aligned} $$ El término $\big[(A_L L)^\rho + (A_H H)^\rho\big]^{\frac{1-\rho}{\rho}}$ se cancela al tomar el cociente: $$ \omega = \frac{w_H}{w_L} = \frac{A_H^\rho H^{\rho-1}}{A_L^\rho L^{\rho-1}} = \left(\frac{A_H}{A_L}\right)^\rho \left(\frac{H}{L}\right)^{\rho-1} $$ Usando la relación $\sigma = 1/(1-\rho)$, de donde $\rho = (\sigma-1)/\sigma$ y $\rho-1 = -1/\sigma$, obtenemos la expresión en términos de la elasticidad de sustitución: $$ $\;\omega = \left(\frac{A_H{A_L}\right)^{\frac{\sigma-1}{\sigma}} \left(\frac{H}{L}\right)^{-\frac{1}{\sigma}}\;} $$ Interpretación: El premio de habilidades $\omega$ depende positivamente de la ventaja tecnológica a favor del trabajo calificado ($A_H/A_L$) y negativamente de la abundancia relativa de trabajo calificado ($H/L$). La magnitud de estos efectos está gobernada por $\sigma$: cuando $\sigma > 1$ (sustitutos), un aumento en $H/L$ reduce $\omega$; cuando $\sigma < 1$ (complementos), lo aumenta.
[5 pts] Use el resultado anterior para calcular el log premio de habilidades $\ln(\omega)$, y obtenga su derivada con respecto a $\ln(H/L)$. Interprete el signo de esta expresión.
Respuesta: Partiendo del resultado del inciso (a): $$ \omega = \left(\frac{A_H}{A_L}\right)^{\frac{\sigma-1}{\sigma}} \left(\frac{H}{L}\right)^{-\frac{1}{\sigma}} $$ Tomando logaritmo natural: $$ \ln(\omega) = \frac{\sigma-1}{\sigma} \ln\left(\frac{A_H}{A_L}\right) - \frac{1}{\sigma} \ln\left(\frac{H}{L}\right) $$ Derivando con respecto a $\ln(H/L)$: $$ \frac{\partial \ln(\omega)}{\partial \ln(H/L)} = -\frac{1}{\sigma} $$ Interpretación: La derivada es la elasticidad del premio de habilidades respecto a la abundancia relativa de trabajo calificado. Es negativa, lo que implica que aumentar la oferta relativa de trabajadores calificados reduce el premio (curva de demanda relativa con pendiente negativa). La magnitud depende de $\sigma$:
  • Si $\sigma > 1$ (sustitutos): $-1/\sigma \in (-1, 0)$, el premio es \emph{inelástico} a cambios en $H/L$ — un aumento en la oferta de calificados reduce el premio menos que proporcionalmente.
  • Si $\sigma < 1$ (complementos): $-1/\sigma < -1$, el premio es \emph{elástico} — el mismo aumento en $H/L$ reduce el premio más que proporcionalmente.
  • Si $\sigma = 1$ (Cobb-Douglas): $-1/\sigma = -1$, elasticidad unitaria.
[5 pts] Estimaciones empíricas de Acemoglu y Autor sugieren que: $$ \ln(w_t) = \text{constante} + 0.027 \cdot t - 0.612 \cdot \ln\left(\frac{H_t}{L_t}\right) $$ ¿Cómo interpreta el signo y la magnitud de los coeficientes? Use estos parámetros para calcular la elasticidad de sustitución $\sigma$ (no es necesario calcular el número exacto, pero sí explicar cómo lo obtendría). ¿Es este resultado consistente con lo que usted y su grupo encontró para Chile en el Problem Set 2?
Respuesta: Interpretación de los coeficientes:
  1. Coeficiente de $t$ ($0.027$): es la tendencia temporal del log premio de habilidades. Indica que, manteniendo constante $H/L$, el premio de habilidades crece un $2.7\%$ anual. Esto refleja cambio tecnológico sesgado hacia el trabajo calificado (SBTC): $A_H/A_L$ aumenta cada año, incrementando el premio incluso si la oferta relativa de calificados no cambia.
  2. Coeficiente de $\ln(H/L)$ ($-0.612$): es la elasticidad del premio de habilidades respecto a la abundancia relativa de trabajo calificado. Un aumento de $1\%$ en $H/L$ reduce el premio en $0.612\%$. El signo negativo indica que el trabajo calificado y no calificado son sustitutos en la producción.
\bigskip Cálculo de $\sigma$: Del inciso (b), sabemos que: $$ \frac{\partial \ln(\omega)}{\partial \ln(H/L)} = -\frac{1}{\sigma} $$ En la regresión estimada, $\partial \ln(\omega)/\partial \ln(H/L) = -0.612$. Igualando: $$ -\frac{1}{\sigma} = -0.612 \quad \Longrightarrow \quad \sigma = \frac{1}{0.612} \approx 1.63 $$ La elasticidad de sustitución entre trabajo calificado y no calificado es $\sigma \approx 1.63 > 1$. Esto es consistente con la literatura: $H$ y $L$ son sustitutos, y un aumento en la oferta relativa de calificados reduce el premio de habilidades. \bigskip Consistencia con los resultados para Chile (PS2): [Completar con los resultados del Problem Set 2: valor de $\sigma$ estimado para Chile y si es consistente con $\sigma \approx 1.63$.]

Ejercicio 5: Ejercicio 5: Licensing Problem (25 pts)

Cap. 6Licensing, Mark-down
En muchos empleos del sector público, el salario está fijado por una escala nacional, pero los empleadores (e.g., hospitales o escuelas) pueden imponer criterios selectivos de contratación. Para este ejercicio, suponga que el empleador no puede fijar el salario $w$ (i.e., está exógenamente determinado), pero sí puede fijar un umbral de calidad $T$. Por ejemplo, un hospital solo contratará médicos que aprueben un examen con nota superior a $T$ luego de egresar de sus carreras. \bigskip Variables:
  • $S(T)$: horas que trabajan los médicos que califican con el umbral $T$ (oferta laboral). $S'(T) < 0$.
  • $p(T)$: productividad o valor de cada médico contratado (que cumple con estar por sobre el umbral $T$). $p'(T) > 0$.
  • $\pi(T) = [p(T) - w] S(T)$: beneficio total del empleador.
  • $\eta_p^T = \dfrac{\partial p(T)}{\partial T} \dfrac{T}{p(T)}$: elasticidad de la productividad al umbral.
  • $\eta_S^T = \dfrac{\partial S(T)}{\partial T} \dfrac{T}{S(T)}$: elasticidad de la oferta laboral al umbral.
[10 pts] Escriba la condición de primer orden del problema $\max_T \pi(T)$.
Respuesta: El empleador elige $T$ para maximizar el beneficio: $$ \max_T \; \pi(T) = [p(T) - w] S(T) $$ La condición de primer orden (CPO) es: $$ \frac{\partial \pi(T)}{\partial T} = p'(T) S(T) + [p(T) - w] S'(T) = 0 $$ Esta expresión tiene dos efectos de aumentar el umbral $T$:
  • Efecto positivo ($p'(T)S(T)$): al subir $T$, los médicos contratados son más productivos, lo que aumenta el beneficio por hora contratada.
  • Efecto negativo ($[p(T)-w]S'(T)$): al subir $T$, se reduce la oferta de médicos que califican ($S'(T) < 0$), lo que reduce el beneficio total.
En el óptimo, ambos efectos se igualan.
[10 pts] Usando la CPO, derive una expresión para $\dfrac{p(T) - w}{p(T)}$ en función de $\eta_p^T$ y $\eta_S^T$.
Respuesta: Partimos de la CPO: $$ p'(T) S(T) + [p(T) - w] S'(T) = 0 $$ Despejamos $[p(T) - w]$: $$ [p(T) - w] S'(T) = -p'(T) S(T) $$ $$ p(T) - w = -\frac{p'(T) S(T)}{S'(T)} $$ Dividimos ambos lados por $p(T)$: $$ \frac{p(T) - w}{p(T)} = -\frac{p'(T) S(T)}{p(T) S'(T)} $$ Multiplicamos numerador y denominador por $T/T$: $$ \frac{p(T) - w}{p(T)} = -\frac{p'(T) T}{p(T)} \cdot \frac{S(T)}{T S'(T)} = -\frac{p'(T) T / p(T)}{S'(T) T / S(T)} $$ Reconociendo las elasticidades $\eta_p^T = p'(T) T / p(T)$ y $\eta_S^T = S'(T) T / S(T)$: $$ $\;\frac{p(T) - w{p(T)} = -\frac{\eta_p^T}{\eta_S^T}\;} $$ Dado que $S'(T) < 0$, tenemos $\eta_S^T < 0$, por lo que $-\eta_p^T/\eta_S^T > 0$. Es decir, el lado izquierdo es positivo: el empleador paga un salario $w$ menor que la productividad $p(T)$, generando un mark-down.
[5 pts] Interprete esta fórmula y discuta su relación con el ``mark-down'' estudiado en clases.
Respuesta: Interpretación de la fórmula: $$ \frac{p(T) - w}{p(T)} = -\frac{\eta_p^T}{\eta_S^T} $$ El lado izquierdo es la proporción de la productividad que el empleador retiene como beneficio (la brecha entre productividad y salario, como fracción de la productividad). Esta brecha depende de dos elasticidades:
  • $\eta_p^T$ (elasticidad de la productividad al umbral): mide cuánto aumenta la productividad al endurecer el estándar. A mayor $\eta_p^T$, más beneficioso es subir $T$ (los médicos marginales son mucho más productivos), y mayor es el mark-down óptimo.
  • $\eta_S^T$ (elasticidad de la oferta al umbral): mide cuánto se reduce la oferta de trabajo al endurecer el estándar. Es negativa. A mayor $|\eta_S^T|$ (más sensible la oferta), menor es el mark-down porque subir $T$ reduce mucho la cantidad de trabajadores disponibles.
\bigskip Relación con el mark-down de monopsonio: En el modelo estándar de monopsonio visto en clases, el empleador con poder de mercado fija un salario $w$ por debajo del producto marginal del trabajo ($p$). El mark-down se define como: $$ \frac{p - w}{p} = \frac{1}{\eta_S^w} $$ donde $\eta_S^w$ es la elasticidad de la oferta laboral al salario (positiva). A mayor elasticidad de oferta, menor es el mark-down porque los trabajadores responden más a cambios en $w$. En este ejercicio, el empleador no fija $w$ (está dado institucionalmente), pero puede fijar el umbral de calidad $T$. La expresión derivada es análoga al mark-down de monopsonio, pero con dos diferencias:
  1. Aparece $\eta_p^T$ porque el empleador no solo afecta la cantidad contratada al cambiar $T$, sino también la productividad promedio de los contratados.
  2. La elasticidad relevante es respecto a $T$ (el umbral), no respecto a $w$ (el salario).
Intuición económica: así como un monopsonista explota su poder de mercado pagando un salario menor a la productividad, el empleador público explota su capacidad de fijar estándares de contratación para generar una brecha entre productividad y salario. La magnitud de esa brecha depende de qué tan sensible es la productividad al estándar ($\eta_p^T$) y qué tan sensible es la oferta laboral al estándar ($\eta_S^T$).

Ejercicio 6: Ejercicio 6: Oferta Laboral y Selección (25 pts)

Cap. 2Oferta Laboral, Heckman, Frisch
Un investigador quiere estimar la elasticidad de la oferta laboral femenina al salario. Tiene un corte transversal de mujeres donde observa $Y_i$ = horas trabajadas, $w_i$ = salario por hora, $X_i$ = controles (edad, educación, hijos). Solo observa el salario de quienes trabajan ($Y_i > 0$).
[8 pts] Efecto ingreso y sustitución. Parta del modelo estático de oferta laboral con utilidad $U(C, L)$ donde $L$ es ocio y $C$ es consumo, con restricción presupuestaria $C = wH + V$ donde $H = \bar{T} - L$ son horas trabajadas y $V$ es ingreso no laboral. Derive la condición de optimalidad y explique por qué un aumento en $w$ tiene un efecto ambiguo sobre $H$. ¿Qué determina si domina el efecto sustitución o el efecto ingreso? Referencia: Capítulo 2, Sección 1.
Respuesta: El individuo maximiza $U(C, L)$ sujeto a $C = w(\bar{T} - L) + V$. La CPO es: $$ \frac{U_L}{U_C} = w \quad \text{(TMS = salario)} $$ Un aumento en $w$ tiene dos efectos:
  • Efecto sustitución: el ocio se encarece relativo al consumo $\Rightarrow$ reduce ocio $\Rightarrow$ aumenta $H$.
  • Efecto ingreso: mayor $w$ aumenta el ingreso real $\Rightarrow$ aumenta consumo de ocio (bien normal) $\Rightarrow$ reduce $H$.
El efecto total es ambiguo y depende de la magnitud relativa de ambos. Si el ocio es un bien normal, el efecto ingreso va en contra del efecto sustitución. La elasticidad Hicksiana (compensada) es siempre positiva; la elasticidad Marshaliana (no compensada) puede ser positiva o negativa. Ver libro Cap. 2, Slutsky para oferta laboral.
[9 pts] Heckman Selection Bias. Explique por qué OLS de $Y_i$ sobre $w_i$ usando solo mujeres que trabajan produce estimadores sesgados. Formalice el problema usando la ecuación de selección: $T_i^* = \gamma Z_i + \eta_i$, donde $T_i = 1$ si $T_i^* > 0$ (trabaja) y $w_i$ solo se observa si $T_i = 1$. ¿Qué supuesto permite identificar el modelo de Heckman (two-step)? Referencia: Capítulo 2, Sección 2.
Respuesta: El problema es que solo observamos el salario $w_i$ para quienes trabajan ($Y_i > 0$). Si la decisión de trabajar está correlacionada con factores no observados que también afectan las horas (motivación, preferencias por trabajo), entonces: $$ \E[Y_i \mid T_i = 1, w_i] \neq \E[Y_i \mid w_i] $$ Formalmente, el modelo de Heckman (1979) plantea: \begin{aligned} \text{Ecuación de horas:} \quad Y_i &= \beta w_i + \delta X_i + \varepsilon_i \\ \text{Ecuación de participación:} \quad T_i^* &= \gamma Z_i + \eta_i, \quad T_i = \mathbf{1}\{T_i^* > 0\} \end{aligned} con $(\varepsilon_i, \eta_i)$ correlacionados. Bajo normalidad conjunta: $$ \E[Y_i \mid T_i = 1, w_i, X_i] = \beta w_i + \delta X_i + \rho \sigma_\varepsilon \lambda(\gamma Z_i) $$ donde $\lambda(\cdot) = \phi(\cdot)/\Phi(\cdot)$ es el inverse Mills ratio. Omitir $\lambda(\cdot)$ genera sesgo por selección muestral. El supuesto identificador clave es que exista al menos una variable en $Z_i$ que afecte la participación pero no las horas (exclusión en la ecuación de horas). Ver libro Cap. 2, Sección 2.2.
[8 pts] Elasticidad Frisch. Defina la elasticidad Frisch de oferta laboral. ¿En qué se diferencia de las elasticidades Marshaliana y Hicksiana? ¿Qué parámetro es relevante para evaluar el efecto de cambios impositivos transitorios versus permanentes? Referencia: Capítulo 2, Sección 4.
Respuesta: Las tres elasticidades son:
  • Marshaliana (no compensada): $\eta_M = \frac{\partial H}{\partial w} \frac{w}{H}$ — incluye efecto ingreso y sustitución. Apropiada para cambios permanentes en $w$.
  • Hicksiana (compensada): $\eta_H = \frac{\partial H^c}{\partial w} \frac{w}{H}$ — solo efecto sustitución (mantiene utilidad constante). Siempre positiva.
  • Frisch: $\eta_F = \frac{\partial H}{\partial w} \frac{w}{H}$ manteniendo constante la utilidad marginal de la riqueza $\lambda$. Relevante para cambios transitorios en $w$ en un modelo dinámico.
La elasticidad Frisch es la más apropiada para evaluar cambios impositivos transitorios (ej: un bono temporal) porque en un modelo de ciclo de vida, el individuo puede reasignar horas entre períodos. Para cambios permanentes, la elasticidad Marshaliana (o Hicksiana) es la relevante. Típicamente $\eta_F > \eta_H > \eta_M$, y la literatura encuentra $\eta_F \approx 0.3-0.5$ para hombres y mayor para mujeres. Ver libro Cap. 2, Sección 4.2.

Ejercicio 7: Ejercicio 7: Capital Humano y Retornos a la Educación (25 pts)

Cap. 3Capital Humano, Mincer, Signaling
Considere la ecuación de Mincer: $\ln Y_i = \alpha + \beta S_i + \gamma_1 Exp_i + \gamma_2 Exp_i^2 + \varepsilon_i$, donde $S$ son años de educación, $Exp$ es experiencia laboral, y $Y$ son ingresos.
[7 pts] Ecuación de Mincer y Ability Bias. Derive la ecuación de Mincer a partir del modelo de capital humano (Ben-Porath). ¿Por qué OLS de $\ln Y_i$ sobre $S_i$ entrega un estimador $\hat{\beta}$ sesgado de la tasa de retorno a la educación? Proponga una estrategia de identificación para corregir este sesgo. Referencia: Capítulo 3, Secciones 1--2.
Respuesta: La ecuación de Mincer se deriva de un modelo donde los individuos eligen $S$ años de educación (costo = ingreso no percibido) y reciben un retorno $\beta$ por cada año adicional. Bajo el supuesto de que los años de ingreso post-educación son los mismos independientemente de $S$, se obtiene: $$ \ln Y(S) = \ln Y_0 + \beta S + \gamma_1 Exp + \gamma_2 Exp^2 $$ Sesgo por habilidad (ability bias): OLS es sesgado si $\Cov(S_i, \varepsilon_i) \neq 0$, lo que ocurre porque personas con mayor habilidad innata ($\varepsilon_i$) tienden a obtener más educación ($S_i$). Esto genera un sesgo hacia arriba: $\hat{\beta}_{OLS} > \beta$. Estrategia de identificación: usar variables instrumentales. Los instrumentos clásicos son:
  • Cuarto de nacimiento (Quarter of Birth, Angrist \& Krueger, 1991): personas nacidas en distintos trimestres tienen distinta edad al entrar a la escuela y por tanto distinta educación obligatoria.
  • Cambios en la edad de escolaridad obligatoria como instrumento (Card, 1995).
Alternativamente, gemelos idénticos (diferencias dentro de la familia eliminan habilidad no observada compartida). Ver libro Cap. 3, Sección 2.3.
[8 pts] Capital Humano vs. Señalización. La teoría del capital humano predice que la educación aumenta la productividad. La teoría de señalización (Spence, 1973) predice que la educación solo revela habilidad innata. Diseñe un test empírico para distinguir entre ambas teorías. ¿Qué predeciría cada una sobre los retornos a educación para grupos con distinto costo de señalización? Referencia: Capítulo 3, Sección 3.
Respuesta: Predicciones contrastantes:
  • Capital humano: la educación crea productividad. Individuos con la misma educación pero distinta habilidad innata deberían tener retornos similares si el contenido educativo es el mismo.
  • Señalización: la educación solo revela productividad. Si el costo de educarse es menor para personas más hábiles, en equilibrio solo ellas obtienen educación. Quienes no se educan tienen menor habilidad, no porque la educación no enseñe nada.
Test empírico: comparar retornos para grupos con distinto costo de señalización. Por ejemplo:
  • Personas con discapacidades de aprendizaje (mayor costo de señalización): si la educación es solo señal, debieran tener menor retorno porque la señal es más costosa de adquirir. Si es capital humano, el retorno debiera ser similar (asumiendo que aprenden igual).
  • Personas que entran a la universidad por sorteo (ej: Zimmerman 2014): si el título universitario es solo señal, el efecto de ser admitido debiera ser grande para quienes obtienen el título pero pequeño para quienes entran pero no se titulan. Si es capital humano, incluso quienes no se titulan debieran mostrar algún retorno por los conocimientos adquiridos.
La evidencia sugiere que ambos canales operan, pero el de capital humano explica la mayor parte del retorno. Ver libro Cap. 3, Sección 3.3.
[5 pts] Roy Model. Explique el modelo de Roy (1951) de autoselección ocupacional. Si hay dos ocupaciones (pesca y caza) con distinta dispersión salarial, ¿qué tipo de personas elige cada una? ¿Cómo sesga esto las estimaciones OLS del retorno a cambiar de ocupación? Referencia: Capítulo 3, Sección 5.
Respuesta: El modelo de Roy describe cómo los trabajadores se autoseleccionan en ocupaciones según su ventaja comparativa. Suponga dos ocupaciones con salarios: $$ \ln w_{1i} = \mu_1 + \varepsilon_{1i}, \quad \ln w_{2i} = \mu_2 + \varepsilon_{2i} $$ donde $(\varepsilon_1, \varepsilon_2)$ tiene correlación $\rho$. Cada individuo elige la ocupación que maximiza su ingreso. Patrones de selección:
  • Si $\sigma_1 > \sigma_2$ (pesca más dispersa que caza): los individuos con alta habilidad en pesca ($\varepsilon_1$ grande) eligen pesca; los de baja habilidad en pesca eligen caza. Hay selección positiva en pesca y selección negativa en caza.
  • Si $\rho$ es alta (habilidades transferibles): la mayoría elige la ocupación con mayor media $\mu$.
Sesgo en OLS: si comparamos salarios medios entre ocupaciones, OLS sobreestima el retorno a cambiar de ocupación porque quienes eligen cada ocupación tienen ventaja comparativa en ella. El retorno promedio para un individuo aleatorio sería menor que la diferencia observada entre ocupaciones. Ver libro Cap. 3, Sección 5.1.
[5 pts] Calidad Docente. ¿Cómo estimaría el efecto causal de la calidad del profesor sobre los resultados de los estudiantes? Discuta el uso de value-added models y sus limitaciones. Referencia: Capítulo 3, Sección 4.
Respuesta: Los value-added models (VAM) estiman el efecto del profesor $j$ sobre el puntaje del estudiante $i$ como: $$ Y_{it} = \beta Y_{i,t-1} + \gamma X_{it} + \theta_j + \varepsilon_{it} $$ donde $\theta_j$ es el ``valor agregado'' del profesor (efecto fijo). Limitaciones:
  1. Asignación no aleatoria: estudiantes más hábiles pueden ser asignados a ciertos profesores. Si bien controlar por $Y_{i,t-1}$ ayuda, persiste sesgo si hay tendencias no lineales.
  2. Error de medición: los $\hat{\theta}_j$ se estiman con ruido, y al usarlos como regresores en otra etapa se produce shrinkage (contracción hacia la media, como en Chetty et al.).
  3. Efectos de pares: el VAM puede confundir efecto del profesor con efecto de los compañeros.
La mejor evidencia combina VAM con experimentos naturales (ej: asignación aleatoria de profesores a aulas dentro de una escuela, o uso de la movilidad de profesores entre escuelas como instrumento). Ver libro Cap. 3, Sección 4.3.

Ejercicio 8: Ejercicio 8: Demanda Laboral y Marshall-Hicks (25 pts)

Cap. 4Demanda Laboral, Marshall-Hicks
Una empresa produce usando trabajo $L$ y capital $K$ con una función de producción Cobb-Douglas $Y = L^\alpha K^\beta$, con $\alpha + \beta < 1$ (rendimientos decrecientes). El salario $w$ y el costo del capital $r$ son dados.
[8 pts] Demanda de Corto y Largo Plazo. Derive la demanda de trabajo de corto plazo (capital fijo en $\bar{K}$) y de largo plazo (capital variable). Muestre que la demanda de largo plazo es más elástica que la de corto plazo. ¿Por qué? Referencia: Capítulo 4, Secciones 1--2.
Respuesta: Corto plazo ($K = \bar{K}$ fijo): la empresa maximiza $\pi = L^\alpha \bar{K}^\beta - wL - r\bar{K}$. La CPO es: $$ \alpha L^{\alpha-1} \bar{K}^\beta = w \quad \Rightarrow \quad L_{SR} = \left(\frac{\alpha \bar{K}^\beta}{w}\right)^{1/(1-\alpha)} $$ La elasticidad corto plazo es: $\eta_{SR} = -\frac{1}{1-\alpha}$. Largo plazo ($K$ variable): maximizamos $\pi = L^\alpha K^\beta - wL - rK$. Las CPO son: \begin{aligned} \alpha L^{\alpha-1} K^\beta &= w \\ \beta L^\alpha K^{\beta-1} &= r \end{aligned} Resolviendo: $$ L_{LR} = \left[\left(\frac{\alpha}{w}\right)^{1-\beta} \left(\frac{\beta}{r}\right)^\beta \right]^{1/(1-\alpha-\beta)} $$ La elasticidad largo plazo es: $\eta_{LR} = -\frac{1-\beta}{1-\alpha-\beta}$. Comparación: $\eta_{LR} > \eta_{SR}$ en valor absoluto porque a largo plazo la empresa puede ajustar ambos factores, sustituyendo capital por trabajo cuando $w$ sube. El efecto sustitución entre factores solo opera a largo plazo. Ver libro Cap. 4, Sección 2.3.
[9 pts] Reglas de Marshall-Hicks. Enuncie las cuatro reglas de Marshall-Hicks sobre la elasticidad de la demanda laboral. Aplíquelas al caso de: (i) trabajadores de la construcción vs.\ trabajadores de salud en un sistema público; (ii) conductores de Uber versus conductores de taxi con licencia. Referencia: Capítulo 4, Sección 3.
Respuesta: Las cuatro reglas de Marshall-Hicks establecen que la demanda por trabajo es más elástica cuando:
  1. La elasticidad de sustitución entre factores ($\sigma$) es alta.
  2. La elasticidad de demanda por el producto final es alta.
  3. La participación del trabajo en los costos totales es alta.
  4. La oferta de otros factores (capital) es más elástica.
Aplicaciones:
  • Construcción vs.\ Salud pública: la construcción tiene mayor elasticidad de demanda porque (1) el producto final es más elástico (la vivienda tiene sustitutos, la salud pública no), (2) la participación del trabajo es mayor en construcción, y (3) hay más sustitución con capital (maquinaria vs.\ albañiles) que en salud (es difícil reemplazar médicos con máquinas).
  • Uber vs.\ Taxis: los conductores de Uber tienen demanda más elástica porque (1) Uber puede reclutar conductores fácilmente (oferta de trabajo elástica), (2) hay sustitutos cercanos (Lyft, Didi), y (3) el trabajo es una alta proporción del costo del servicio. Los taxistas con licencia tienen demanda más inelástica porque las licencias restringen la oferta de conductores.
Ver libro Cap. 4, Sección 3.1.
[8 pts] Efectos Cruzados entre Factores. Suponga que el gobierno subsidia el uso de robots ($K$ se abarata). Usando el marco de demanda derivada, analice el efecto sobre el empleo de trabajadores calificados ($H$) y no calificados ($L$) bajo dos escenarios: (i) $H$ y $L$ son sustitutos de $K$; (ii) $H$ es complemento de $K$, $L$ es sustituto. Referencia: Capítulo 4, Sección 4.
Respuesta: Una caída en $r$ (costo del capital) tiene dos efectos sobre el empleo de cada factor: Efecto sustitución: las empresas reemplazan factores más caros por capital más barato, reduciendo la demanda de factores que son sustitutos de $K$. Efecto escala: el costo marginal cae, la empresa produce más, y aumenta la demanda de todos los factores (complementariedad por expansión). Escenario (i) $H$ y $L$ sustitutos de $K$: el efecto sustitución reduce la demanda de $H$ y $L$, mientras el efecto escala la aumenta. El efecto neto es ambiguo y depende de la elasticidad de demanda del producto final. Escenario (ii) $H$ complemento de $K$, $L$ sustituto de $K$: la caída en $r$ aumenta la demanda de $H$ (efecto sustitución positivo porque son complementos) y reduce la de $L$ (efecto sustitución negativo). El efecto escala aumenta la demanda de ambos. El resultado: $H$ probablemente aumenta (ambos efectos en la misma dirección), $L$ tiene un efecto ambiguo (sustitución negativa, escala positiva). Este es el mecanismo del SBTC: el capital (computerizado) es complemento de $H$ y sustituto de $L$, generando polarización. Ver libro Cap. 4, Sección 4.2 y Cap. 5.

Ejercicio 9: Ejercicio 9: Modelo DMP de Búsqueda y Desempleo (25 pts)

Cap. 7DMP, Búsqueda, Desempleo
Considere el modelo Diamond-Mortensen-Pissarides (DMP) en estado estacionario. Hay una masa de trabajadores normalizada a 1, y una masa de firmas que entran libremente. El flujo de matches está dado por la función de matching $M(u, v) = A u^\alpha v^{1-\alpha}$, donde $u$ es la tasa de desempleo, $v$ es la tasa de vacantes, $A$ es la eficiencia del matching, y $\alpha \in (0,1)$.
[8 pts] Curva de Beveridge y Equilibrio. Defina la condición de flujo de estado estacionario para el desempleo y derive la curva de Beveridge (relación entre $u$ y $v$). Grafíquela. ¿Qué desplaza la curva de Beveridge? ¿Qué la mueve a lo largo de la curva? Referencia: Capítulo 7, Secciones 1--2.
Respuesta: En estado estacionario, los flujos hacia el empleo y desde el empleo se igualan. Sea $s$ la tasa de destrucción de empleos (exógena) y $f(\theta) = M/u = A \theta^{1-\alpha}$ la tasa de llegada de ofertas a un desempleado, donde $\theta = v/u$ es la tightness del mercado. La condición de flujo es: $$ s(1-u) = f(\theta) u \quad \Rightarrow \quad u = \frac{s}{s + f(\theta)} $$ La curva de Beveridge relaciona $u$ y $v$: $$ u = \frac{s}{s + A (v/u)^{1-\alpha}} \quad \text{o equivalentemente} \quad v = \left( \frac{s(1-u)}{A u} \right)^{1/(1-\alpha)} u $$ Tiene pendiente negativa en el espacio $(u, v)$.
  • Desplazamientos: cambios en $s$ (destrucción) o $A$ (eficiencia del matching). Una mayor $A$ desplaza la curva hacia adentro (menos desempleo para cada nivel de vacantes). Una mayor $s$ la desplaza hacia afuera.
  • Movimientos a lo largo: cambios en la creación de vacantes por parte de las firmas (shocks de productividad, cambios en el costo de publicar vacantes).
Ver libro Cap. 7, Sección 2.2 y Figura 7.1.
[9 pts] Ecuaciones de Valor y Nash Bargaining. Escriba las ecuaciones de Bellman para un trabajador empleado ($W$), un trabajador desempleado ($U$), una firma con un puesto ocupado ($J$) y una firma con vacante ($V$). Bajo entrada libre ($V = 0$), derive la job creation condition. Luego, asuma que el salario se determina por negociación Nash con poder de negociación del trabajador $\beta$. Derive el salario de equilibrio y explique por qué el desempleado tiene poder de negociación (outside option). Referencia: Capítulo 7, Secciones 3--4.
Respuesta: Las ecuaciones de Bellman en tiempo continuo son (donde $p$ es productividad, $w$ salario, $c$ costo de vacante, $z$ ingreso del desempleado, $r$ tasa de descuento): \begin{aligned} rW &= w + s(U - W) \\ rU &= z + \theta q(\theta)(W - U) \quad \text{con } q(\theta) = M/v = A\theta^{-\alpha} \\ rJ &= (p - w) + s(V - J) \\ rV &= -c + q(\theta)(J - V) \end{aligned} Bajo entrada libre ($V = 0$), de $rV = 0$ obtenemos la job creation condition: $$ 0 = -c + q(\theta) J \quad \Rightarrow \quad J = \frac{c}{q(\theta)} = \frac{c}{A} \theta^\alpha $$ Nash bargaining: el salario se negocia dividiendo el excedente total $S = (W - U) + (J - V)$ con participación $\beta$ para el trabajador: $$ W - U = \beta S, \quad J - V = (1-\beta)S $$ De la ecuación de $J$ y $rU$, el salario de equilibrio es: $$ w = \beta(p + c\theta) + (1-\beta)z $$ Outside option: el desempleado tiene poder de negociación porque puede rechazar la oferta y seguir buscando. Su amenaza ($U$) depende del ingreso $z$ y de la probabilidad de encontrar otro empleo ($\theta q(\theta)(W-U)$). A mayor $z$ o mayor $\theta$, mejor es su outside option y mayor el salario negociado. Ver libro Cap. 7, Sección 4.2.
[8 pts] Condición de Hosios y Eficiencia. Derive la condición de Hosios (1990) para la eficiencia del equilibrio descentralizado. ¿Qué distorsiones genera un mercado de búsqueda? ¿Qué política corregiría un equilibrio ineficiente? Aplique al caso chileno: ¿cómo afecta el seguro de desempleo a la eficiencia del mercado laboral? Referencia: Capítulo 7, Sección 5.
Respuesta: En el mercado de búsqueda hay dos externalidades:
  • Externalidad de congestión: al crear una vacante, la firma reduce la probabilidad de que otras firmas llenen sus vacantes.
  • Externalidad de espesor de mercado: al buscar empleo, el desempleado aumenta la probabilidad de que las firmas llenen sus vacantes.
La condición de Hosios establece que el equilibrio es eficiente si y solo si el poder de negociación del trabajador $\beta$ iguala la elasticidad del matching respecto al desempleo $\alpha$: $$ \beta = \alpha $$ Si $\beta < \alpha$, hay muy pocas vacantes (desempleo ineficientemente alto). Si $\beta > \alpha$, hay demasiadas vacantes (desempleo ineficientemente bajo). Políticas: si $\beta \neq \alpha$, el gobierno puede corregir la ineficiencia con:
  • Subsidios a la creación de vacantes (si $\beta > \alpha$)
  • Impuestos a las vacantes o seguro de desempleo generoso (si $\beta < \alpha$)
Caso chileno: el seguro de desempleo (Cuenta Individual de Cesantía + Fondo Solidario) aumenta $z$ (ingreso del desempleado), lo que mejora la outside option del trabajador y aumenta $w$ (vía bargaining). Esto reduce la creación de vacantes ($\theta$ cae) y aumenta el desempleo. Si el seguro es muy generoso, puede alejar el equilibrio del óptimo de Hosios. La evidencia para Chile sugiere que el seguro de cesantía tiene efectos moderados sobre la duración del desempleo, posiblemente porque el sistema de cuentas individuales internaliza parcialmente el costo. Ver libro Cap. 7, Sección 5.2.

Ejercicio 10: Ejercicio 10: Dispersión Salarial y Búsqueda en el Empleo (25 pts)

Cap. 8Burdett-Mortensen, Dispersión Salarial
Considere el modelo de Burdett-Mortensen (1998) con búsqueda en el empleo (on-the-job search). Hay una masa continua de trabajadores y firmas. Las firmas publican salarios $w$ y los trabajadores reciben ofertas a una tasa $\lambda_0$ cuando están desempleados y $\lambda_1$ cuando están empleados. Los trabajadores son idénticos en productividad $p$. Las ofertas llegan de la distribución de salarios $F(w)$ que es endógena.
[9 pts] Comportamiento del Trabajador. Explique por qué un trabajador empleado acepta una oferta externa solo si $w' > w$. Derive la función de valor de un empleado con salario actual $w$, $V(w)$, y de un desempleado $V_u$. ¿Qué implica la búsqueda en el empleo para la distribución de salarios? Referencia: Capítulo 8, Sección 1.
Respuesta: Un trabajador empleado compara su salario actual $w$ con cualquier oferta externa $w'$. Solo acepta si $w' > w$ (mejora salarial). Esto genera job-to-job transitions y explica por qué hay trabajadores con la misma productividad ganando salarios distintos. Las ecuaciones de Bellman (en tiempo continuo con descuento $r$) son: \begin{aligned} rV(w) &= w + \lambda_1 \int_{w}^{\bar{w}} [V(w') - V(w)] \, dF(w') + s[V_u - V(w)] \\ rV_u &= b + \lambda_0 \int_{\underline{w}}^{\bar{w}} [V(w') - V_u] \, dF(w') \end{aligned} donde $b$ es el ingreso del desempleo y $s$ la tasa de destrucción. Implicancia: la búsqueda en el empleo genera una distribución de salarios $F(w)$ no degenerada incluso con trabajadores idénticos. Los trabajadores suben de salario a medida que reciben ofertas mejores (job ladder), pero nunca aceptan salarios más bajos. Esto produce dispersión salarial como fenómeno de equilibrio: firmas que pagan distinto salario coexisten porque los trabajadores no se cambian instantáneamente a la firma que paga más (hay fricciones de búsqueda). Ver libro Cap. 8, Sección 1.2.
[8 pts] Comportamiento de la Firma y Distribución de Equilibrio. Derive la función de beneficios de una firma que paga salario $w$. ¿Por qué las firmas eligen pagar salarios distintos? Explique cómo se determina la distribución de equilibrio $F(w)$. Referencia: Capítulo 8, Sección 2.
Respuesta: Una firma que paga salario $w$ tiene un stock de trabajadores $N(w)$ dado por el flujo de trabajadores que aceptan su oferta menos los que se van. En estado estacionario, la función de beneficios por trabajador es: $$ \pi(w) = (p - w) N(w) $$ El tamaño de la firma $N(w)$ es creciente en $w$: a mayor salario, más trabajadores aceptan la oferta y menos se van (porque hay menos ofertas externas mejores). Las firmas enfrentan un trade-off: salarios más altos atraen y retienen más trabajadores, pero reducen el margen por trabajador $(p-w)$. En equilibrio, las firmas son heterogéneas en el salario que pagan porque son indiferentes entre pagar un salario alto (muchos trabajadores, bajo margen) y uno bajo (pocos trabajadores, alto margen). La condición de indiferencia implica: $$ \pi(w) = \pi(\underline{w}) \quad \forall w $$ Esto determina la distribución de salarios $F(w)$ que es continua y creciente en $[\underline{w}, \bar{w}]$. La distribución tiene un salario mínimo $\underline{w} = b$ (el ingreso del desempleo) y un salario máximo $\bar{w} = p$ (la productividad). Ver libro Cap. 8, Sección 2.1.
La forma de la distribución de salarios. ¿Qué extensión del modelo (Postel-Vinay \& Robin, 2002) mejora el ajuste empírico? Referencia: Capítulo 8, Secciones 3--4.
Respuesta: Predicción 1: Salario y tenure. El BM predice que los trabajadores con mayor tenure tienen salarios más altos (porque han tenido más tiempo para recibir ofertas externas y subir en la escalera salarial). Esto es consistente con los datos: existe una correlación positiva entre tenure y salario. Sin embargo, el BM también predice que los trabajadores se cambian de firma cada vez que reciben una oferta mejor, lo que implica que el salario depende solo del tiempo en el mercado laboral, no de la firma actual. En los datos, hay un efecto firma persistente. Predicción 2: Distribución de salarios. El BM genera una distribución de salarios con densidad decreciente (muchas firmas pagan salarios bajos, pocas pagan altos). Esto contrasta con los datos, donde la distribución es aproximadamente normal-log o con cola derecha larga. Extensión PVR (Postel-Vinay \& Robin, 2002): introducen negociación secuencial (sequential auction): cuando un trabajador recibe una oferta externa, su empleador actual puede contraofertar para retenerlo. Esto genera:
  • Mayor persistencia del efecto firma: los trabajadores no siempre se cambian ante una oferta mejor, pueden renegociar.
  • Distribución de salarios más realista, con compresión en la cola inferior y dispersión en la cola superior.
  • Predice que trabajadores con mayor productividad terminan en firmas que pagan más (sorting positivo).
Ver libro Cap. 8, Sección 4 y Cap. 9, Sección 1.

Ejercicio 11: Ejercicio 11: Descomposición AKM y Brecha de Género (25 pts)

Cap. 9AKM, Brecha de Género
El modelo AKM (Abowd, Kramarz \& Margolis, 1999) descompone el log salario del trabajador $i$ en la firma $j(i,t)$ en el año $t$ como: $$ \ln w_{it} = \alpha_i + \psi_{j(i,t)} + X_{it}'\beta + \varepsilon_{it} $$ donde $\alpha_i$ es el efecto trabajador (habilidad portable), $\psi_j$ es el efecto firma (premio salarial de la firma), y $X_{it}$ son controles observables.
[8 pts] Identificación y Limitaciones. ¿Qué supuestos se requieren para identificar $\alpha_i$ y $\psi_j$ por separado? Explique el problema de los móviles (workers que cambian de firma) y por qué las firmas que nunca contratan ni pierden trabajadores no tienen $\psi_j$ identificado. ¿Qué es el efecto Limited Mobility Bias (LMB)? Referencia: Capítulo 9, Sección 1.
Respuesta: Supuestos de identificación:
  1. Movilidad exógena: los movimientos entre firmas no están correlacionados con el error $\varepsilon_{it}$ (no hay selección por shocks salariales transitorios).
  2. Conexión suficiente: la red de movilidad entre firmas debe ser conexa (todos los $\psi_j$ se identifican relativo a una firma de referencia).
Rol de los móviles: los efectos trabajador y firma no se pueden separar si cada trabajador permanece siempre en la misma firma. Los móviles (trabajadores que cambian de firma) son los que identifican los $\psi_j$: cuando un trabajador se mueve de la firma $A$ a la $B$, su cambio salarial (controlando por $\alpha_i$) revela la diferencia $\psi_B - \psi_A$. Firmas que nunca intercambian trabajadores con otras (aisladas) no tienen $\psi_j$ identificado. Limited Mobility Bias (LMB): cuando muchos trabajadores no se mueven o la red de movilidad es poco densa, los $\hat{\psi}_j$ se estiman con ruido (pocos movimientos por firma). Andrews et al. (2008, 2012) muestran que esto genera un sesgo positivo en la varianza estimada de $\psi_j$ y en la correlación entre $\alpha_i$ y $\psi_j$ (sorting). Se requieren correcciones por two-way FE con muchos clústeres pequeños. Ver libro Cap. 9, Sección 1.3.
[8 pts] Descomposición de la Desigualdad. Usando AKM, la varianza de $\ln w$ se descompone como: $\Var(\ln w) = \Var(\alpha) + \Var(\psi) + 2\Cov(\alpha, \psi) + \Var(X\beta) + \Var(\varepsilon)$. Interprete cada término. ¿Qué significa que $\Cov(\alpha, \psi) > 0$? ¿Qué implicancias tiene para la desigualdad salarial que el $\Var(\psi)$ haya aumentado en el tiempo? Referencia: Capítulo 9, Sección 2.
Respuesta: Interpretación de los términos:
  • $\Var(\alpha)$: desigualdad por diferencias en habilidad portable entre trabajadores (educación, experiencia, habilidad innata).
  • $\Var(\psi)$: desigualdad por diferencias entre firmas en el premio salarial que pagan. Refleja poder de mercado, productividad, rentabilidad de cada firma.
  • $\Cov(\alpha, \psi)$: sorting entre trabajadores y firmas. Si es positivo, los trabajadores más hábiles están en las firmas que pagan mejores premios (sorting positivo). Si es negativo, hay sorting negativo.
  • $\Var(X\beta)$: desigualdad explicada por observables (edad, educación, etc.).
  • $\Var(\varepsilon)$: desigualdad residual (shocks transitorios, error de medición).
$\Cov(\alpha, \psi) > 0$: significa que hay sorting positivo — los trabajadores más productivos trabajan en las mejores firmas. Esto amplifica la desigualdad: la diferencia entre un trabajador hábil en una buena firma y uno no hábil en una mala firma es mayor que la suma de sus efectos individuales. Aumento de $\Var(\psi)$ en el tiempo: si la dispersión de premios entre firmas ha aumentado, significa que cada vez importa más dónde trabajas para determinar tu salario. Esto puede deberse a: (i) mayor heterogeneidad entre firmas por globalización/tecnología, (ii) aumento del poder de mercado de ciertas firmas (superstar firms), (iii) debilitamiento de instituciones compresoras como sindicatos o salario mínimo. La evidencia muestra que $\Var(\psi)$ explica una porción creciente de la desigualdad total en EE.UU. y Europa. Ver libro Cap. 9, Sección 2.2.
[9 pts] Brecha de Género. Aplique la descomposición AKM para analizar la brecha salarial de género. ¿Qué fracción de la brecha se debe a diferencias en $\alpha_i$ (habilidad) vs.\ diferencias en $\psi_j$ (segregación ocupacional/firma)? ¿Cómo se relaciona la brecha con la elasticidad de oferta laboral femenina (menor elasticidad $\Rightarrow$ mayor markdown)? Referencia: Capítulo 9, Sección 3 y Capítulo 6.
Respuesta: La brecha salarial de género se descompone en tres canales usando AKM:
  1. Diferencias en $\alpha_i$: mujeres y hombres pueden tener distintos niveles de habilidad observada (educación, experiencia) o no observada. La brecha por experiencia interrumpida (hijos) es la más documentada.
  2. Diferencias en $\psi_j$ (segregación): mujeres trabajan en firmas que pagan menores premios salariales (efecto firma). Esto refleja segregación ocupacional y segregación entre firmas: las mujeres están sobrerrepresentadas en firmas con menor productividad o menor poder de mercado.
  3. Diferencias en bargaining: incluso dentro de la misma firma y mismo puesto, las mujeres pueden obtener menor salario por menor poder de negociación.
Evidencia: Card, Cardoso \& Kline (2016) usando datos de Portugal encuentran que el sorting ($\Cov(\text{género}, \psi_j)$) explica aproximadamente 20-30\% de la brecha. El resto se debe a diferencias en $\alpha_i$ (experiencia, interrupciones) y bargaining. Relación con elasticidad de oferta laboral (Cap. 6): las mujeres enfrentan una demanda laboral menos elástica que los hombres porque tienen menor movilidad (restricciones familiares, menor búsqueda en el empleo). En el marco de monopsonio (Cap. 6), menor elasticidad de oferta laboral $\Rightarrow$ mayor markdown (brecha entre productividad y salario). Esto explica por qué las mujeres ganan menos incluso siendo igualmente productivas. La evidencia encuentra que la elasticidad de oferta laboral femenina es 0.5--1.0 vs.\ 1.5--2.5 para hombres, consistente con markdowns mayores para mujeres. Ver libro Cap. 9, Sección 3.3 y Cap. 6, Sección 4.

Ejercicio 12: Ejercicio 12: Instituciones Laborales (25 pts)

Cap. 10Instituciones, Salario Mínimo, Sindicatos
En este ejercicio analizamos el efecto del salario mínimo, los sindicatos y los incentivos en el sector público.
[9 pts] Salario Mínimo: Modelos en Competencia vs.\ Monopsonio. Explique por qué el modelo competitivo predice que un salario mínimo $w_{min} > w^*$ reduce el empleo, mientras que el modelo de monopsonio puede predecir que lo aumenta. Use un gráfico de oferta y demanda laboral para cada caso. ¿Qué dice la evidencia empírica (Card \& Krueger, 1994) y por qué fue tan influyente? Referencia: Capítulo 10, Sección 1.
Respuesta: Modelo competitivo: la empresa toma el salario como dado y contrata hasta donde $VMP_L = w$. Un salario mínimo sobre el equilibrio ($w_{min} > w^*$) reduce la cantidad demandada de trabajo (se sube por la curva de demanda) y aumenta la cantidad ofrecida (se sube por la curva de oferta), generando un excedente de oferta: desempleo. Predicción clara: $w_{min} \uparrow \Rightarrow L \downarrow$. Modelo de monopsonio: la empresa enfrenta una curva de oferta laboral con pendiente positiva (tiene poder de mercado). Contrata hasta donde $VMP_L = CMgL$ (costo marginal del trabajo), pagando $w^* < VMP_L$. Un salario mínimo entre $w^*$ y el salario competitivo $w_c$ obliga a la empresa a subir el salario, pero como el $CMgL$ ahora es plano (la empresa ya no puede discriminar), la empresa contrata más trabajadores hasta que $VMP_L = w_{min}$. Predicción: $w_{min}$ moderado $\Rightarrow L \uparrow$. Evidencia: Card \& Krueger (1994) estudiaron el aumento del salario mínimo en Nueva Jersey (de \$4.25 a \$5.05) usando Pennsylvania como control (DiD). Encontraron que el empleo en fast-food no disminuyó y posiblemente aumentó. Esto fue influyente porque:
  1. Desafió el consenso teórico (Buchanan: ``water runs uphill'').
  2. Usó un diseño creíble (DiD con grupo de control comparable).
  3. Mostró que los mercados laborales reales tienen fricciones (monopsonio) que invalidan la predicción competitiva simple.
La literatura posterior (Cengiz et al., 2019) usando stacked DiD encuentra que aumentos moderados del salario mínimo tienen efectos nulos o positivos en el empleo, y reducen la desigualdad salarial en la cola baja. Ver libro Cap. 10, Sección 1.3.
[8 pts] Sindicatos: Premium Salarial y Hold-Up Problem. Defina el premio salarial sindical (union wage premium) y explique cómo se estima. ¿Qué es el hold-up problem y cómo afecta la inversión en capital específico? ¿Cómo ha afectado la caída de la sindicalización a la desigualdad salarial? Referencia: Capítulo 10, Sección 2.
Respuesta: Premio salarial sindical: es la diferencia porcentual entre el salario de un trabajador sindicalizado y un trabajador no sindicalizado comparable. Se estima con OLS (controlando por educación, experiencia, industria, etc.) o con efectos fijos de trabajador si hay datos de panel (comparing workers who switch union status). La estimación OLS sugiere un premio de 10-15\% en EE.UU. (menor en Europa). Sin embargo, el OLS puede estar sesgado si la sindicalización es endógena. Hold-up problem: los sindicatos pueden apropiarse de parte de las rentas generadas por inversiones en capital específico (ej: capacitación pagada por la firma). Si la firma anticipa que el sindicato exigirá mayores salarios una vez que la inversión está hecha, la firma invierte menos de lo óptimo. Esto genera un subinversión en capital específico en sectores sindicalizados. Caída de la sindicalización y desigualdad: la tasa de sindicalización en EE.UU. cayó de ~25\% en 1970 a ~10\% en 2020. Esto ha contribuido al aumento de la desigualdad porque:
  1. Los sindicatos comprimen la distribución salarial dentro de la firma (menor dispersión entre trabajadores de la misma firma).
  2. Los sindicatos reducen la dispersión entre firmas al estandarizar salarios en la industria.
  3. La caída de la sindicalización explica entre 15-25\% del aumento de la desigualdad salarial masculina (Western \& Rosenfeld, 2011).
Ver libro Cap. 10, Sección 2.2.
[8 pts] Economía de Personal y Sector Público. Un alcalde debe diseñar un sistema de incentivos para los funcionarios municipales. Proponga un esquema de pay-for-performance y discuta sus problemas potenciales (multitarea, medición, cooperación). ¿Por qué el sector público usa menos incentivos por desempeño que el sector privado? Relacione su respuesta con el modelo de licensing del Capítulo 6. Referencia: Capítulo 10, Sección 3 y Capítulo 6.
Respuesta: Esquema de pay-for-performance: vincular una parte del salario a indicadores de desempeño (ej: número de permisos procesados, satisfacción de usuarios, reducción de tiempos de espera). Problemas potenciales:
  1. Multitarea: si solo algunos aspectos del trabajo son medibles, los funcionarios enfocarán esfuerzo en esos y descuidarán tareas no medidas (ej: tramitar permisos rápido pero con errores).
  2. Medición: los outputs del sector público son difíciles de cuantificar (calidad del servicio, equidad en la atención). Indicadores imperfectos generan incentivos distorsionados.
  3. Cooperación: el pago individual puede desincentivar la colaboración entre funcionarios, esencial en servicios públicos complejos.
  4. Captura de indicadores: los funcionarios pueden manipular las métricas (ej: rechazar casos difíciles para mejorar indicadores).
¿Por qué el sector público usa menos incentivos?
  • La multitarea es más severa que en el privado: los funcionarios tienen múltiples objetivos no siempre alineados.
  • El riesgo político: cambiar el sistema de incentivos es costoso electoralmente.
  • Equidad: la opinión pública valora la igualdad salarial en el servicio público más que en el privado.
Relación con Licensing (Cap. 6): el modelo de licensing mostró que cuando el salario es fijo (escala nacional) pero el empleador fija un umbral de calidad $T$, la brecha entre productividad y salario ($p(T)-w$) depende de las elasticidades $\eta_p^T$ y $\eta_S^T$. En el sector público:
  • El salario $w$ está fijado institucionalmente (escala nacional), no por mercado.
  • El empleador (municipio) puede subir el estándar $T$ para atraer funcionarios más productivos, pero esto reduce la oferta laboral $S(T)$.
  • El mark-down $(p-w)/p = -\eta_p^T/\eta_S^T$ refleja cuánto poder tiene el empleador público para obtener productividad por sobre el salario fijo. Para ciertos perfiles (médicos, ingenieros) con alta $\eta_S^T$, el mark-down es pequeño, y el empleador compite vía $T$ (no vía $w$).
Ver libro Cap. 10, Sección 3.2 y Cap. 6, Sección 5.

Ejercicio 13: Ejercicio 13: LATE con Outcome Binario (25 pts)

Cap. 1LATE con Outcome Binario
Sea $Y_i \in \{0,1\}$ un outcome binario (ej: empleado/desempleado), $T_i \in \{0,1\}$ tratamiento, $Z_i \in \{0,1\}$ instrumento. Se cumple LATE. Considere que $Y_i = \mathbf{1}\{X_i > 0\}$ donde $X_i$ es una variable latente no observada, y $T_i$ afecta la probabilidad de que $Y_i = 1$.
[10 pts] Defina $Y_i(1)$ e $Y_i(0)$ en términos de $X_i$ y $T_i$. Demuestre que el Wald estimador identifica: $$ \frac{E[Y_i \mid Z=1] - E[Y_i \mid Z=0]}{E[T_i \mid Z=1] - E[T_i \mid Z=0]} = E[\mathbf{1}\{X_i > 0\} \mid C] - E[\mathbf{1}\{X_i \leq 0\} \mid C] $$ donde $C = \{T_i(1) > T_i(0)\}$.
Respuesta: Dado que $Y_i = \mathbf{1}\{X_i > 0\}$, los potenciales son: $$ Y_i(1) = \mathbf{1}\{X_i > 0\} \mid T_i=1, \quad Y_i(0) = \mathbf{1}\{X_i > 0\} \mid T_i=0 $$ Pero en rigor $Y_i(1)$ e $Y_i(0)$ son el valor que toma $Y_i$ cuando $T_i=1$ y $T_i=0$ respectivamente, que dependen de $X_i$ pero no de $T_i$ directamente (son funciones de $X_i$). Expandiendo por LIE sobre los 4 grupos: $$ E[Y_i \mid Z=1] = E[Y_i(1) \mid C]P(C) + E[Y_i(0) \mid NT]P(NT) + E[Y_i(1) \mid AT]P(AT) + E[Y_i(0) \mid D]P(D) $$ Pero $Y_i(1) = Y_i(0) = \mathbf{1}\{X_i > 0\}$ para cada individuo (no depende de $T$). Entonces: $$ E[Y_i \mid Z=1] - E[Y_i \mid Z=0] = [E[Y_i(1) \mid C] - E[Y_i(0) \mid C]] P(C) + [E[Y_i(0) \mid D] - E[Y_i(1) \mid D]] P(D) $$ Como $Y_i(1)=Y_i(0)$ (exclusión fuerte), la diferencia $E[Y_i(1) \mid C] - E[Y_i(0) \mid C] = 0$. ¡Esto implicaría que el Wald es cero! Pero esto es porque el problema está mal planteado: si $Y_i = \mathbf{1}\{X_i > 0\}$, el tratamiento $T_i$ debe afectar a $Y_i$ a través de $X_i$. Un mejor setup es: $$ Y_i = T_i \cdot \mathbf{1}\{X_i > c_1\} + (1-T_i) \cdot \mathbf{1}\{X_i > c_0\} $$ donde $c_1 \neq c_0$. En ese caso, $Y_i(1) = \mathbf{1}\{X_i > c_1\}$ e $Y_i(0) = \mathbf{1}\{X_i > c_0\}$. El LATE sería: $$ E[\mathbf{1}\{X_i > c_1\} - \mathbf{1}\{X_i > c_0\} \mid C] $$ que mide el cambio en la probabilidad de $Y_i=1$ inducido por el tratamiento para los compliers.
[8 pts] Proponga un ejemplo concreto donde $Y_i$ binario, $T_i$ y $Z_i$ tengan sentido económico y donde este LATE sea interpretable. Calcule el Wald usando datos hipotéticos. Referencia: Capítulo 1.
Respuesta: Ejemplo: $Z_i = 1$ si la madre recibe un voucher educativo, $T_i = 1$ si el hijo asiste a escuela privada, $Y_i = 1$ si el hijo se gradúa de la universidad. $Y_i(1) = \mathbf{1}\{X_i > c_1\}$ es la probabilidad de graduación si asiste a privada, $Y_i(0) = \mathbf{1}\{X_i > c_0\}$ si asiste a pública, donde $X_i$ es habilidad latente. Si la privada tiene mejores recursos, $c_1 < c_0$ (se necesita menos habilidad para graduarse en la privada). Datos hipotéticos: $E[Y \mid Z=1] = 0.45$, $E[Y \mid Z=0] = 0.30$, $E[T \mid Z=1] = 0.80$, $E[T \mid Z=0] = 0.30$. Wald $= (0.45-0.30)/(0.80-0.30) = 0.15/0.50 = 0.30$. El LATE es 0.30: para los compliers, asistir a escuela privada aumenta la probabilidad de graduación universitaria en 30 puntos porcentuales.
[7 pts] ¿Cómo cambiaría la interpretación si $Y_i$ fuera un outcome de conteo (ej: número de hijos)? Referencia: Capítulo 1, LATE.
Respuesta: Si $Y_i$ es conteo (ej: número de hijos), entonces $Y_i(1)$ e $Y_i(0)$ toman valores enteros no negativos. El LATE: $$ E[Y_i(1) - Y_i(0) \mid C] $$ es el cambio promedio en el número de hijos para los compliers. Esto es un efecto en niveles, no porcentual. Podría ser no entero (ej: 0.3 hijos adicionales en promedio). La demostración del LATE no cambia con la naturaleza del outcome: los potenciales $Y_i(1), Y_i(0)$ pueden ser binarios, conteo, continuos. La estructura del teorema es invariante al tipo de outcome. Lo único que cambia es la interpretación. Ver libro Cap. 1, Teorema 1.5.

Ejercicio 14: Ejercicio 14: RDD con Múltiples Cutoffs y Polinomios (25 pts)

Cap. 1RDD con Múltiples Cutoffs
Un investigador estudia el efecto de recibir una beca universitaria ($T_i$) sobre ingresos futuros ($Y_i$). La beca se asigna según el puntaje en un examen nacional $R_i$. Sin embargo, el cutoff varía por región: en la Región Metropolitana el corte es $c=600$, en regiones es $c=550$.
8 pts. Proponga un modelo de regresión que estime el efecto promedio de la beca usando ambos cutoffs simultáneamente. ¿Qué supuesto se necesita para que esta estimación sea válida? Referencia: Capítulo 1, RDD.
Respuesta: Se puede estimar un modelo RDD pooled con efectos fijos de región: $$ Y_i = \alpha + \tau T_i + \gamma_1 \tilde{R}_i + \gamma_2 (\tilde{R}_i \cdot D_i) + \delta_r + \varepsilon_i $$ donde $\tilde{R}_i = R_i - c_r$ es la distancia al cutoff de su región, $D_i = \mathbf{1}\{R_i \geq c_r\}$ indica si supera el cutoff regional, y $\delta_r$ es efecto fijo de región. El coeficiente $\tau$ es el efecto promedio de la beca bajo el supuesto de que el efecto es homogéneo entre regiones. Si hay heterogeneidad, $\tau$ estima un promedio ponderado de LATEs regionales. Supuesto clave: la running variable $R_i$ no es manipulable alrededor de ningún cutoff regional. Además, las regiones no pueden asignar estudiantes selectivamente a distintos cutoffs.
9 pts. ¿Cómo evaluaría si el efecto es heterogéneo entre regiones? Proponga un test estadístico. Referencia: Capítulo 1, RDD.
Respuesta: Para testear heterogeneidad entre regiones, se estima: $$ Y_i = \alpha + \tau T_i + \sum_{r} \beta_r (T_i \times \delta_r) + \gamma_1 \tilde{R}_i + \gamma_2 (\tilde{R}_i \cdot D_i) + \delta_r + \varepsilon_i $$ y se realiza un test $F$ de significancia conjunta de los $\beta_r$ (interacciones entre tratamiento y región). Si se rechaza $H_0: \beta_1 = \beta_2 = \dots = 0$, hay evidencia de heterogeneidad. Alternativamente, se puede estimar el modelo por separado para cada región y comparar los $\hat{\tau}_r$ visualmente (forest plot) o con un test de Chow.
8 pts. Un crítico argumenta que los estudiantes pueden mudarse de región para obtener el cutoff más bajo. ¿Cómo evalúa esta crítica? ¿Qué test de validez interna usaría? Referencia: Capítulo 1, Internal Validity RDD.
Respuesta: Si los estudiantes pueden mudarse para beneficiarse del cutoff más bajo, habría manipulación de la running variable: estudiantes con puntajes cercanos a 550 migrarían a regiones para obtener la beca. Esto violaría el supuesto de continuidad de potenciales en el cutoff. Tests de validez interna:
  1. McCrary density test por región: la densidad de $R_i$ debe ser continua en cada cutoff regional. Si hay un salto en $c=550$ pero no en $c=600$, sugiere migración selectiva.
  2. Placebo con densidad de estudiantes foráneos: graficar la proporción de estudiantes que migraron contra la distancia al cutoff. Si hay un salto en $c=550$, es evidencia de manipulación.
  3. Test de covariates: verificar que la proporción de estudiantes de otras regiones sea continua en el cutoff.
  4. Donut-hole RDD: estimar excluyendo observaciones muy cercanas al cutoff (donde la manipulación es más plausible).
Ver libro Cap. 1, Sección 1.4.3.

Ejercicio 15: Ejercicio 15: SBTC con Tareas y Offshoring (25 pts)

Cap. 5SBTC con Tareas y Offshoring
Considere el modelo de tareas (Autor, Levy \& Murnane, 2003). La producción requiere tres tipos de tareas: rutinarias ($R$), abstractas ($A$) y manuales ($M$). Los trabajadores calificados ($H$) tienen ventaja comparativa en $A$, los no calificados ($L$) en $M$, y ambos pueden hacer $R$. El costo de offshoring de tareas rutinarias cae.
[9 pts] Explique por qué la caída en el costo de offshoring de tareas $R$ puede generar polarización del empleo (crecimiento en empleos de alta y baja calificación, caída en los medios). Referencia: Capítulo 5, Sección 3.
Respuesta: La caída en el costo de offshoring permite a las empresas enviar tareas rutinarias ($R$) al extranjero. Esto reduce la demanda de trabajadores en ocupaciones rutinarias (medios: administrativos, operarios). Los trabajadores medios se reasignan hacia:
  • Tareas abstractas ($A$): si tienen educación universitaria (upgrading).
  • Tareas manuales ($M$): si no la tienen (downgrading).
Resultado: aumenta el empleo en ocupaciones de alta calificación ($A$, gerenciales, profesionales) y baja calificación ($M$, servicios personales), pero se reduce en las medias ($R$, administrativos, producción). Esto es la polarización. Ver libro Cap. 5, Fig. 5.3.
[8 pts] Derive la condición bajo la cual el cambio tecnológico (aumento en $A_H/A_L$) aumenta el premio de habilidades $\omega$. ¿Qué rol juega $\sigma$? Referencia: Capítulo 5, Sección 1.
Respuesta: Del modelo CES: $\ln \omega = \frac{\sigma-1}{\sigma} \ln\left(\frac{A_H}{A_L}\right) - \frac{1}{\sigma} \ln\left(\frac{H}{L}\right)$. El efecto de un aumento en $A_H/A_L$ sobre $\omega$ es: $$ \frac{\partial \ln \omega}{\partial \ln(A_H/A_L)} = \frac{\sigma-1}{\sigma} $$ Esto es positivo si $\sigma > 1$, cero si $\sigma = 1$, negativo si $\sigma < 1$. Intuición:
  • $\sigma > 1$ (sustitutos): la tecnología que mejora $A_H$ aumenta la demanda relativa de $H$ más que la de $L$, elevando $\omega$. Es el caso de SBTC.
  • $\sigma < 1$ (complementos): un aumento en $A_H$ beneficia más a $L$ (efecto derrame), reduciendo $\omega$.
La evidencia sugiere $\sigma \approx 1.5-2$ en EE.UU., consistente con SBTC. Ver libro Cap. 5, Sección 1.3.
[8 pts] ¿Cómo se modifica el análisis si consideramos la oferta endógena de calificados (modelo race between education and technology)? Referencia: Capítulo 5, Sección 2.
Respuesta: En el modelo race between education and technology (Tinbergen, 1975), tanto $A_H/A_L$ como $H/L$ son endógenos:
  • La tecnología ($A_H/A_L$) aumenta por SBTC, empujando $\omega$ al alza.
  • La oferta de calificados ($H/L$) aumenta por inversión en educación, empujando $\omega$ a la baja.
El $\omega$ observado es el resultado de esta carrera: $$ \omega_t = \left(\frac{A_{Ht}}{A_{Lt}}\right)^{\frac{\sigma-1}{\sigma}} \left(\frac{H_t}{L_t}\right)^{-\frac{1}{\sigma}} $$ Si la oferta de calificados crece más rápido que la demanda tecnológica, $\omega$ cae (como en los 1970s en EE.UU.). Si la demanda tecnológica corre más rápido, $\omega$ sube (como desde 1980). La educación masiva (aumento en $H/L$) contrarresta el aumento en la desigualdad impulsado por la tecnología. Ver libro Cap. 5, Sección 2.1.

Ejercicio 16: Ejercicio 16: Monopsonio con Búsqueda y Salarios (25 pts)

Cap. 6Monopsonio con Búsqueda
Una empresa enfrenta una curva de oferta laboral $S(w) = w^\eta$ donde $\eta$ es la elasticidad de oferta. La productividad marginal del trabajo es $p$ constante.
[8 pts] Derive el salario óptimo de monopsonio y el mark-down $\frac{p-w}{p}$. ¿Cómo depende de $\eta$? Referencia: Capítulo 6, Sección 1.
Respuesta: El beneficio es $\pi(w) = (p - w) S(w) = (p - w) w^\eta$. La CPO: $$ \frac{\partial \pi}{\partial w} = -w^\eta + (p-w) \eta w^{\eta-1} = 0 $$ Multiplicando por $w^{1-\eta}$: $-w + (p-w)\eta = 0 \Rightarrow -w + \eta p - \eta w = 0 \Rightarrow \eta p = w(1+\eta)$. $$ w^* = \frac{\eta}{1+\eta} p \quad \Rightarrow \quad \frac{p - w^*}{p} = \frac{1}{1+\eta} $$ El mark-down es $\frac{1}{1+\eta}$. A mayor $\eta$ (oferta más elástica), menor mark-down. Si $\eta \to \infty$ (competencia perfecta), $w^* \to p$ y mark-down $\to 0$.
[9 pts] Suponga ahora que los trabajadores tienen costos de búsqueda heterogéneos. Muestre que la elasticidad de oferta a la firma ($\eta$) es menor que la elasticidad agregada de mercado. ¿Qué implica esto para la estimación del mark-down? Referencia: Capítulo 6, Secciones 2--3.
Respuesta: Cuando los trabajadores tienen costos de búsqueda, la elasticidad de oferta a una firma individual es menor que la elasticidad de oferta al mercado porque:
  • Los trabajadores no se cambian instantáneamente a la firma que paga un céntimo más (hay fricciones).
  • La firma enfrenta una curva de oferta residual con pendiente positiva: para atraer más trabajadores debe pagar un salario mayor, pero solo una fracción de los trabajadores del mercado responde.
Implicancia: si se estima el mark-down usando la elasticidad de oferta agregada (que es mayor), se subestima el verdadero mark-down. Esto es consistente con la evidencia de que los mark-down estimados con datos de firmas (elasticidad firme-específica) son mucho mayores que los estimados con datos agregados. El trabajo de Card (2022) encuentra elasticidades firme-específicas de 0.1--1.5, que implican mark-down de 40--90\%. Ver libro Cap. 6, Secciones 3--4.
[8 pts] Un hipotético sindicato negocia colectivamente el salario para todos los trabajadores de la firma. ¿Cómo cambia el equilibrio? ¿Puede el sindicato aumentar el empleo? Referencia: Capítulo 6, Sección 5 y Capítulo 10.
Respuesta: Si un sindicato negocia un salario $w_S$ por sobre el monopsonio $w^*$, hay dos efectos:
  • Si $w_S$ está entre $w^*$ y el salario competitivo $w_c$: la empresa sube el salario y, como el costo marginal de contratar ahora es el salario mismo (el sindicato fija el precio), la empresa contrata más trabajadores (se mueve a lo largo de su VMP hasta $w_S = VMP$). El empleo aumenta.
  • Si $w_S > w_c$: el salario está por sobre el producto marginal, la empresa reduce empleo.
Por tanto, un sindicato con poder de negociación moderado puede aumentar el empleo corrigiendo la distorsión del monopsonio (eficiencia). Esto contrasta con el modelo competitivo, donde el sindicato siempre reduce el empleo. En el modelo de monopsonio, el sindicato actúa como un ``contrapeso'' al poder de mercado del empleador. Ver libro Cap. 6, Sección 5.1 y Cap. 10, Sección 2.

Ejercicio 17: Ejercicio 17: Oferta Laboral con Impuestos y Subsidios (25 pts)

Cap. 2Oferta Laboral con Impuestos
Considere un individuo con utilidad $U(C, L) = \ln C + \alpha \ln L$, donde $C$ es consumo, $L$ ocio, $\bar{T}=16$ horas disponibles. El salario por hora es $w$ y hay un impuesto proporcional $\tau$ sobre el ingreso laboral.
[8 pts] Derive la oferta laboral $H^*(w, \tau, \alpha)$. ¿Cómo cambia $H$ ante un aumento en $\tau$? Distinga efecto ingreso y efecto sustitución. Referencia: Capítulo 2, Sección 1.
Respuesta: Maximizar $U = \ln C + \alpha \ln L$ s.a. $C = (1-\tau) w H + V$, $H + L = 16$. Sustituyendo: $U = \ln((1-\tau) w (16-L) + V) + \alpha \ln L$. CPO: $$ \frac{-(1-\tau)w}{(1-\tau) w (16-L) + V} + \frac{\alpha}{L} = 0 $$ Despejando: $\alpha[(1-\tau) w (16-L) + V] = (1-\tau) w L$. Si $V=0$: $\alpha (1-\tau) w (16-L) = (1-\tau) w L \Rightarrow \alpha (16-L) = L \Rightarrow L = \frac{16\alpha}{1+\alpha}$. Entonces $H = 16 - L = \frac{16}{1+\alpha}$. Con $V=0$, $H$ no depende de $w$ ni $\tau$! Esto ocurre porque la función $\ln C + \alpha \ln L$ tiene elasticidad de sustitución unitaria (Cobb-Douglas): el efecto ingreso y sustitución se cancelan exactamente. Con $V>0$: resolviendo: $$ L = \frac{\alpha(V + (1-\tau)w \cdot 16)}{(1+\alpha)(1-\tau)w}, \quad H = \frac{16}{1+\alpha} - \frac{\alpha V}{(1+\alpha)(1-\tau)w} $$ Un aumento en $\tau$: reduce $w$ neto, reduciendo $H$ por efecto sustitución, pero como también reduce el ingreso disponible, el efecto ingreso aumenta $H$. El efecto neto es ambiguo.
[9 pts] Suponga que el gobierno introduce un subsidio al ingreso (EITC) que aumenta el salario efectivo en 20\% para quienes trabajan al menos 20 horas. ¿Cómo estimaría el efecto del EITC sobre la oferta laboral usando un RDD? Referencia: Capítulo 2.
Respuesta: El EITC crea un cutoff en $H=20$ horas: quienes trabajan menos no reciben el subsidio. Esto genera un RDD sharp donde:
  • Running variable: $R_i = H_i - 20$ (horas relativas al umbral).
  • Tratamiento $T_i$: recibe subsidio si $H_i \geq 20$.
  • Outcome $Y_i$: ingreso total, horas futuras, participación laboral.
Sin embargo, $H_i$ es endógena (el individuo la elige), por lo que hay autoselección alrededor del cutoff. Esto requiere un diseño fuzzy donde el instrumento es la elegibilidad potencial. Mejor usar bunching (estimar la elasticidad de oferta laboral a partir de la acumulación de individuos en el cutoff) que RDD clásico. Alternativa: si el EITC se introdujo en un año específico, se puede usar DiD comparando cambios en horas de elegibles vs.\ no elegibles antes/después de la reforma. Ver libro Cap. 2, Sección 1.4.
[8 pts] Explique el método de bunching para estimar la elasticidad de oferta laboral. ¿Qué supuestos se requieren? Referencia: Capítulo 2, Sección 1.4.
Respuesta: El método de bunching explota la acumulación de individuos en puntos kink (cambios en la pendiente impositiva) o notch (saltos discretos en el impuesto). La elasticidad se estima comparando la densidad observada en el cutoff con la densidad contrafactual (suavizada). Para un kink: la elasticidad compensada es: $$ \eta = \frac{b/w}{\log((1-\tau_1)/(1-\tau_0))} $$ donde $b$ es el exceso de individuos acumulados en el kink, $w$ es la densidad contrafactual, y $\tau_0, \tau_1$ son las tasas impositivas antes y después del kink. Supuestos:
  1. La densidad contrafactual es suave (polinomio de orden alto ajustado excluyendo el área del kink).
  2. No hay optimización intertemporal que desplace el comportamiento hacia otros períodos.
  3. Los individuos perciben el kink y pueden ajustar su ingreso (no hay restricciones de horas).
La evidencia de Saez (2010) encuentra elasticidades entre 0.1 y 0.4 usando bunching en impuesto a la renta. Ver libro Cap. 2, Sección 1.4.

Ejercicio 18: Ejercicio 18: Capital Humano con Overeducation y Señalización (25 pts)

Cap. 3Capital Humano con Overeducation
En el mercado laboral hay trabajadores con educación alta ($S=16$, universitaria) y media ($S=12$, secundaria). Un trabajador con $S=16$ puede ser contratado en ocupaciones que requieren $S=12$ (overeducation). El salario en cada ocupación es $w_H$ y $w_L$.
8 pts. Explique el fenómeno de overeducation (sobreeducación) usando el modelo de señalización. ¿Bajo qué condiciones un trabajador con $S=16$ acepta un trabajo de $S=12$? Referencia: Capítulo 3, Sección 3.
Respuesta: En el modelo de señalización, la educación es una señal de productividad. Si los costos de educarse son menores para los hábiles, en equilibrio los hábiles obtienen $S=16$ y los no hábiles $S=12$. Pero si hay más hábiles que puestos que requieren $S=16$, algunos hábiles deben aceptar trabajos de $S=12$ (overeducation). Esto ocurre cuando: $$ w_H \cdot \Pr(\text{empleo hábil} \mid S=16) + w_L \cdot \Pr(\text{overeducation}) > w_L $$ Si la probabilidad de conseguir empleo hábil es baja, algunos hábiles optan directamente por $S=12$ (desaliento). La sobreeducación es ineficiente porque los trabajadores invierten en educación costosa que no usan. Esto es un costo social de la señalización. Ver libro Cap. 3, Sección 3.2.
9 pts. Proponga una estrategia empírica para distinguir si el retorno a la educación se debe a capital humano o a señalización, usando datos de overeducation. ¿Qué predeciría cada teoría sobre el salario de los sobreeducados? Referencia: Capítulo 3, Sección 3.3.
Respuesta: Predicciones contrastantes:
  • Capital humano: el salario depende de la educación adquirida, no de la requerida. Un trabajador con $S=16$ en un puesto de $S=12$ debería ganar más que un trabajador con $S=12$ en el mismo puesto (porque es más productivo).
  • Señalización: el salario depende de la educación requerida para el puesto, no de la adquirida. Un trabajador con $S=16$ en un puesto de $S=12$ gana lo mismo que uno con $S=12$ (la señal no es relevante si el puesto no la requiere).
Estrategia empírica: estimar: $$ \ln w_i = \beta_0 + \beta_1 S_i^a + \beta_2 S_i^r + \beta_3 (S_i^a - S_i^r) + X_i'\gamma + \varepsilon_i $$ donde $S_i^a$ son años de educación adquiridos, $S_i^r$ los requeridos. Capital humano predice $\beta_1 > 0$ y $\beta_3 = 0$ (el retorno es a los años adquiridos). Señalización predice $\beta_2 > 0$ y $\beta_1 = 0$ (el retorno es a los requeridos). La evidencia muestra que ambos canales importan, pero $\beta_1$ domina, apoyando capital humano. Ver libro Cap. 3, Sección 3.3.
8 pts. ¿Cómo afecta la sobreeducación a la desigualdad salarial? Discuta usando el marco de Roy (autoselección ocupacional). Referencia: Capítulo 3, Sección 5.
Respuesta: En el modelo de Roy, los trabajadores se autoseleccionan en ocupaciones según su ventaja comparativa. La sobreeducación surge cuando hay workers que serían más productivos en ocupaciones altas pero terminan en ocupaciones bajas por restricciones de demanda (no hay suficientes puestos calificados). Esto genera:
  • Mayor desigualdad dentro de ocupaciones bajas: porque ahora hay mezcla de trabajadores con distinta educación.
  • Menor desigualdad entre ocupaciones: porque algunos trabajadores calificados están en ocupaciones bajas, comprimiendo la brecha salarial media entre ocupaciones.
  • Pérdida de eficiencia: si los trabajadores sobreeducados tienen menor productividad que en su ocupación óptima (desajuste de habilidades).
La evidencia para países en desarrollo muestra que la sobreeducación es más frecuente y tiene mayores costos salariales que en países desarrollados, posiblemente por rigideces estructurales en la demanda de calificados. Ver libro Cap. 3, Sección 5.2.

Ejercicio 19: Ejercicio 19: Demanda Laboral con Inmigración (25 pts)

Cap. 4Demanda Laboral con Inmigración
Un país recibe un shock de inmigración que aumenta la oferta de trabajo no calificado $L$ en un 10\%. La función de producción es CES: $Y = [\theta (A_H H)^\rho + (1-\theta) (A_L L)^\rho]^{1/\rho}$.
[8 pts] Usando el marco de oferta y demanda relativa, derive el efecto del aumento en $L$ sobre el salario de los no calificados $w_L$ y sobre el premio de habilidades $\omega = w_H/w_L$. Distinga corto plazo (stock de capital fijo) de largo plazo (capital ajustable). Referencia: Capítulo 4, Secciones 1--2.
Respuesta: Corto plazo (capital fijo): con $Y = [\theta (A_H H)^\rho + (1-\theta) (A_L L)^\rho]^{1/\rho}$ y $H$ fijo, la demanda por $L$ tiene pendiente negativa. Un aumento en $L$ reduce $w_L$ moviéndose a lo largo de la curva de demanda. La elasticidad es: $$ \frac{\partial \ln w_L}{\partial \ln L} = -(1-\alpha_L)\frac{1}{\sigma} $$ donde $\alpha_L$ es la participación de $L$ en el ingreso. Con $\sigma > 1$ (típico), $w_L$ cae menos que proporcional al aumento en $L$. Largo plazo: el capital se ajusta. La demanda de largo plazo es más elástica porque las empresas pueden sustituir capital por trabajo, amortiguando la caída en $w_L$. Sin embargo, si $H$ y $L$ no son perfectamente sustituibles, el efecto sobre $w_L$ sigue siendo negativo aunque menor que a corto plazo. Efecto sobre $\omega$: $\omega = (A_H/A_L)^\rho (H/L)^{\rho-1}$. Aumentar $L$ reduce $H/L$, y como $\rho-1 = -1/\sigma < 0$, $\omega$ aumenta (mayor desigualdad). Ver libro Cap. 4, Secciones 1--2.
[9 pts] La inmigración también afecta la demanda de bienes (efecto demanda). ¿Cómo cambia el análisis si los inmigrantes consumen bienes producidos localmente? Referencia: Capítulo 4.
Respuesta: Los inmigrantes no solo aumentan la oferta laboral, sino también la demanda agregada de bienes y servicios. Esto desplaza la curva de demanda de trabajo hacia la derecha (efecto escala), contrarrestando el efecto sustitución. Modelo: el aumento en $L$ reduce $w_L$ (efecto oferta), pero el consumo de los inmigrantes aumenta la demanda de productos, aumentando la demanda de trabajo (efecto demanda). El efecto neto depende de:
  • Elasticidad de demanda del producto final: si es alta, el efecto escala domina.
  • Composición del gasto de inmigrantes: si consumen bienes intensivos en $L$, el efecto demanda beneficia más a los no calificados.
La literatura (Peri, 2012) encuentra que los efectos de demanda compensan parcialmente los efectos de oferta, y que el impacto de la inmigración sobre salarios de nativos es pequeño (elasticidad de -0.1 a -0.3). Además, la inmigración puede aumentar la eficiencia al permitir una mayor especialización. Ver libro Cap. 4, Sección 4.
[8 pts] Proponga un diseño de shift-share (Bartik) para estimar el efecto de la inmigración sobre salarios locales. ¿Qué supuesto de identificación se requiere? Referencia: Capítulo 4.
Respuesta: El instrumento Bartik (shift-share) construye un shock de inmigración predicho para cada mercado local $c$ como: $$ Z_{ct} = \sum_{o} \left(\frac{L_{oc,t_0}}{L_{c,t_0}}\right) \times \Delta L_{o,-c,t} $$ donde $L_{oc,t_0}/L_{c,t_0}$ es la participación del origen $o$ en el mercado $c$ en el año base (share), y $\Delta L_{o,-c,t}$ es el crecimiento total de inmigrantes del origen $o$ excluyendo el mercado $c$ (shift). La idea es que el crecimiento de inmigrantes de un origen fuera del mercado local es exógeno a las condiciones locales. Supuesto de identificación: los shifts (crecimiento de inmigrantes por origen a nivel nacional) no están correlacionados con shocks locales de demanda laboral. Esto puede violarse si hay factores nacionales que atraen inmigrantes a mercados específicos (ej: redes migratorias). La literatura moderna (Goldsmith-Pinkham et al., 2020) usa la exposición a shocks de origen como instrumento. Resultados típicos: elasticidades de -0.1 a -0.3 para salarios de no calificados, con efectos nulos en empleo de nativos. Ver libro Cap. 4, Sección 4.3.

Ejercicio 20: Ejercicio 20: DMP con Productividad Heterogénea (25 pts)

Cap. 7DMP con Productividad Heterogénea
Extienda el modelo DMP para incluir dos tipos de trabajadores: calificados ($H$) y no calificados ($L$), con productividades $p_H > p_L$. Ambos tipos buscan empleo en el mismo mercado con matching $M(u, v) = A u^\alpha v^{1-\alpha}$.
[9 pts] Derive las condiciones de creación de empleo para cada tipo. ¿Qué tipo tiene mayor tightness de equilibrio? ¿Por qué? Referencia: Capítulo 7, Sección 4.
Respuesta: Las firmas crean vacantes para cada tipo si el valor esperado es positivo. Las condiciones de job creation son: $$ J_H = \frac{c}{q(\theta_H)} = \frac{p_H - w_H}{r + s}, \quad J_L = \frac{c}{q(\theta_L)} = \frac{p_L - w_L}{r + s} $$ donde $\theta_H = v_H/u_H$ y $\theta_L = v_L/u_L$ son las tightness específicas. Como $p_H > p_L$, el beneficio por trabajador calificado es mayor, lo que incentiva más creación de vacantes para $H$. Por tanto $\theta_H > \theta_L$: los calificados tienen mayor tasa de llegada de ofertas ($f(\theta) = A\theta^{1-\alpha}$) y menor desempleo de equilibrio. La diferencia en tightness genera desempleo desigual: los no calificados tienen menor probabilidad de encontrar empleo y mayor duración del desempleo, consistente con la evidencia. Ver libro Cap. 7, Sección 4.3.
[8 pts] Introduzca la posibilidad de que las firmas elijan qué tipo de vacante publicar. ¿Cómo se determina la mezcla de vacantes en equilibrio? Referencia: Capítulo 7, Sección 4.
Respuesta: Las firmas eligen publicar vacantes para $H$ o $L$ según el beneficio esperado neto. En equilibrio con libre entrada, los beneficios esperados de ambos tipos deben igualarse: $$ \frac{p_H - w_H}{r + s} \cdot q(\theta_H) = \frac{p_L - w_L}{r + s} \cdot q(\theta_L) = c $$ Como $p_H > p_L$, la igualdad requiere que $q(\theta_H) < q(\theta_L)$ para compensar. Dado que $q(\theta) = A\theta^{-\alpha}$ es decreciente en $\theta$, se necesita $\theta_H > \theta_L$, consistente con el punto anterior. La proporción de vacantes calificadas $v_H/(v_H+v_L)$ se ajusta para que las tightness específicas satisfagan esta condición. Si hay muchos calificados, $u_H$ es baja (baja tightness) y $q(\theta_H)$ alta, incentiva más vacantes calificadas. El equilibrio genera una composición endógena de vacantes que depende de la oferta relativa de cada tipo. Ver libro Cap. 7, Sección 4.4.
[8 pts] ¿Cómo afecta un salario mínimo $w_{min} > w_L$ a la mezcla de vacantes y al desempleo de cada tipo? ¿Es esto consistente con la evidencia? Referencia: Capítulo 7 y Capítulo 10.
Respuesta: Un salario mínimo que eleva $w_L$ reduce el beneficio esperado de las vacantes para $L$, haciendo que algunas firmas se reasignen a vacantes para $H$ (efecto sustitución). Esto:
  • Aumenta $\theta_H$ y reduce el desempleo de calificados.
  • Reduce $\theta_L$ y aumenta el desempleo de no calificados.
El efecto neto sobre el desempleo total depende de las elasticidades. Si la demanda de $L$ es inelástica, el aumento en $w_L$ puede no reducir las vacantes $L$ significativamente, y el desempleo de $L$ apenas cambia (consistente con la evidencia de Card \& Krueger). Consistencia con evidencia: la literatura encuentra que el salario mínimo tiene efectos nulos o pequeños en el empleo agregado, pero puede afectar la composición del empleo (menos empleo no calificado, más calificado). Esto es consistente con un modelo DMP de dos tipos donde las firmas se reasignan parcialmente. Ver libro Cap. 10, Sección 1.3.

Ejercicio 21: Ejercicio 21: Burdett-Mortensen con Salario Mínimo (25 pts)

Cap. 8BM con Salario Mínimo
Considere el modelo BM con búsqueda en el empleo. El gobierno introduce un salario mínimo $w_{min} > \underline{w}$ (el salario mínimo del BM sin regulación).
[9 pts] Muestre cómo cambia la distribución de equilibrio $F(w)$ al introducir $w_{min}$. ¿Qué pasa con el salario mínimo ofrecido $\underline{w}$ y el máximo $\bar{w}$? Referencia: Capítulo 8, Sección 2.
Respuesta: En el BM, la distribución $F(w)$ es continua en $[\underline{w}, \bar{w}]$ con $\underline{w} = b$ (ingreso de desempleo) y $\bar{w} = p$ (productividad). Al introducir $w_{min} > b$:
  • El salario mínimo $w_{min}$ reemplaza a $b$ como el nuevo $\underline{w}$ (las firmas no pueden pagar menos que $w_{min}$).
  • La distribución se trunca en $w_{min}$: ninguna firma paga menos.
  • La masa de firmas que antes pagaban en $(b, w_{min})$ se reasigna hacia salarios en $(w_{min}, \bar{w}]$, comprimiendo la distribución en la cola inferior.
  • El salario máximo $\bar{w} = p$ no cambia.
La nueva distribución $F_{min}(w)$ tiene un salto en $w_{min}$ (exceso de masa) y luego es continua hasta $p$. La densidad es mayor justo arriba de $w_{min}$ porque las firmas que pagaban salarios muy bajos ahora pagan $w_{min}$ o ligeramente más para atraer trabajadores. Ver libro Cap. 8, Sección 2.2.
[8 pts] ¿Cómo cambia la tasa de rotación laboral (job-to-job transitions) con $w_{min}$? ¿Aumenta o disminuye? Referencia: Capítulo 8, Sección 3.
Respuesta: Con $w_{min}$, los salarios bajos desaparecen, por lo que la dispersión salarial se reduce. Esto tiene dos efectos opuestos sobre la rotación:
  • Efecto directo: al reducir la dispersión, hay menos ganancias potenciales de cambiar de empleo. Los trabajadores tienen menos incentivos a buscar, reduciendo las job-to-job transitions.
  • Efecto indirecto: al subir el salario mínimo, más trabajadores aceptan empleos (participación), aumentando el stock de empleados que pueden buscar.
El efecto neto es ambiguo. En el BM, la tasa de job-to-job transitions es $T = \lambda_1 (1 - F(w))$ para un trabajador con salario $w$. Con $w_{min}$, $F(w)$ se comprime, por lo que $(1 - F(w))$ es menor para cada $w$, reduciendo $T$ en promedio. La evidencia muestra que salarios mínimos más altos reducen la rotación laboral (consistent with job ladder models with compressed wages). Ver libro Cap. 8, Sección 3.2.
[8 pts] Si además hay dos tipos de trabajadores (jóvenes y adultos) con distinta tasa de llegada de ofertas $\lambda_1$, ¿cómo afecta $w_{min}$ al empleo de cada grupo? Referencia: Capítulo 8, Sección 4.
Respuesta: Si los jóvenes tienen menor $\lambda_1$ (menos ofertas externas), su elasticidad de oferta a la firma es menor. En el BM, esto significa que las firmas les pagan menos porque tienen menor outside option (están más atrapados en su empleo actual). Al introducir $w_{min}$, el efecto es asimétrico:
  • Jóvenes (bajo $\lambda_1$): $w_{min}$ les sube el salario más que proporcional, pero las firmas pueden reducir vacantes para jóvenes si el costo es muy alto. Mayor riesgo de desempleo.
  • Adultos (alto $\lambda_1$): ya ganaban cerca de $p$, $w_{min}$ no les afecta mucho. Su empleo apenas cambia.
Este canal explica por qué el salario mínimo afecta más al empleo juvenil (elasticidad -0.1 a -0.3 para jóvenes, cercana a 0 para adultos). Las firms ajustan contratando menos jóvenes (primer empleo) porque el salario mínimo les sube el costo sin compensación en productividad (no tienen experiencia). Ver libro Cap. 10, Sección 1.2.

Ejercicio 22: Ejercicio 22: AKM con Cárteles y Colusión (25 pts)

Cap. 9AKM con Cárteles
En un mercado laboral con pocas firmas, se sospecha que estas forman un cártel para fijar salarios por debajo del nivel competitivo (colusión). Tiene datos de panel de trabajadores y firmas.
[9 pts] Explique cómo usaría el modelo AKM para detectar si hay colusión en los salarios. ¿Qué patrón en los efectos firma $\psi_j$ esperaría bajo colusión? Referencia: Capítulo 9, Sección 1.
Respuesta: Bajo colusión, las firmas pagan salarios menores al producto marginal, generando efectos firma $\psi_j$ bajos (negativos o cercanos a cero) en todas las firmas del cártel. Además, la varianza de $\psi_j$ entre firmas coludidas debería ser baja (pagan todas similarmente bajo). Si se detecta un mercado donde los $\hat{\psi}_j$ son sistemáticamente menores que en mercados comparables sin colusión, es evidencia de colusión. Se puede estimar: $$ \hat{\psi}_j = \gamma C_j + \delta X_j + \nu_j $$ donde $C_j = 1$ si la firma participa en el cártel. Un $\gamma < 0$ significativo sugiere que las firmas coludidas pagan menores premios. Limitación: los $\psi_j$ capturan diferencias de salario no explicadas por trabajadores, pero podrían reflejar diferencias de productividad (no colusión). Se necesita un instrumento para la participación en el cártel. Ver libro Cap. 9, Sección 1.2.
[8 pts] Proponga un test de detección de colusión usando la movilidad de trabajadores entre firmas. Si hay colusión, ¿qué esperaría sobre los flujos de trabajadores entre firmas del cártel? Referencia: Capítulo 9, Sección 1.3.
Respuesta: Si las firmas coludidas pagan salarios artificialmente bajos, los trabajadores deberían tener incentivos a moverse fuera del cártel hacia firmas no coludidas que pagan mejores salarios. Por tanto, bajo colusión:
  • La tasa de movilidad desde firmas del cártel hacia firmas no coludidas debería ser alta.
  • La tasa de movilidad entre firmas del cártel debería ser baja (todas pagan similar).
  • Los trabajadores que entran al cártel deberían ser principalmente de baja productividad (que no tienen mejores opciones).
Test: estimar una regresión de movilidad: $$ M_{ij,t} = \alpha + \beta_1 C_i + \beta_2 C_j + \beta_3 (C_i \times C_j) + \text{controles} + \varepsilon_{ij,t} $$ donde $M_{ij,t} = 1$ si el trabajador se mueve de firma $i$ a $j$ en $t$. Bajo colusión, $\beta_3 < 0$ (menos movilidad dentro del cártel) y $\beta_1 > 0$ (más salidas del cártel). Ver libro Cap. 9, Sección 1.3.
[8 pts] ¿Cómo podría la existencia de un cártel sesgar la descomposición AKM de la desigualdad? Referencia: Capítulo 9, Sección 2.
Respuesta: Si hay colusión, la descomposición AKM: $$ \Var(\ln w) = \Var(\alpha) + \Var(\psi) + 2\Cov(\alpha, \psi) + \Var(X\beta) + \Var(\varepsilon) $$ se sesga porque:
  • $\Var(\psi)$ se subestima: las firmas coludidas comprimen artificialmente sus premios salariales, reduciendo la dispersión entre firmas.
  • $\Cov(\alpha, \psi)$ se sesga hacia abajo: si trabajadores de alta productividad evitan el cártel (buscan mejores salarios fuera), la correlación entre habilidad ($\alpha$) y premio firma ($\psi$) se vuelve negativa dentro del cártel, pero positiva fuera. El promedio ponderado oculta esta heterogeneidad.
  • El sorting aparente (covarianza) es menor del que habría sin colusión, subestimando la contribución de la asignación trabajador-firma a la desigualdad.
Para corregir, se puede estimar AKM por separado para firmas coludidas y no coludidas, y comparar las descomposiciones. Ver libro Cap. 9, Sección 2.3.

Ejercicio 23: Ejercicio 23: Salario Mínimo con Elasticidades Heterogéneas (25 pts)

Cap. 10Salario Mínimo con Elasticidades Heterogéneas
Considere dos mercados laborales (norte y sur) con distinta elasticidad de demanda laboral. El gobierno sube el salario mínimo de $w_0$ a $w_1$.
[8 pts] Usando el modelo competitivo, prediga el efecto sobre el empleo en cada mercado. ¿En cuál cae más el empleo? Relacione con las reglas de Marshall-Hicks. Referencia: Capítulo 4 y Capítulo 10.
Respuesta: En el modelo competitivo, el empleo cae en ambos mercados (movimiento a lo largo de la curva de demanda). La caída es mayor donde la demanda es más elástica. Por las reglas de Marshall-Hicks, la demanda es más elástica cuando:
  • Alta elasticidad de sustitución $\sigma$ (fácil reemplazar trabajo con capital).
  • Alta elasticidad de demanda del producto final.
  • Alta participación del trabajo en costos totales.
  • Oferta de capital elástica.
Ejemplo: si el norte es intensivo en manufactura (alta sustitución con robots) y el sur en servicios (baja sustitución), el efecto del salario mínimo será mayor en el norte. La literatura encuentra elasticidades empleo-salario mínimo de -0.1 a -0.3 en sectores competitivos (manufactura) y cercanas a 0 en sectores con poder de mercado (comercio minorista). Ver libro Cap. 10, Sección 1.2.
[9 pts] En el norte hay sindicatos fuertes que ya habían fijado un salario $w_S > w_0$ antes del aumento del salario mínimo. ¿Cómo cambia el análisis? ¿El salario mínimo tiene algún efecto en el norte? Referencia: Capítulo 10, Secciones 1--2.
Respuesta: Si el norte ya tiene un salario sindical $w_S > w_0$, el aumento del salario mínimo de $w_0$ a $w_1$:
  • Si $w_1 < w_S$: el salario mínimo no es vinculante en el norte (el salario ya está por arriba). No hay efecto en empleo ni salarios.
  • Si $w_1 > w_S$: ahora el mínimo es vinculante. El salario sube a $w_1$ (efecto derrame: el mínimo empuja al alza también el salario sindical si hay renegociación). El empleo puede caer si el salario mínimo está por encima del producto marginal.
Esto implica que el salario mínimo afecta más a los mercados no sindicalizados y con salarios bajos (sur), y menos o nada a los mercados con alta cobertura sindical (norte). La evidencia de EE.UU. (DiNardo et al., 1996) muestra que el salario mínimo reduce la desigualdad en la cola baja, pero los efectos son heterogéneos por región y sector. Ver libro Cap. 10, Sección 2.3.
[8 pts] Proponga un diseño de DiD para estimar el efecto del salario mínimo usando la variación entre regiones. ¿Qué problemas de identificación surgen si las regiones tienen distintas tendencias de empleo? Referencia: Capítulo 1, DiD.
Respuesta: Diseño DiD: comparar empleo en la región que subió el mínimo (tratada) vs.\ la que no (control), antes y después de la reforma: $$ Y_{rt} = \alpha + \beta \cdot \text{Post}_t \times \text{Trat}_r + \gamma_r + \lambda_t + \varepsilon_{rt} $$ donde $\beta$ es el efecto del salario mínimo sobre el empleo. Problemas de identificación:
  1. Tendencias paralelas: si las regiones tienen distintas tendencias de empleo pre-reforma, el estimador DiD está sesgado. Por ejemplo, si la región tratada ya venía perdiendo empleo por desindustrialización (no por el salario mínimo), $\hat{\beta}$ es negativo incluso si el mínimo no tuvo efecto.
  2. Shocks contemporáneos: si la reforma del salario mínimo coincide con otros cambios (impuestos, regulación), no se puede separar el efecto.
  3. Spillovers: las regiones control pueden verse afectadas por la reforma en la región tratada (migración de firmas).
Solución: incluir tendencias específicas por región, usar grupos de control múltiples (synthetic control), o explotar variación en el grado de exposición (intensidad del tratamiento). Ver libro Cap. 1, Sección 1.5.

Ejercicio 24: Ejercicio 24: Diseños Cuasi-Experimentales Comparados (25 pts)

Cap. 1Diseños Cuasi-Experimentales Comparados
Un investigador quiere estimar el efecto de un programa de capacitación laboral ($T_i$) sobre ingresos ($Y_i$). Tiene tres fuentes potenciales de variación:
9 pts. Para cada fuente de variación, identifique qué método de identificación usaría y cuál es el parámetro causal identificado. ¿En qué se diferencian estos parámetros? Referencia: Capítulo 1.
Respuesta:
  • Sorteo: IV/LATE. $Z_i$ es instrumento, $T_i$ es endógena (algunos sorteados no asisten, algunos no sorteados sí). Bajo LATE, identifica $E[Y(1)-Y(0) \mid C]$, el efecto para los compliers (quienes asisten si y solo si son sorteados).
  • Edad: Fuzzy RDD. $R_i$ es la running variable, cutoff en $30$. La probabilidad de tratamiento salta en $R_i=0$ (los menores de 30 pueden acceder). Identifica el LATE para compliers en el cutoff (personas cerca de los 30).
  • Región: DiD. Compara norte vs.\ sur antes/después de 2020 y 2022. Identifica el ATT (efecto promedio sobre los tratados) bajo el supuesto de tendencias paralelas.
Diferencia entre parámetros: LATE por sorteo es el efecto para los marginales (compliers del sorteo). RDD es para los marginales en edad (cerca de 30). ATT es para todos los tratados del norte. Si el efecto es heterogéneo, estos parámetros pueden diferir. Por eso es importante reportar el grupo de identificación de cada método. Ver libro Cap. 1, Tabla resumen.
8 pts. Si el investigador puede usar las tres fuentes simultáneamente, ¿cómo diseñaría una estrategia de identificación combinada? Proponga un modelo y discuta los supuestos que se necesitan para que el estimador combinado sea interpretable. Referencia: Capítulo 1, MTE.
Respuesta: Se puede usar el framework de MTE (Marginal Treatment Effect) que unifica IV, RDD y otras fuentes de variación. Con múltiples instrumentos, se estima la curva MTE completa: $$ \text{MTE}(u) = E[Y(1)-Y(0) \mid U = u] $$ donde $U$ es el percentil de resistencia a participar (indice de selección). El modelo de elección es: $T_i = \mathbf{1}\{P(Z_i) > U_i\}$, donde $P(Z_i) = \Pr(T_i=1 \mid Z_i)$ es el propensity score. Con múltiples instrumentos, $P(Z_i)$ varía más y podemos identificar la MTE en un rango más amplio de $u$. Una vez estimada la MTE, se recuperan: \begin{aligned} \text{ATE} &= \int_0^1 \text{MTE}(u) \, du \\ \text{ATT} &= \int_0^1 \text{MTE}(u) \cdot \frac{P(Z)}{E[P(Z)]} \, du \\ \text{LATE} &= \frac{1}{P(z')-P(z)} \int_{P(z)}^{P(z')} \text{MTE}(u) \, du \end{aligned} Supuesto: la variable de selección $U$ es independiente de $Z$ (independencia condicional). Los tres instrumentos deben ser válidos (independencia, exclusión) y la función $P(Z)$ debe tener soporte común. Ver libro Cap. 1, Sección 1.3.
8 pts. El investigador encuentra que el LATE por sorteo es mayor que el ATT por DiD. Proponga dos explicaciones económicas para esta diferencia. Referencia: Capítulo 1, Secciones 1.2--1.5.
Respuesta: Dos explicaciones para que LATE (sorteo) $>$ ATT (DiD):
  1. Heterogeneidad de efectos: los compliers del sorteo son personas que no habrían accedido al programa sin el sorteo (marginales). Si estos marginales tienen mayores retornos a la capacitación que los tratados promedio (siempre asistentes), el LATE será mayor que el ATT. Esto ocurre si la capacitación tiene retornos decrecientes: los inframarginales (siempre asistentes) ya tenían acceso a otras oportunidades, los marginales tienen menos alternativas y se benefician más.
  2. Cumplimiento imperfecto en DiD: en el diseño DiD norte vs.\ sur, algunos del norte no se capacitaron y algunos del sur sí (contaminación). El ATT estimado mezcla efectos de tratados y no tratados, atenuando el efecto estimado si los no tratados tienen retorno cero.
  3. Selección diferencial: el programa puede haber sido implementado de forma distinta entre norte y sur (coaching, calidad de instructores), generando un ATT menor si el sur tiene peor implementación.
La lección es que distintos diseños identifican distintos parámetros. Reportarlos todos permite entender la heterogeneidad del efecto. Ver libro Cap. 1, Sección 1.2.

Ejercicio 25: Ejercicio 25: Preguntas Capciosas de Conceptos (30 pts)

TransversalPreguntas Capciosas de Conceptos
[1.5 pts] ``El estimador OLS del retorno a la educación está sesgado hacia abajo porque las personas con mayor habilidad obtienen más educación.''
Respuesta: Falso. El sesgo por habilidad (ability bias) es hacia arriba. Personas con mayor habilidad innata ($\varepsilon_i$) obtienen más educación ($S_i$) y también tienen mayores ingresos, por lo que $\Cov(S_i, \varepsilon_i) > 0$, generando $\hat{\beta}_{OLS} > \beta$. El sesgo es positivo, no negativo. Ver libro Cap. 3, Sección 2.2.
[1.5 pts] ``En el modelo de monopsonio, un salario mínimo moderado siempre reduce el empleo.''
Respuesta: Falso. En el modelo de monopsonio, un salario mínimo entre $w^*$ (salario de monopsonio) y $w_c$ (salario competitivo) puede aumentar el empleo. La empresa enfrenta ahora un costo marginal del trabajo plano en $w_{min}$, y contrata hasta donde $VMP_L = w_{min}$, lo que puede ser mayor que el empleo de monopsonio. Ver libro Cap. 10, Sección 1.2 y Cap. 6.
[1.5 pts] ``El teorema LATE establece que el estimador IV identifica el efecto causal promedio para toda la población.''
Respuesta: Falso. El LATE identifica el efecto causal promedio solo para los compliers ($C = \{T_i(1) > T_i(0)\}$), no para toda la población. Si hay always-takers o never-takers, el efecto para ellos no está identificado sin supuestos adicionales. Ver libro Cap. 1, Teorema 1.5.
[1.5 pts] ``Si $\sigma > 1$, entonces el trabajo calificado ($H$) y no calificado ($L$) son complementos en la producción.''
Respuesta: Falso. $\sigma > 1$ significa que $H$ y $L$ son sustitutos (se puede reemplazar uno por otro fácilmente). Cuando $\sigma > 1$, un aumento en $H/L$ reduce el premio de habilidades $\omega$ más que proporcionalmente. Complementos implican $\sigma < 1$. Ver libro Cap. 5, Sección 1.2.
[1.5 pts] ``El McCrary test evalúa si hay manipulación de la running variable en un diseño RDD.''
Respuesta: Verdadero. El McCrary test verifica si la densidad de la running variable $R_i$ es continua en el cutoff $c$. Si hay un salto en la densidad, sugiere que los agentes pueden manipular su valor de $R_i$ para quedar por encima o debajo del umbral, violando el supuesto de continuidad. Ver libro Cap. 1, Sección 1.4.3.
[1.5 pts] ``En el modelo de Burdett-Mortensen, la distribución de salarios es degenerada (todos los trabajadores ganan lo mismo) porque son idénticos en productividad.''
Respuesta: Falso. El BM genera dispersión salarial incluso con trabajadores idénticos porque las firmas eligen salarios distintos como estrategia de retención: salarios más altos atraen y retienen más trabajadores, pero reducen el margen por trabajador. Las firmas son indiferentes entre estos trade-offs, generando una distribución de equilibrio $F(w)$ no degenerada. Ver libro Cap. 8, Sección 2.
[1.5 pts] ``El supuesto de independencia en LATE requiere que el instrumento $Z_i$ sea independiente del outcome observado $Y_i$.''
Respuesta: Falso. Requiere independencia de los potenciales $(Y_i(1), Y_i(0), T_i(1), T_i(0))$, no del outcome observado. De hecho, $Z_i$ debe estar correlacionado con $Y_i$ (a través de $T_i$) para que el instrumento sea relevante. Si $Z_i$ fuera independiente de $Y_i$, no habría first stage. El supuesto es sobre los contrafactuales, no sobre los realizados. Ver libro Cap. 1, Sección 1.2.2.
[1.5 pts] ``Un aumento en la oferta relativa de trabajadores calificados ($H/L$) siempre reduce el premio de habilidades $\omega$.''
Respuesta: Depende. Del modelo CES: $\partial \ln \omega / \partial \ln(H/L) = -1/\sigma$. Si $\sigma > 1$ (sustitutos), la derivada es negativa: $\omega$ cae. Pero si $\sigma < 1$ (complementos), la derivada es positiva: $\omega$ sube al aumentar $H/L$. La evidencia sugiere $\sigma \approx 1.5$ en EE.UU., por lo que en la práctica la relación es negativa. Ver libro Cap. 5, Sección 1.3.
[1.5 pts] ``El ATT requiere un supuesto identificador más débil que el ATE.''
Respuesta: Verdadero. El ATT requiere identificar solo el contrafactual de los tratados (qué les habría pasado sin tratamiento), mientras que el ATE requiere identificar ambos contrafactuales (tratados y no tratados). En diseños cuasi-experimentales, es más fácil construir un grupo de control comparable para los tratados que para toda la población. Ver libro Cap. 1, Sección 1.1.2.
[1.5 pts] ``En un diseño Sharp RDD, el tratamiento se asigna con probabilidad 1 a quienes superan el cutoff y probabilidad 0 a quienes no.''
Respuesta: Verdadero. En Sharp RDD, $T_i = \mathbf{1}\{R_i \geq c\}$ de forma determinista. No hay always-takers ni never-takers en el cutoff. Esto contrasta con Fuzzy RDD, donde el salto en probabilidad es menor a 1. Ver libro Cap. 1, Sección 1.4.1-1.4.2.
[1.5 pts] ``El estimador de Diferencias-en-Diferencias (DiD) requiere que los grupos tratado y control tengan la misma media de $Y$ antes del tratamiento.''
Respuesta: Falso. DiD requiere tendencias paralelas, no igual nivel. Los grupos pueden tener distintos niveles iniciales de $Y$; lo que importa es que evolucionarían de la misma forma en ausencia del tratamiento. De hecho, los efectos fijos de grupo capturan diferencias de nivel. Ver libro Cap. 1, Sección 1.5.1.
[1.5 pts] ``La elasticidad Frisch de oferta laboral es la relevante para evaluar changements impositivos permanentes.''
Respuesta: Falso. La elasticidad Frisch es relevante para cambios transitorios en el salario (mantiene constante la utilidad marginal de la riqueza). Para cambios permanentes, la elasticidad relevante es la Marshaliana (no compensada) o Hicksiana (compensada). Ver libro Cap. 2, Sección 4.2.
[1.5 pts] ``En el modelo de Heckman (two-step), el inverse Mills ratio ($\lambda$) corrige el sesgo por selección muestral.''
Respuesta: Verdadero. En el primer paso se estima la probabilidad de participar ($\Pr(T_i=1) = \Phi(\gamma Z_i)$) y se calcula $\hat{\lambda}_i = \phi(\gamma Z_i)/\Phi(\gamma Z_i)$. En el segundo paso, se incluye $\hat{\lambda}_i$ como regresor en la ecuación de horas, corrigiendo el sesgo por selección bajo el supuesto de normalidad conjunta de los errores. Ver libro Cap. 2, Sección 2.2.
[1.5 pts] ``2SLS con múltiples instrumentos siempre estima un promedio ponderado de LATEs con pesos no negativos.''
Respuesta: Falso. Blandhol et al. (2025) muestran que los pesos pueden ser negativos cuando los instrumentos tienen distinta fortaleza o los efectos son heterogéneos. 2SLS puede estimar un efecto fuera del rango de todos los LATEs individuales. Esto es un problema grave cuando se usan múltiples instrumentos sin verificar la condición de pesos positivos. Ver libro Cap. 1, Sección 1.2.3.
[1.5 pts] ``En el modelo AKM, el efecto firma $\psi_j$ captura la productividad del trabajador.''
Respuesta: Falso. $\psi_j$ captura el premio salarial de la firma (cuánto paga una firma por encima del salario que predice la habilidad del trabajador). La productividad del trabajador está capturada por $\alpha_i$ (efecto trabajador). $\psi_j$ refleja rentabilidad, poder de mercado, o política salarial de la firma. Ver libro Cap. 9, Sección 1.1.
[1.5 pts] ``La condición de primer orden del problema de licensing es $p'(T) S(T) + [p(T) - w] S'(T) = 0$.''
Respuesta: Verdadero. El beneficio es $\pi(T) = [p(T) - w] S(T)$. Derivando e igualando a cero: $\partial \pi/\partial T = p'(T) S(T) + [p(T) - w] S'(T) = 0$. Esto da el mark-down $(p-w)/p = -\eta_p^T/\eta_S^T$. Ver libro Cap. 6, Sección 5.
[1.5 pts] ``El cuarto de nacimiento (quarter of birth) es un instrumento válido para estimar el retorno a la educación porque afecta los ingresos directamente.''
Respuesta: Falso. El cuarto de nacimiento afecta la edad al entrar a la escuela y por tanto los años de educación (first stage). Para que sea un instrumento válido, debe cumplir el supuesto de exclusión: no afectar los ingresos directamente sino solo a través de la educación. Angrist \& Krueger (1991) argumentan que el trimestre de nacimiento no afecta ingresos por otros canales, pero este supuesto ha sido cuestionado (efectos estacionales en salud, nutrición). Ver libro Cap. 3, Sección 2.3.
[1.5 pts] ``La brecha salarial de género se explica exclusivamente por diferencias en educación y experiencia entre hombres y mujeres.''
Respuesta: Falso. Incluso controlando por educación y experiencia, persiste una brecha no explicada que se atribuye a: (i) segregación ocupacional (mujeres concentradas en firmas con menores premios salariales, capturado por $\psi_j$ en AKM), (ii) diferencias en poder de negociación (menor elasticidad de oferta laboral femenina $\Rightarrow$ mayor markdown), (iii) discriminación. Ver libro Cap. 9, Sección 3.3.
[1.5 pts] ``En el modelo DMP, la condición de Hosios para la eficiencia requiere $\beta = \alpha$, donde $\beta$ es el poder de negociación del trabajador y $\alpha$ la elasticidad del matching respecto al desempleo.''
Respuesta: Verdadero. La condición de Hosios establece que el equilibrio descentralizado es eficiente (maximiza el bienestar social) si y solo si $\beta = \alpha$. Si $\beta < \alpha$, hay muy pocas vacantes (desempleo ineficientemente alto). Si $\beta > \alpha$, hay demasiadas vacantes. Ver libro Cap. 7, Sección 5.1.
[1.5 pts] ``Un valor de $\sigma > 1$ implica que la elasticidad del premio de habilidades respecto a $H/L$ es mayor que 1 en valor absoluto.''
Respuesta: Falso. $\partial \ln \omega / \partial \ln(H/L) = -1/\sigma$. Si $\sigma > 1$, entonces $| -1/\sigma | < 1$, la elasticidad es inelástica: un aumento de 1\% en $H/L$ reduce $\omega$ en menos de 1\%. La elasticidad es elástica solo si $\sigma < 1$. Ver libro Cap. 5, Sección 1.3.
No hay ejercicios que coincidan con los filtros seleccionados.