Regresión bayesiana para analistas: intuición y código

Nota: Artículo de prueba para validar el render de MDX. No publicar.

El problema con los p-valores

El p-valor mide la probabilidad de observar los datos asumiendo que la hipótesis nula es cierta, no la probabilidad de que la hipótesis sea cierta dados los datos¹. Esta confusión tiene consecuencias reales en análisis de marketing y política pública.

El marco bayesiano invierte la pregunta. En lugar de $P(\text{datos} \mid H_0)$ , calcula la distribución posterior:

$P(\theta \mid \text{datos}) \propto P(\text{datos} \mid \theta) \cdot P(\theta)$

donde $\theta$ son los parámetros del modelo y $P(\theta)$ el prior que codifica el conocimiento previo.

Ejemplo mínimo con PyMC

import pymc as pm
import numpy as np

# Datos simulados: y = 2x + 1 + ruido gaussiano
rng = np.random.default_rng(42)
x   = rng.uniform(0, 10, size=50)
y   = 2 * x + 1 + rng.normal(0, 1.5, size=50)

with pm.Model() as modelo:
    # Priors vagos
    alpha = pm.Normal("alpha", mu=0, sigma=10)
    beta  = pm.Normal("beta",  mu=0, sigma=10)
    sigma = pm.HalfNormal("sigma", sigma=5)

    # Verosimilitud
    mu = alpha + beta * x
    pm.Normal("y_obs", mu=mu, sigma=sigma, observed=y)

    # Muestreo MCMC
    traza = pm.sample(1000, tune=1000, return_inferencedata=True)

Distribución posterior

Tras el muestreo MCMC, la distribución posterior de $\beta$ concentra su masa alrededor del valor verdadero con incertidumbre cuantificada. La media posterior $\hat{\beta}$ y el intervalo de credibilidad del 94 % ofrecen más información que un coeficiente puntual y su p-valor.

[ Figura de prueba — reemplazar con gráfico de distribución posterior ]

Distribución posterior de β. El intervalo de credibilidad al 94 % excluye el cero, evidencia de una relación positiva entre x e y.

Gelman et al. (2020), Bayesian Data Analysis, 3.ª ed. Chapman & Hall/CRC. Capítulo 1. ↩

El problema con los p-valores

Ejemplo mínimo con PyMC

Distribución posterior

Footnotes