
Hace algunos años vi a un equipo de producto reconstruir el mismo flujo de onboarding dos veces en dieciocho meses. El primer rediseño movió el sign-in al paso cuatro. El segundo lo regresó al paso uno. Nadie en el equipo recordaba por qué se había tomado la primera decisión. La PM que había impulsado el sign-in diferido se había ido. El hilo de Slack donde vivía la justificación había sido archivado automáticamente. El único artefacto era el código, que para entonces había sido reescrito tan a fondo que incluso los nombres originales de las variables habían desaparecido. El equipo gastó un sprint haciendo ingeniería inversa de su propio criterio pasado, y el segundo rediseño recreó silenciosamente los mismos errores que el primero pretendía arreglar. Ese es el costo de una decisión de diseño no documentada: no el diseño en sí, sino la pérdida de memoria institucional que convierte cada desacuerdo en una discusión nueva sin antecedentes. La solución no es más proceso. Es un hábito de cinco partes que cabe en una sola página y sobrevive a las personas que lo escribieron:
La definición estricta de una decisión de diseño y la estructura que la hace duradera
Los cinco tipos de evidencia ordenados por peso, incluyendo dónde se ubica ahora el análisis de sesiones con IA
Plantillas, ejemplos resueltos y un modelo de madurez que puedes incorporar a tu equipo este trimestre
Una decisión de diseño es una elección documentada entre enfoques alternativos para un problema de producto, UX o sistema, incluyendo las alternativas consideradas, los criterios usados y la evidencia que justificó la dirección elegida. La documentación importa porque la justificación sobrevive a la memoria; los errores de diseño más caros son los que nadie recuerda haber tomado, y los segundos más caros son los que se vuelven a discutir cada trimestre porque los antecedentes nunca quedaron por escrito.
Hay una definición laxa y una estricta, y la brecha entre ambas es donde la mayoría de los equipos de producto pierde dinero.
La definición laxa trata cada elección que hace un diseñador o PM como una decisión de diseño. La ubicación del botón, el copy del estado vacío, el radio de la tarjeta. Bajo esa definición, una semana de trabajo contiene cientos de decisiones de diseño, casi ninguna digna de registrar, y el término pierde toda utilidad como dispositivo de coordinación. Los equipos que la usan en sentido amplio terminan documentando nada o ahogándose en notas con forma de plantilla que nadie lee.
La definición estricta es más acotada. Una decisión de diseño es una elección que cumple al menos una de tres pruebas. Es difícil de revertir sin un costo significativo. Afecta a más de un equipo o superficie. O es probable que sea re-discutida más tarde, ya sea porque el trade-off no es obvio o porque el contexto cambiará. La jerarquía de navegación es una decisión de diseño bajo esta definición. La estructura de los planes de precios lo es. La elección entre un wizard y un formulario de una sola página en un flujo de alto impacto lo es. El tono exacto de azul del botón primario no lo es, aunque un diseñador haya tomado la elección.
Sigo volviendo a la definición estricta porque obliga a una pregunta útil en el momento del trabajo: ¿estoy tomando una decisión que necesita un registro o estoy tomando una decisión de oficio que no? Los equipos que responden esa pregunta de manera explícita producen dos resultados. El primero es una pequeña biblioteca de registros de decisiones que importan. El segundo es un volumen mucho mayor de trabajo de oficio sin registrar que se lanza sin ceremonia. Ambos son correctos. El error es tratarlos del mismo modo.
Una segunda aclaración que vale la pena hacer pronto: una decisión de diseño no es lo mismo que una especificación de diseño. Una spec dice cómo se construye la cosa. Una decisión dice por qué se eligió este enfoque sobre las alternativas. Puedes lanzar una funcionalidad con una spec exhaustiva y sin registro de decisión, y un año después nadie sabrá si el equipo consideró la otra opción obvia. La mayoría de las organizaciones de producto sobreinvierten en specs y subinvierten en decisiones, y la asimetría aparece después como discusiones repetidas sobre elecciones ya zanjadas.
Las razones son predecibles, y una vez que las ves es fácil diseñar para evitarlas.
La primera razón es que la decisión se siente obvia en el momento. Dos diseñadores y un PM se ponen de acuerdo en una reunión de treinta minutos, las alternativas se sienten débiles y escribirlo parece un sobrecosto. Un mes después los participantes originales ya no están y la decisión desapareció. "Obvio en el momento" es la causa más común de justificación perdida. La solución es escribir el registro precisamente porque la decisión se siente obvia, no a pesar de eso.
La segunda razón es que la documentación vive en un lugar que no sobrevive. Hilos de Slack, comentarios de Loom, cadenas de email, comentarios en herramientas de diseño atados a un frame que termina renombrado. Cada uno de esos formatos es rápido de producir y casi seguro de ser irrastreable en seis meses. Atlassian Confluence y Notion funcionan porque son buscables y sobreviven al tablero del proyecto. El propio repositorio de código funciona para decisiones de ingeniería, que es por lo que el formato Architecture Decision Record sobre el que Michael Nygard escribió en su post original de 2011 mantiene el registro junto al sistema que describe.
La tercera razón es que el paso de la evidencia es caro. Sacar investigación de usuarios, ver suficientes session replays para ser concluyente, comparar con productos parecidos: un investigador senior puede gastar dos días armando la evidencia para una sola decisión. Frente a ese costo, los equipos saltan la evidencia y afirman la decisión desde la intuición, o saltan la documentación y toman la decisión en una reunión. Ambos atajos son racionales bajo la economía vieja de la recolección de evidencia. Se vuelven innecesarios una vez que una capa de análisis de sesiones con IA comprime el paso de la evidencia de días a horas, que es el hilo conductor de esta guía.
La cuarta razón es que nadie es dueño de la práctica. Los ADRs de ingeniería son un formato conocido con un hogar conocido. Las decisiones de diseño viven en una tierra de nadie entre PM, diseño e investigación, y cuando ningún rol es dueño del writeup, el writeup no ocurre. Los equipos que aciertan en esto eligen un dueño explícitamente, usualmente el PM o el design lead de la superficie en cuestión, e incorporan el writeup al mismo ritual que produce la spec.
La quinta razón es más cultural que procedimental: un miedo mal ubicado a que documentar las alternativas haga que la dirección elegida se vea más débil. Lo opuesto es cierto. Un registro de decisión que nombra las opciones rechazadas y las razones hace que la dirección elegida sea más defendible, no menos. Reforge cubre esto en su material de práctica de producto; las organizaciones de producto más fuertes exponen su razonamiento en lugar de esconderlo.
El formato de abajo está adaptado del formato de Architecture Decision Records (ADRs) usado ampliamente en ingeniería. Las mismas cinco partes funcionan para decisiones de diseño y producto porque el problema subyacente es el mismo: capturar la justificación de una manera que sobreviva a las personas que la escribieron.
¿Qué problema estamos resolviendo y qué restricciones existen alrededor? De dos a cuatro oraciones suelen alcanzar. El contexto debería describir el síntoma que disparó la decisión, la métrica o comportamiento relevante y cualquier restricción (regulatoria, técnica, de plazo) que reduzca el espacio de opciones. Un lector que nunca haya oído hablar de esta superficie debería poder entender por qué la decisión necesitaba tomarse.
El error más común en la sección de contexto es escribirlo en abstracto. "El onboarding tiene mucha fricción" no es contexto. "La retención al día 1 es 18%, el embudo muestra que el 41% de los usuarios abandona en el paso de creación de contraseña, y el equipo se comprometió a un aumento de 5 puntos de retención antes de fin de trimestre" sí es contexto. Los números y fechas específicos hacen útil el registro cuando el contexto cambie más adelante.
El enfoque elegido en una o como mucho dos oraciones. Esta es la única sección que debería leerse como un titular. Los revisores deberían poder hojear cien decisiones y entender la elección desde esa línea sola. Si no puedes comprimir la decisión a una oración, la decisión probablemente está agrupando dos o tres sub-decisiones que cada una merece su propio registro.
La voz importa. Escribe la decisión en voz activa y en pasado una vez finalizada: "Movimos el sign-in a un prompt diferido que aparece después de que el usuario completó su primera interacción significativa." Evita lenguaje tibio ("estamos explorando", "podríamos elegir") en esta sección, porque la sección de decisión es la parte que los lectores futuros van a citar.
Las otras opciones que estaban sobre la mesa, brevemente descritas, con la razón por la que cada una fue rechazada. Tres es un número saludable, a veces cuatro. Dos sugiere que el equipo no generó suficiente variedad. Cinco o más sugiere que el equipo no convergió.
Esta es la sección que más se omite, y omitirla es la mayor razón individual por la que los registros de decisiones no se acumulan. Sin las alternativas, la justificación está incompleta y el siguiente equipo que revise la decisión tiene que empezar desde cero. Con las alternativas, el siguiente equipo puede leer el razonamiento original, identificar qué premisas cambiaron y actualizar la decisión en lugar de rehacerla.
Una disciplina útil: nombra cada alternativa como si la persona que la propuso estuviera en el cuarto. Escribe "rechazada porque" en lugar de "descartada porque no pudimos" para mantener el registro honesto sobre la elección, en lugar de adornarla después del hecho.
Qué datos, investigación o juicio justificaron la decisión. Esta sección es donde aparece la diferencia entre una decisión con evidencia de calidad y una decisión hecha al voleo. Los cinco tipos de evidencia y sus pesos relativos están cubiertos en detalle en una sección más abajo; la versión corta es que las pruebas A/B de primera mano y el session replay de tus propios usuarios cargan más peso, el análisis de sesiones con IA carga peso fuerte cuando está anclado en tus propios datos, los analytics cuantitativos son útiles para preguntas de "dónde", y la investigación publicada es útil como antecedente.
Los punteros específicos pertenecen a esta sección: un link a la página de resultados del experimento, las URLs de session replay, la corrida de análisis de Tara AI que sacó a la luz el patrón, el artículo de Nielsen Norman Group que informó el antecedente. "Hablamos con usuarios" no es evidencia; "corrimos pruebas moderadas con siete usuarios en Maze y el paso de contraseña fue el disparador del abandono en cinco de ellos" sí lo es.
Lo que esta decisión hace posible y lo que cierra. Los trade-offs aceptados. La mayoría de los equipos escribe el lado positivo y se salta el negativo, lo que es exactamente al revés. El lado positivo es la razón por la que se tomó la decisión; el lado negativo es la razón por la que los equipos futuros la van a querer revisar, y nombrar los costos en el registro original les da un punto de partida.
Una sección de consecuencias también obliga a la honestidad sobre los efectos de segundo orden. Una decisión de diferir el sign-in cambia la superficie de analytics. Una decisión de consolidar una jerarquía de navegación crea una nueva carga de accesibilidad. Estos efectos de segundo orden son fáciles de pasar por alto en el momento y caros de descubrir después del hecho, y escribirlos es una función forzante sobre si el equipo realmente los pensó a fondo.
Una regla práctica corta: si la sección de consecuencias es más corta que la sección de decisión, el equipo probablemente no terminó de pensar. Los registros de decisión más fuertes que he leído tienen una sección de consecuencias más larga que todas las otras secciones combinadas.
Lo que sigue es un registro con forma real del tipo de producto móvil de consumo donde la retención es la estrella polar principal. Usa la estructura de cinco partes de manera literal.
Título. Diferir el sign-in a después de la primera interacción significativa.
Fecha. 2026-03-12. Autora. Lara K., Group PM, Activación.
Contexto. La retención al día 1 ha estado plana en 18% durante tres trimestres a pesar de cinco experimentos de activación distintos. El onboarding actual empieza con un flujo de sign-in de cuatro pasos antes de que el usuario vea cualquier valor del producto, y el embudo muestra una caída del 41% en el paso de creación de contraseña. Issue analytics marcó un cluster de rage taps en el mismo paso. El equipo de activación se comprometió a un aumento de 5 puntos en retención al día 1 antes de fin de Q3.
Decisión. Movimos el sign-in a un prompt diferido que aparece después de que el usuario completó su primera interacción significativa en el producto. Los nuevos usuarios aterrizarán directamente en una experiencia de muestra guiada, y el prompt de sign-in aparecerá en el momento en que el usuario intente guardar, compartir o hacer upgrade.
Alternativas consideradas.
Reducir el flujo de sign-in a un solo paso (solo email con magic link). Rechazada porque el signup solo con email aumenta la carga de cumplimiento y prevención de abuso, el equipo no está dotado para manejar verificación solo por email al volumen que esperamos, y el ida-y-vuelta del magic link introduce una nueva superficie de abandono difícil de instrumentar.
Quitar el sign-in por completo hasta el momento de compra. Rechazada porque perdemos la capacidad de rastrear usuarios recurrentes en métricas de retención al día 1, que es la métrica con la que el equipo de activación se comprometió. El trade-off era direccionalmente tentador pero inviable dada la restricción de medición.
Mantener el flujo existente y reducir los requisitos de complejidad de contraseña. Rechazada porque los session replays muestran a los usuarios abandonando antes de ver siquiera los requisitos de contraseña; la fricción es la existencia de la barrera, no las reglas de la barrera.
Diferir el sign-in a después de la primera interacción significativa. Seleccionada.
Evidencia.
Los datos del embudo muestran una caída del 41% en el paso de contraseña, con rage taps concentrados en la misma pantalla. Extraído del product analytics el 2026-02-28.
Doce session replays de sesiones abandonadas, vistos por la PM de activación y el investigador senior. Once de los doce muestran al usuario pausado por más de diez segundos en el paso de contraseña antes de salir.
El análisis de Tara AI clusterizó las razones de abandono en 1.847 sesiones abandonadas en los treinta días previos. Los requisitos de contraseña aparecieron en el 70% de los clusters, y "ningún valor obvio todavía" apareció en el 58%.
La investigación de Reforge sobre patrones de activación respalda el sign-in diferido para productos móviles de consumo con casos de uso discrecionales.
Nielsen Norman Group escribe consistentemente sobre el costo de la fricción inicial en onboarding; tratado como antecedente, no como input principal.
Consecuencias.
Se espera que la retención al día 1 suba entre 5 y 10 puntos porcentuales en base a la reconstrucción del embudo. Se confirmará vía un rollout por fases con un holdback 50/50.
Los analytics de usuarios recurrentes perderán la primera sesión de cada nuevo usuario, ya que ya no tenemos un ID de usuario estable en el primer lanzamiento. Trade-off aceptable; reconstruiremos la identidad de usuario recurrente desde señales a nivel de dispositivo y aceptaremos menor fidelidad en la cohorte del primer día.
El costo de ingeniería es moderado, estimado en un sprint más un cambio aguas abajo en el servicio de personalización que asumía sign-in en el paso dos.
La lógica de personalización aguas abajo que ramificaba según atributos de usuario capturados en el signup necesita revisarse para manejar el caso en que esos atributos están ausentes para la primera sesión. Dueño: equipo de Personalización, alcance dentro del mismo sprint.
La carga de soporte podría tener un pico breve mientras los usuarios encuentran el nuevo prompt en momentos no familiares. Vamos a monitorear durante dos semanas y a incorporar cualquier copy aclaratorio en una v2.
Estamos aceptando un compromiso de medición (menor fidelidad en la identificación de usuario recurrente del primer día) a cambio de una ganancia de activación. Si la ganancia de activación no se materializa, el compromiso de medición no se justifica y deberíamos revertir.
El registro de arriba ronda las 450 palabras. Un equipo que produce diez de estos por trimestre tiene una historia escrita de su propio razonamiento de producto que se acumula. Un equipo que produce cero solo tiene el código.
Las decisiones de navegación valen particularmente la pena de documentar porque son difíciles de revertir y afectan a todas las demás superficies del producto. El registro de abajo viene de un contexto B2B SaaS.
Título. Consolidar tres entradas de navegación de nivel superior en una sola entrada "Workspace" con sub-navegación.
Fecha. 2026-04-02. Autor. Mehmet O., Diseñador Principal, Plataforma.
Contexto. Nuestra navegación superior tiene actualmente siete entradas: Dashboard, Reports, Workspace, Documents, Library, Settings, Help. La investigación de usuarios de los últimos seis meses muestra que "Workspace", "Documents" y "Library" no son entendidos como conceptos distintos por 7 de cada 10 usuarios probados. Los embudos muestran que los usuarios abren la entrada equivocada en el primer intento el 38% de las veces, y luego retroceden. Los datos de heatmap muestran que las tres entradas concentran el calor en los mismos patrones independientemente de cuál se haya tocado.
Decisión. Consolidamos "Workspace", "Documents" y "Library" en una sola entrada de nivel superior "Workspace" con una sub-navegación a la izquierda que muestra las tres categorías previas como filtros. El conteo total de entradas de nivel superior baja de siete a cinco.
Alternativas consideradas.
Renombrar "Library" a "Templates" y mantener las tres entradas de nivel superior. Rechazada porque el renombre aborda la confusión de etiquetado pero no la superposición conceptual; los usuarios seguían confundidos sobre qué entrada abrir en pruebas moderadas después del renombre.
Consolidar en una sola entrada sin sub-navegación, exponiendo las tres categorías como una experiencia de búsqueda unificada. Rechazada porque los usuarios habituales con conocimiento profundo del flujo de trabajo dependen de la distinción de categorías, y una experiencia de búsqueda unificada les pide escribir donde antes hacían clic. El cambio penaliza a los usuarios poder para hacer marginalmente menos confusos a los usuarios primerizos.
Consolidar en "Workspace" con sub-navegación como filtros. Seleccionada.
Mover "Library" a "Settings" como una sección de plantillas. Rechazada porque el equipo dueño de las plantillas se opuso; las plantillas son una superficie principal para la cohorte de origen marketing y enterrarlas bajo Settings suprimiría la adopción.
Evidencia.
Pruebas de usabilidad moderadas con once clientes, corridas en UserTesting y Maze durante seis semanas. Siete de once no pudieron articular la diferencia entre las tres entradas. Cinco de once abrieron la entrada equivocada en el primer intento.
El análisis de Tara AI sacó a la luz un cluster de sesiones de "ida y vuelta de navegación" concentradas en estas tres entradas; impacto estimado del 4% del total de fricción de sesión.
Los datos de heatmap y clic mostraron que las tres entradas recibieron patrones de interacción similares por hora, sugiriendo que los usuarios las trataban como intercambiables.
Plataformas B2B comparables (nombradas en el apéndice) han consolidado todas a cinco o menos entradas de nivel superior; tratado como antecedente.
Consecuencias.
Se espera que la precisión de navegación de los usuarios primerizos mejore entre 15-25% en base a las reconstrucciones de las pruebas moderadas.
Los usuarios poder van a experimentar una disrupción única mientras aprenden la nueva sub-navegación; mitigaremos con un puntero in-app de cuatro semanas y un artículo del centro de ayuda.
El cambio nos obliga a revisar la estructura de URL, ya que "/workspace" ahora contiene tres sub-rutas. Ingeniería estimó la migración de URL como de bajo riesgo pero no trivial; los redirects de las rutas viejas correrán durante al menos seis meses.
La revisión de accesibilidad marcó que la sub-navegación colapsada bajo una sola entrada crea un camino de lector de pantalla más profundo. Mitigación: roles de landmark explícitos y una affordance "abrir sub-navegación" con un orden de foco claro.
Estamos aceptando que los usuarios poder recurrentes reportarán algo de fricción de corto plazo. Si la nueva estructura no resulta neta positiva en ambas cohortes después de seis semanas, revertir es la decisión correcta en lugar de seguir iterando.
La decisión es pequeña en superficie y grande en efectos de segundo orden, que es exactamente la forma que más se beneficia de un registro escrito.
Cinco tipos de evidencia, ordenados por el peso que deberían cargar en una decisión. El orden importa porque los equipos rutinariamente sobreponderan los tipos fáciles (investigación publicada, intuición) y subponderan los difíciles (el comportamiento de sus propios usuarios).
1. Resultados de pruebas A/B de tu propio producto. La forma más fuerte de evidencia porque la prueba responde directamente a la pregunta para tu contexto. Los trade-offs: las pruebas toman tiempo, requieren tráfico, y solo responden preguntas que sabías que tenías que hacer. Herramientas como Statsig, Optimizely y LaunchDarkly han hecho la superficie de experimentación lo suficientemente madura como para que la mayoría de los equipos de producto deberían estar corriendo al menos un puñado de pruebas por trimestre. Un resultado de prueba estadísticamente limpio sobre tus propios usuarios le gana a cualquier otro tipo de evidencia para la pregunta que respondió.
2. Session replay de tus propios usuarios. Evidencia fuerte incluso cuando no es estadísticamente concluyente, porque está anclada en tu producto específico sobre tus usuarios específicos. La limitación es la escala: un equipo puede ver quizás veinte sesiones por semana antes de que la práctica se queme, lo que significa que el session replay sin ayuda es cualitativo y de N pequeño. La forma de la evidencia es rica, el volumen es delgado. Una decisión anclada en doce replays más un gráfico de embudo es más sólida que una decisión anclada en una sola prueba A/B que nadie sabe cómo interpretar.
3. Análisis de sesiones con IA anclado en tus propios datos de sesión. Esta es la entrada nueva en la pila de evidencia y la razón por la que la disciplina se siente diferente en 2026 a como se sentía hace tres años. Tara AI dentro de UXCam lee sesiones a escala, clusteriza patrones de fricción por impacto, y devuelve una lista ordenada de patrones con los clips de soporte adjuntos. La salida es rica en lo cualitativo a escala cuantitativa, que es la combinación que solía estar fuera de alcance. El análisis de sesiones con IA se ubica debajo de las pruebas A/B de primera mano porque los patrones son descriptivos en lugar de causales, y por encima del session replay crudo porque cubre una muestra mucho más grande sin un investigador mirando la pantalla.
4. Analytics cuantitativos de tu producto. Útiles para preguntas de "dónde" y más débiles para preguntas de "por qué". Un gráfico de embudo te puede decir que el 41% de los usuarios cae en el paso tres; no te puede decir si cayeron por confusión, por rendimiento lento, o por una funcionalidad faltante. Los analytics cuantitativos se ganan su lugar en la sección de evidencia cuantificando el tamaño del problema, lo cual es necesario para priorización, pero rara vez justifican una elección de diseño específica por sí solos.
5. Investigación publicada de fuentes confiables. Útil como antecedente. Nielsen Norman Group, Reforge y la investigación académica de UX proveen una base que ayuda a evitar antipatrones conocidos e identificar fuentes probables de fricción. La limitación es que la investigación publicada es general; tu producto es específico. Un hallazgo de que "el abandono en checkout es del 70% en promedio para ecommerce" te dice que mires el checkout, no qué hacer respecto al tuyo.
Un sexto tipo, "yo creo" o "en mi experiencia", a veces es apropiado para decisiones de bajo impacto donde el costo de equivocarse es chico y el costo de juntar evidencia es grande. El error es tratar la intuición como evidencia en decisiones de alto impacto, donde el costo de equivocarse es lo que justificó el registro de decisión en primer lugar. El costo de equivocarse determina cuánta evidencia se requiere; la intuición es un antecedente rápido, no una justificación para una elección de puerta única.
Los equipos que acumulan calidad de diseño a lo largo del tiempo tienden a apilar tipos de evidencia en lugar de depender de uno solo. Una decisión típica fuerte saca un embudo cuantitativo para dimensionar el problema, ocho a doce session replays para caracterizar la causa, una corrida de análisis de sesiones con IA para confirmar el patrón a escala, y una prueba A/B comparable o un antecedente publicado para acotar el efecto esperado. Ninguna fuente individual carga todo el peso.
No toda elección necesita un registro, y sobre-documentar es su propio modo de falla. El umbral importa.
Documenta cuando:
La decisión es difícil de revertir sin un costo significativo. Reconstruir un árbol de navegación, migrar una estructura de URL, o deshacer una configuración por defecto que ha estado en producción durante un año, todo cuenta.
La decisión afecta a más de un equipo o superficie. Un cambio en el tier de precios toca marketing, producto, billing y soporte, y cada uno de esos equipos eventualmente querrá saber por qué.
Es probable que el equipo vuelva a discutir la decisión más tarde. Si el trade-off no es obvio o el contexto va a cambiar, la próxima conversación sobre esta decisión está a meses de distancia y los participantes serán distintos.
La decisión sienta un precedente. Compromisos de accesibilidad, configuraciones de privacidad por defecto y patrones de interacción a nivel de marca son sentadores de precedente y necesitan una justificación escrita.
La decisión tiene implicaciones regulatorias o de cumplimiento. Cualquier cosa que toque GDPR, HIPAA, PCI o ley de accesibilidad debería tener un registro escrito tanto por memoria institucional como por el rastro de auditoría.
Salta cuando:
La decisión es chica, aislada y fácilmente reversible. Color de botón en una sola pantalla, variante de copy para un CTA, microcopy en un estado vacío.
La decisión es una decisión de oficio donde las alternativas no son significativamente diferentes. Un diseñador senior eligiendo entre dos tratamientos visuales cercanos no necesita un registro de decisión.
La decisión es un estado temporal que será reemplazado pronto. La UI de patrón de espera lanzada mientras la solución real está en marcha no necesita un registro más allá de un ticket de seguimiento.
Una pregunta de umbral útil: en doce meses, ¿voy a poder reconstruir mi razonamiento desde los artefactos que el equipo ya produce (specs, código, tickets)? Si sí, no se necesita registro. Si no, escribe el registro.
El balance costo-beneficio se inclina hacia la documentación más agresivamente de lo que la mayoría de los equipos asume. Una escritura de 10 minutos produce un registro que ahorra horas de re-discusión más tarde. Un equipo que documenta 10% más decisiones de las necesarias desperdicia algunas horas por trimestre. Un equipo que documenta 10% menos pierde un sprint entero por trimestre recreando decisiones que deberían haberse leído en lugar de reconstruirse.
Los patrones de abajo vienen de mirar equipos a lo largo de años, no de un libro de texto. Cada uno es una lección escrita en el sprint malgastado de un equipo previo.
1. Documentar la conclusión, no las alternativas. El modo de falla más común. Sin las alternativas, la justificación está incompleta y la decisión es difícil de revisar. Los lectores futuros no pueden saber si el equipo consideró la otra opción obvia, lo que significa que van a rehacer la consideración desde cero.
2. Tratar "el equipo se puso de acuerdo" como evidencia. El consenso no es evidencia; el comportamiento sí. Una reunión puede acordar una respuesta equivocada con alta confianza. El registro de decisión debería citar lo que los usuarios hicieron, no lo que el equipo pensó.
3. Saltarse la documentación en decisiones rápidas. Las decisiones rápidas son las más probables de ser re-discutidas, porque la velocidad de la decisión usualmente significa que las alternativas no fueron exploradas a fondo. Documéntalas igual. El registro es una función forzante sobre si la velocidad estaba justificada.
4. No revisar las decisiones cuando el contexto cambia. Una decisión tomada en base a cierto comportamiento de usuario debería ser revisada cuando ese comportamiento cambia. La mayoría de los registros de decisión mueren el día que se escriben; los más fuertes reciben una línea "revisado el [fecha]" agregada al fondo cada vez que el contexto se mueve.
5. Excederse con el formato. Un registro de decisión de 5 partes para una elección de CSS de 2 líneas es sobrecosto. Hace coincidir el formato con la apuesta. Algunos equipos mantienen una plantilla "ligera" (decisión + justificación de una línea) para decisiones de oficio y la plantilla completa para decisiones materiales.
6. Enterrar la decisión en un documento más largo. Un registro de decisión que vive dentro de una spec de 12 páginas es un registro de decisión que no se va a encontrar. Mantén la decisión en su propio documento, con un título claro, y enlázala desde la spec.
7. Dejar que el autor se esconda. Un registro sin autor es un registro sin dueño. Los lectores futuros necesitan saber a quién preguntar, y el acto de poner tu nombre en una decisión es una herramienta de calibración para el escritor.
8. Confundir la decisión con el plan de rollout. "Vamos a hacer una prueba A/B de esto" es un plan de rollout, no una decisión. La decisión es la elección; la prueba es cómo se valida. Agruparlas produce registros que son difíciles de leer después.
9. Escribir en voz pasiva. "Se decidió que el flujo de sign-in fuera diferido" es más difícil de accionar que "Diferimos el flujo de sign-in." La sección de decisión debería ser una declaración directa de la elección, escrita en la voz del equipo que la tomó.
10. Registrar decisiones en herramientas que no sobreviven. Hilos de Slack, comentarios de herramientas de diseño y cadenas de email no son durables. Confluence y Notion sí lo son. El repositorio de código sí lo es. La elección de almacenamiento es la mitad de la disciplina.
11. Saltarse las consecuencias cuando el lado positivo es obvio. Una decisión sin consecuencias listadas es una decisión que el equipo no terminó de pensar. Incluso una victoria "obvia" tiene trade-offs; nombrarlos en el registro fuerza la honestidad.
12. Tratar la recolección de evidencia como una actividad única. La evidencia no se ensambla una vez y se congela. Los registros de decisión más fuertes tratan la sección de evidencia como una parte viva del documento, con nuevos hallazgos agregados a medida que llegan. Esto es especialmente cierto una vez que una capa de análisis de sesiones con IA está corriendo, porque los patrones que saca a la luz van a evolucionar a medida que los usuarios lo hagan.
13. Confundir precedente con regla. Una decisión en una parte del producto no es automáticamente una regla en todos lados. Hace explícito el precedente cuando lo intentas ("este se vuelve nuestro enfoque por defecto para flujos de sign-in") y evítalo cuando no.
14. Olvidarse de enlazar la decisión con la métrica. Una decisión debería conectarse con la métrica que se suponía iba a mover. "Retención al día 1" o "adopción de funcionalidad" o "tickets de soporte por usuario activo" deberían aparecer en la sección de contexto, y la sección de consecuencias debería describir cómo se va a medir la decisión. Sin ese link, el equipo no puede saber si la decisión funcionó.
Esta es la sección hacia la que el resto de la guía ha estado construyendo.
El paso de la evidencia en el marco de arriba solía ser el cuello de botella. Sacar investigación de usuarios, ver suficientes replays para ser concluyente, comparar con productos similares, caracterizar el patrón de fricción a un nivel de detalle que justificara una elección de diseño específica: ese trabajo solía tomarle a un investigador senior días por decisión. Frente a ese costo, la mayoría de los equipos saltaban la evidencia y afirmaban la decisión desde la intuición, o saltaban la documentación y tomaban la decisión en una reunión. Ambos atajos eran racionales bajo la economía vieja.
Hay una manera útil de pensar la disciplina como tres eras de evidencia para decisiones de diseño.
Era uno: opinión. La primera era fueron decisiones tomadas en base a la intuición, debate interno, y cualquiera fuera la voz senior con la postura más fuerte en el cuarto. Los registros, donde existían, capturaban la conclusión y no la justificación. La evidencia era anecdótica en el mejor de los casos.
Era dos: analytics cuantitativos más cualitativo de N pequeño. Una vez que las herramientas de analytics maduraron y el session replay se volvió viable, los equipos empezaron a apilar evidencia cuantitativa (embudos, retención, conversión) con evidencia cualitativa de N pequeño (un puñado de pruebas moderadas, veinte session replays por semana). Las decisiones mejoraron. El paso de evidencia también se volvió más caro, porque ensamblar cada lado de la pila tomaba tiempo y un investigador senior para interpretarlo.
Era tres: análisis de sesiones con IA a escala. Esta es la era en la que estamos ahora. Tara AI dentro de UXCam lee sesiones al volumen que el producto realmente genera, clusteriza patrones de fricción por impacto en el negocio, y devuelve una lista ordenada de patrones con clips de replay adjuntos. Pregunta "¿cuáles son los patrones de fricción en nuestro paso de sign-in?" y la IA devuelve los clusters, ordenados por frecuencia e impacto, con la evidencia de soporte lista para pegar en un registro de decisión. El trabajo que solía tomarle dos días a un investigador senior ahora toma una mañana.
La compresión importa por lo que le hace al umbral para decisiones con evidencia de calidad. Cuando la evidencia cuesta dos días, solo las decisiones de mayor apuesta reciben evidencia de calidad; todo lo demás se afirma desde la intuición. Cuando la evidencia cuesta dos horas, el umbral baja, y las decisiones se vuelven de evidencia de calidad por defecto en lugar de por excepción. Ese es el cambio subyacente, y es la razón por la que un equipo que adopta el análisis de sesiones con IA termina con una biblioteca más gruesa de registros de decisión que un equipo que no lo hace, incluso si ambos equipos tienen la misma cultura e incentivos.
Una segunda consecuencia: la sección de alternativas en el registro de decisión se vuelve más fuerte. Una vez que una capa de IA está leyendo cada sesión, el equipo deja de adivinar qué alternativas probablemente rinden mejor; la capa puede caracterizar el patrón de fricción que cada alternativa abordaría o no abordaría. El registro deja de ser "elegimos la opción B porque pensamos que era la correcta" y empieza a ser "elegimos la opción B porque el patrón de fricción que la opción A habría abordado resulta ser el 12% del tráfico relevante, mientras que el patrón que la opción B aborda es el 38%."
Una tercera consecuencia, y esta es estructural: la sección de evidencia empieza a converger entre decisiones. Los diez registros producidos por un equipo que corre análisis de sesiones con IA referenciarán todos a patrones de la misma biblioteca, y los patrones aparecerán en múltiples registros. Esa referencia cruzada convierte la biblioteca de decisiones en un grafo de conocimiento en lugar de una colección de notas independientes, y el valor de la biblioteca crece con su tamaño de una manera que los formatos viejos no soportaban.
Los equipos que se han movido a este modelo no lo describen como más rápido. Lo describen como diferente. Las preguntas que le hacen a su evidencia se mueven de "¿hay un problema con el onboarding?" a "de los once patrones de fricción que Tara AI sacó a la luz esta semana, ¿cuáles dos vale la pena arreglar antes del próximo release?" El registro de decisión se vuelve un artefacto de trabajo en lugar de uno retrospectivo, y la práctica de la toma de decisiones de diseño se vuelve más difícil de imitar desde afuera porque los inputs de evidencia se han acumulado durante tanto tiempo.
Distintas verticales tienen distintas restricciones, y el registro de decisión debería reflejarlas. El marco es el mismo; los pesos y los tipos de evidencia cambian.
Las restricciones regulatorias empujan el registro de decisión hacia documentación más pesada. Un cambio en un flujo de sign-in en un contexto regulado no es solo una decisión de UX; es una decisión de cumplimiento, y el rastro de auditoría importa. Las secciones de evidencia deberían referenciar los estándares regulatorios relevantes explícitamente (PSD2, PCI DSS, KYC/AML), y las consecuencias deberían señalar cualquier implicación de auditoría. El umbral de documentación es más bajo en fintech que en apps de consumo: escribe el registro más seguido de lo que crees que necesitas, porque una decisión que parecía pequeña puede convertirse en una pregunta de auditoría dos años después. El análisis de sesiones con IA es particularmente poderoso en fintech porque la sensibilidad de los datos descarta investigación de formato libre con usuarios; el descubrimiento de patrones basado en replay, con enmascaramiento apropiado, es una de las pocas formas de aprender del comportamiento real del usuario sin violar la privacidad.
HIPAA agrega un segundo conjunto de restricciones encima de cualquier marco general de privacidad. Los registros de decisión que tocan superficies orientadas al paciente deberían señalar explícitamente qué campos están enmascarados, cuáles están excluidos de la captura, y cuál es la postura de retención de datos. La recolección de evidencia mediante session replay necesita una configuración cuidadosa antes de volverse usable, y la sección de alternativas a menudo incluye "no grabar esta superficie en absoluto" como una elección legítima. Los equipos de salud también deberían documentar las decisiones de accesibilidad explícitamente, porque la población de usuarios se inclina hacia adultos mayores y el uso de tecnología asistiva es más común que en productos de consumo.
La conversión es la métrica, y la sección de evidencia está dominada por datos de embudo, pruebas A/B y replay. El abandono de carrito, la fricción de checkout y el descubrimiento de productos son las superficies donde las decisiones se acumulan más rápido, y el registro de decisión debería conectarse explícitamente con el impacto en ingresos en lugar de solo con métricas conductuales. El análisis de sesiones con IA se gana su lugar en ecommerce cuantificando el tamaño de cada patrón
Silvanus Alt, PhD, is the Co-Founder & CEO of UXCam and a expert in AI-powered product intelligence. Trained at the Max Planck Institute for the Physics of Complex Systems, he built Tara, the AI Product Analyst that not only analyzes user behavior but recommends clear next steps for better products.
Las decisiones de diseño son las elecciones que toman los equipos de producto y la justificación detrás de...
Founder & CEO | UXCam
Métricas de customer experience, las 12 que vale la pena monitorear, fórmulas, benchmarks, agrupaciones de percepción vs. comportamiento...
Founder & CEO | UXCam
Ejemplos de análisis de necesidades del cliente de Costa Coffee, JobNimbus, Recora e Inspire Fitness, además del framework exacto que uso para ejecutar uno...
Founder & CEO | UXCam
