Alguns anos atrás, observei um time de produto reconstruir o mesmo fluxo de onboarding duas vezes em dezoito meses. O primeiro redesign moveu o sign-in para o passo quatro. O segundo o devolveu para o passo um. Ninguém no time lembrava por que a primeira decisão tinha sido tomada. A PM que defendeu o sign-in adiado tinha saído. A thread do Slack onde a justificativa morava tinha sido arquivada automaticamente. O único artefato era o código, que àquela altura tinha sido reescrito tão profundamente que nem os nomes originais das variáveis sobraram. O time gastou um sprint fazendo engenharia reversa do próprio julgamento passado, e o segundo redesign silenciosamente recriou os mesmos erros que o primeiro tinha intenção de corrigir. Esse é o custo de uma decisão de design não documentada: não o design em si, mas a perda de memória institucional que transforma cada divergência em uma discussão nova, sem nada acumulado. A solução não é processo mais pesado. É um hábito de cinco partes que cabe em uma página e sobrevive às pessoas que o escreveram:
A definição estrita de uma decisão de design e a estrutura que torna uma decisão durável
Os cinco tipos de evidência ranqueados por peso, incluindo onde a análise de sessão por IA se encaixa hoje
Templates, exemplos trabalhados e um modelo de maturidade que você pode adotar no seu time neste trimestre
Uma decisão de design é uma escolha documentada entre abordagens alternativas para um problema de produto, UX ou design de sistema, incluindo as alternativas consideradas, os critérios usados e a evidência que justificou a direção escolhida. A documentação importa porque a justificativa sobrevive à memória; os erros de design mais caros são aqueles que ninguém lembra de ter cometido, e os segundos mais caros são os que voltam a ser relitigados a cada trimestre porque o histórico nunca foi escrito.
Existe uma definição frouxa e uma estrita, e a distância entre as duas é onde a maioria dos times de produto perde dinheiro.
A definição frouxa trata cada escolha que um designer ou PM faz como uma decisão de design. A posição do botão, o copy do empty state, o raio de borda do card. Por essa definição, uma semana de trabalho contém centenas de decisões de design, quase nenhuma delas digna de registro, e o termo perde qualquer utilidade como mecanismo de coordenação. Times que usam a definição frouxa acabam ou não documentando nada ou se afogando em notas no formato de template que ninguém lê.
A definição estrita é mais estreita. Uma decisão de design é uma escolha que atende a pelo menos um de três testes. Ela é difícil de reverter sem custo significativo. Ela afeta mais de um time ou superfície. Ou ela tem chance de ser relitigada depois, seja porque o trade-off é não óbvio, seja porque o contexto vai mudar. Hierarquia de navegação é uma decisão de design por essa definição. Estrutura de tier de preço é. A escolha entre um wizard e um formulário de página única em um fluxo de alto risco é. O tom exato de azul no botão primário não é, mesmo que um designer tenha feito a escolha.
Eu volto sempre à definição estrita porque ela força uma pergunta útil no momento do trabalho: estou tomando uma decisão que precisa de registro, ou estou fazendo uma escolha de ofício que não precisa? Times que respondem a essa pergunta de forma explícita produzem dois resultados. O primeiro é uma pequena biblioteca de registros de decisão que importam. O segundo é um volume muito maior de trabalho de ofício não registrado que sai sem cerimônia. Ambos estão certos. O erro é tratá-los da mesma forma.
Uma segunda clarificação que vale a pena fazer cedo: uma decisão de design não é a mesma coisa que uma especificação de design. Uma especificação diz como a coisa é construída. Uma decisão diz por que essa abordagem foi escolhida em vez das alternativas. Você pode entregar uma feature com uma especificação minuciosa e nenhum registro de decisão, e um ano depois ninguém vai saber se o time considerou a outra opção óbvia. A maioria das organizações de produto investe demais em especificações e de menos em decisões, e a assimetria aparece depois na forma de discussões repetidas sobre escolhas já fechadas.
As razões são previsíveis e, uma vez que você as enxerga, são fáceis de contornar com bom desenho.
A primeira razão é que a decisão parece óbvia no momento. Dois designers e um PM concordam em uma reunião de trinta minutos, as alternativas parecem fracas, e escrever a coisa parece overhead. Um mês depois, os participantes originais saíram de cena e a decisão sumiu. Óbvio-no-momento é a causa mais comum, sozinha, de perda de justificativa. A solução é escrever o registro especificamente porque a decisão parece óbvia, não apesar disso.
A segunda razão é que a documentação mora em um lugar que não sobrevive. Threads do Slack, comentários no Loom, correntes de email, comentários em ferramenta de design amarrados a um frame que vai ser renomeado. Cada um desses formatos é rápido de produzir e quase certamente não vai ser encontrável em seis meses. O Atlassian Confluence e o Notion funcionam porque são pesquisáveis e sobrevivem à board do projeto. A própria base de código funciona para decisões de engenharia, que é por isso que o formato Architecture Decision Record sobre o qual Michael Nygard escreveu em 2011 mantém o registro ao lado do sistema que ele descreve.
A terceira razão é que a etapa de evidência é cara. Puxar pesquisa com usuário, assistir a session replays suficientes para chegar a uma conclusão, comparar com produtos comparáveis: um pesquisador sênior pode gastar dois dias montando a evidência para uma única decisão. Diante desse custo, os times ou pulam a evidência e afirmam a decisão a partir da intuição, ou pulam a documentação e tomam a decisão em uma reunião. Os dois atalhos são racionais sob a economia antiga da coleta de evidência. Eles deixam de ser necessários quando uma camada de análise de sessão por IA comprime a etapa de evidência de dias para horas, que é o fio condutor deste guia.
A quarta razão é que ninguém é dono da prática. ADRs de engenharia são um formato conhecido com um lar conhecido. Decisões de design ficam em uma terra de ninguém entre PM, design e research, e quando nenhum papel é dono do writeup, o writeup não acontece. Os times que fazem isso bem escolhem um dono explicitamente, normalmente o PM ou o design lead da superfície em questão, e embutem o writeup no mesmo ritual que produz a especificação.
A quinta razão é mais cultural do que processual: um medo deslocado de que documentar alternativas faça a direção escolhida parecer mais fraca. O contrário é verdade. Um registro de decisão que nomeia as opções rejeitadas e os motivos torna a direção escolhida mais defensável, não menos. A Reforge cobre isso no material de prática de produto deles; as organizações de produto mais fortes expõem o raciocínio em vez de escondê-lo.
O formato abaixo é adaptado dos Architecture Decision Records (ADRs) usados amplamente em engenharia. As mesmas cinco partes funcionam para decisões de design e produto porque o problema subjacente é o mesmo: capturar a justificativa de uma forma que sobreviva às pessoas que a escreveram.
Que problema estamos resolvendo, e que restrições existem em torno dele? Duas a quatro frases costumam ser suficientes. O contexto deve descrever o sintoma que disparou a decisão, a métrica ou comportamento relevante, e quaisquer restrições (regulatórias, técnicas, dirigidas por prazo) que estreitam o espaço de opções. Um leitor que nunca ouviu falar dessa superfície deve conseguir entender por que a decisão precisava ser tomada.
O erro mais comum na seção de contexto é escrevê-la no abstrato. "O onboarding tem muita fricção" não é contexto. "A retenção D1 está em 18%, o funil mostra 41% dos usuários abandonando na etapa de criação de senha, e o time se comprometeu com um aumento de 5 pontos em retenção até o fim do trimestre" é contexto. Números e datas específicos tornam o registro útil quando o contexto muda depois.
A abordagem escolhida em uma ou no máximo duas frases. Esta é a única seção que deve ler como uma manchete. Quem revisa deve conseguir varrer cem decisões e entender a escolha só por essa linha. Se você não consegue comprimir a decisão em uma frase, a decisão provavelmente está empacotando duas ou três sub-decisões que deveriam ter cada uma o seu próprio registro.
A voz importa. Escreva a decisão na voz ativa e no passado, uma vez finalizada: "Movemos o sign-in para um prompt adiado que aparece depois que o usuário concluiu a primeira interação significativa." Evite linguagem hesitante ("estamos explorando", "podemos optar por") nesta seção, porque a seção de decisão é a parte que leitores futuros vão citar.
As outras opções que estavam na mesa, brevemente descritas, com a razão pela qual cada uma foi rejeitada. Três é um número saudável, às vezes quatro. Duas sugere que o time não gerou variedade suficiente. Cinco ou mais sugere que o time não convergiu.
Esta é a seção mais frequentemente pulada, e pulá-la é sozinha a maior razão pela qual registros de decisão não compõem ao longo do tempo. Sem as alternativas, a justificativa fica incompleta e o próximo time a revisitar a decisão tem que começar do zero. Com as alternativas, o próximo time pode ler o raciocínio original, identificar quais premissas mudaram e atualizar a decisão em vez de refazê-la.
Uma disciplina útil: nomeie cada alternativa como se a pessoa que a propôs estivesse na sala. Escreva "rejeitada porque" em vez de "descartada porque não conseguimos", para manter o registro honesto sobre a escolha em vez de maquiá-la depois do fato.
Que dados, pesquisa ou julgamento justificaram a decisão. Esta seção é onde a diferença entre uma decisão com qualidade de evidência e uma decisão de chute aparece. Os cinco tipos de evidência e seus pesos relativos estão cobertos em detalhe em uma seção mais abaixo; a versão curta é que testes A/B de primeira parte e session replay dos seus próprios usuários carregam o maior peso, análise de sessão por IA carrega peso forte quando ancorada nos seus próprios dados, analytics quantitativo é útil para perguntas de "onde", e pesquisa publicada é útil como prior.
Apontadores específicos pertencem a esta seção: um link para a página de resultados do experimento, as URLs dos session replays, a rodada de análise da Tara AI que trouxe o padrão à tona, o artigo do Nielsen Norman Group que informou o prior. "Conversamos com usuários" não é evidência; "rodamos testes moderados com sete usuários no Maze e a etapa da senha foi o gatilho de abandono em cinco deles" é.
O que essa decisão torna possível e o que ela impede. Os trade-offs aceitos. A maioria dos times escreve o lado positivo e pula o negativo, o que é exatamente o oposto do certo. O lado positivo é a razão pela qual a decisão foi tomada; o lado negativo é a razão pela qual times futuros vão querer revisitá-la, e nomear as desvantagens no registro original dá a eles um ponto de partida.
Uma seção de consequências também força honestidade sobre efeitos de segunda ordem. Uma decisão de adiar o sign-in muda a superfície de analytics. Uma decisão de consolidar uma hierarquia de navegação cria um novo ônus de acessibilidade. Esses efeitos de segunda ordem são fáceis de deixar passar no momento e caros de descobrir depois do fato, e escrevê-los é um mecanismo de forçamento sobre se o time realmente pensou neles a fundo.
Uma regra rápida: se a seção de consequências for mais curta que a seção de decisão, o time provavelmente não terminou de pensar. Os registros de decisão mais fortes que eu li têm uma seção de consequências mais longa que todas as outras seções somadas.
O que segue é um registro com a forma de algo real, do tipo de produto consumer mobile em que retenção é a estrela-guia principal. Ele usa a estrutura de cinco partes literalmente.
Título. Adiar o sign-in para depois da primeira interação significativa.
Data. 2026-03-12. Autor. Lara K., Group PM, Ativação.
Contexto. A retenção D1 está estagnada em 18% por três trimestres apesar de cinco experimentos de ativação distintos. O onboarding atual começa com um fluxo de sign-in de quatro etapas antes de o usuário ver qualquer valor do produto, e o funil mostra uma queda de 41% na etapa de criação de senha. O issue analytics sinalizou um cluster de rage taps na mesma etapa. O time de ativação se comprometeu com um aumento de 5 pontos na retenção D1 até o fim do Q3.
Decisão. Movemos o sign-in para um prompt adiado que aparece depois que o usuário concluiu a primeira interação significativa no produto. Novos usuários vão cair direto em uma experiência de amostra guiada, e o prompt de sign-in vai aparecer no momento em que o usuário tentar salvar, compartilhar ou fazer upgrade.
Alternativas consideradas.
Reduzir o fluxo de sign-in para uma etapa (somente email com magic link). Rejeitada porque cadastro só com email aumenta o ônus de compliance e de prevenção de abuso, o time não está dimensionado para lidar com verificação por email no volume que esperamos, e o ida-e-volta do magic link introduz uma nova superfície de abandono que é difícil de instrumentar.
Remover o sign-in inteiramente até o momento da compra. Rejeitada porque perdemos a capacidade de rastrear usuários que retornam em métricas de retenção D1, que é a métrica com a qual o time de ativação se comprometeu. O trade-off era direcionalmente tentador, mas inviável dada a restrição de mensuração.
Manter o fluxo existente e reduzir os requisitos de complexidade da senha. Rejeitada porque session replays mostram usuários abandonando antes mesmo de verem os requisitos de senha; a fricção é a existência da barreira, não as regras dela.
Adiar o sign-in para depois da primeira interação significativa. Selecionada.
Evidência.
Dados de funil mostram queda de 41% na etapa da senha, com rage taps concentrados na mesma tela. Puxado do product analytics em 2026-02-28.
Doze session replays de sessões abandonadas, assistidos pela PM de ativação e pelo pesquisador sênior. Onze dos doze mostram o usuário pausado por mais de dez segundos na etapa da senha antes de desistir.
Análise da Tara AI clusterizou os motivos de abandono em 1.847 sessões abandonadas nos trinta dias anteriores. Requisitos de senha apareceram em 70% dos clusters, e "ainda sem valor óbvio" apareceu em 58%.
Pesquisa da Reforge sobre padrões de ativação apoia sign-in adiado para produtos consumer mobile com casos de uso discricionários.
O Nielsen Norman Group escreve consistentemente sobre o custo da fricção antecipada no onboarding; tratado como prior, não como input primário.
Consequências.
Retenção D1 deve subir entre 5 e 10 pontos percentuais com base na reconstrução do funil. Será confirmada via rollout faseado com holdback de 50/50.
Analytics de usuário recorrente vai perder a primeira sessão de cada novo usuário, já que não temos mais um ID estável de usuário no primeiro lançamento. Trade-off aceitável; vamos reconstruir a identidade de usuário recorrente a partir de sinais de nível de aparelho e aceitar fidelidade menor na coorte do primeiro dia.
Custo de engenharia é moderado, estimado em um sprint mais uma mudança a jusante no serviço de personalização que assumia sign-in até a etapa dois.
Lógica de personalização a jusante que ramificava em atributos do usuário capturados no signup precisa ser revisada para lidar com o caso em que esses atributos estão ausentes para a primeira sessão. Dono: time de Personalização, escopado no mesmo sprint.
A carga de suporte pode ter um pico breve à medida que usuários encontrem o novo prompt em momentos pouco familiares. Vamos monitorar por duas semanas e incorporar qualquer copy clarificador em uma v2.
Estamos aceitando um compromisso de mensuração (fidelidade menor na identificação de usuário recorrente no primeiro dia) em troca de um ganho de ativação. Se o ganho de ativação não se materializar, o compromisso de mensuração não se justifica e devemos reverter.
O registro acima dá cerca de 450 palavras. Um time que produz dez desses por trimestre tem uma história escrita do próprio raciocínio de produto que se acumula. Um time que produz zero tem só o código.
Decisões de navegação são particularmente dignas de documentação porque são difíceis de reverter e afetam toda outra superfície do produto. O registro abaixo vem de um contexto de B2B SaaS.
Título. Consolidar três entradas de navegação de topo em uma única entrada "Workspace" com sub-navegação.
Data. 2026-04-02. Autor. Mehmet O., Designer Principal, Plataforma.
Contexto. Nossa navegação superior tem hoje sete entradas: Dashboard, Reports, Workspace, Documents, Library, Settings, Help. Pesquisa com usuários nos últimos seis meses mostra que "Workspace", "Documents" e "Library" não são entendidas como conceitos distintos por 7 em cada 10 usuários testados. Funis mostram que usuários abrem a entrada errada na primeira tentativa em 38% dos casos, e depois retornam pela navegação. Dados de heatmap mostram que as três entradas concentram calor nos mesmos padrões, independentemente de qual delas foi clicada.
Decisão. Consolidamos "Workspace", "Documents" e "Library" em uma única entrada de topo "Workspace" com uma sub-navegação à esquerda exibindo as três categorias anteriores como filtros. A contagem total de entradas de topo cai de sete para cinco.
Alternativas consideradas.
Renomear "Library" para "Templates" e manter as três entradas de topo. Rejeitada porque renomear endereça a confusão de rotulagem mas não a sobreposição conceitual; usuários ainda ficaram confusos sobre qual entrada abrir em testes moderados depois do rename.
Consolidar em uma entrada única sem sub-navegação, exibindo as três categorias como uma experiência de busca unificada. Rejeitada porque usuários regulares com conhecimento profundo do workflow dependem da distinção entre categorias, e uma experiência de busca unificada pede que eles digitem onde antes clicavam. A mudança penaliza power users para deixar usuários de primeira vez marginalmente menos confusos.
Consolidar em "Workspace" com sub-navegação como filtros. Selecionada.
Mover "Library" para dentro de "Settings" como uma seção de templates. Rejeitada porque o time que é dono de templates pressionou contra; templates são uma superfície primária para a coorte vinda de marketing e enterrá-los sob Settings suprimiria a adoção.
Evidência.
Testes de usabilidade moderados com onze clientes, rodados no UserTesting e no Maze ao longo de seis semanas. Sete dos onze não conseguiram articular a diferença entre as três entradas. Cinco dos onze abriram a entrada errada na primeira tentativa.
Análise da Tara AI trouxe à tona um cluster de sessões de "vai-e-volta de navegação" concentradas nessas três entradas; impacto estimado em 4% da fricção total de sessão.
Dados de heatmap e clique mostraram que as três entradas receberam padrões similares de engajamento por hora, sugerindo que usuários estavam tratando-as como intercambiáveis.
Plataformas B2B comparáveis (nomeadas no apêndice) consolidaram todas para cinco ou menos entradas de topo; tratado como prior.
Consequências.
A precisão de navegação de usuário de primeira vez deve melhorar em 15-25% com base nas reconstruções dos testes moderados.
Power users vão ter uma disrupção pontual ao aprender a nova sub-navegação; vamos mitigar com um pointer in-app por quatro semanas e um artigo na central de ajuda.
A mudança nos força a revisitar a estrutura de URL, já que "/workspace" agora contém três sub-rotas. Engenharia escopou a migração de URL como baixo risco mas não trivial; redirecionamentos de paths antigos vão rodar por pelo menos seis meses.
A revisão de acessibilidade sinalizou que sub-navegação colapsada sob uma entrada cria um caminho mais profundo para leitor de tela. Mitigação: papéis de landmark explícitos e uma affordance de "abrir sub-navegação" com ordem de foco clara.
Estamos aceitando que power users que retornam vão reportar alguma fricção de curto prazo. Se a nova estrutura não fechar positiva entre as duas coortes depois de seis semanas, reverter é a chamada certa, em vez de iterar mais.
A decisão é pequena em superfície e grande em efeitos de segunda ordem, que é exatamente o formato que mais se beneficia de um registro escrito.
Cinco tipos de evidência, ranqueados pelo peso que devem carregar em uma decisão. O ranking importa porque times rotineiramente sobrepesam os tipos fáceis (pesquisa publicada, intuição) e subpesam os difíceis (o comportamento dos seus próprios usuários).
1. Resultados de teste A/B do seu próprio produto. A forma mais forte de evidência porque o teste responde diretamente à pergunta no seu contexto. Os trade-offs: testes levam tempo, exigem tráfego, e só respondem perguntas que você sabia fazer. Ferramentas como Statsig, Optimizely e LaunchDarkly deixaram a superfície de experimentação madura o suficiente para que a maioria dos times de produto rode pelo menos um punhado de testes por trimestre. Um resultado de teste estatisticamente limpo nos seus próprios usuários ganha de qualquer outro tipo de evidência para a pergunta que ele respondeu.
2. Session replay dos seus próprios usuários. Evidência forte mesmo quando não é estatisticamente conclusiva, porque está ancorada no seu produto específico, nos seus usuários específicos. A limitação é escala: um time consegue assistir talvez vinte sessões por semana antes de a prática esgotar, o que significa que session replay usado sem auxílio é qualitativo e de N pequeno. A forma da evidência é rica, o volume é fino. Uma decisão ancorada em doze replays mais um gráfico de funil é mais sólida do que uma decisão ancorada em um único teste A/B que ninguém sabe interpretar.
3. Análise de sessão por IA ancorada nos seus próprios dados de sessão. Esta é a entrada nova na pilha de evidência e a razão pela qual a disciplina sente diferente em 2026 do que sentia há três anos. A Tara AI dentro do UXCam lê sessões em escala, clusteriza padrões de fricção por impacto e devolve uma lista ranqueada de padrões com os clipes de apoio anexados. O output é qualitativo-rico em escala quantitativa, que é a combinação que costumava estar indisponível. Análise de sessão por IA fica abaixo de testes A/B de primeira parte porque os padrões são descritivos, não causais, e acima de session replay puro porque cobre uma amostra muito maior sem um pesquisador olhando para a tela.
4. Analytics quantitativo do seu produto. Útil para perguntas de "onde" e mais fraco para perguntas de "por quê". Um gráfico de funil pode dizer que 41% dos usuários caem na etapa três; ele não pode dizer se eles caíram por confusão, performance lenta ou feature ausente. Analytics quantitativo ganha o seu lugar na seção de evidência por dimensionar o tamanho do problema, o que é necessário para priorização, mas raramente justifica sozinho uma escolha de design específica.
5. Pesquisa publicada de fontes confiáveis. Útil como prior. Nielsen Norman Group, Reforge e pesquisa acadêmica de UX provêm uma base que ajuda você a evitar antipadrões conhecidos e identificar fontes prováveis de fricção. A limitação é que pesquisa publicada é geral; o seu produto é específico. Um achado de que "abandono de checkout fica em 70% em média no ecommerce" diz pra você olhar pro checkout, não o que fazer com o seu.
Um sexto tipo, "eu acho" ou "na minha experiência", é às vezes apropriado para decisões de baixo risco em que o custo de errar é pequeno e o custo de coletar evidência é grande. O erro é tratar intuição como evidência em decisões de alto risco, em que o custo de errar é a coisa que justificou o registro de decisão em primeiro lugar. O custo de errar determina quanta evidência é exigida; intuição é um prior rápido, não uma justificativa para uma escolha de via única.
Os times que compõem qualidade de design ao longo do tempo tendem a empilhar tipos de evidência em vez de depender de um. Uma decisão forte típica puxa um funil quantitativo para dimensionar o problema, oito a doze session replays para caracterizar a causa, uma rodada de análise de sessão por IA para confirmar o padrão em escala, e um teste A/B comparável ou prior publicado para limitar o efeito esperado. Nenhuma fonte sozinha carrega o peso todo.
Nem toda escolha precisa de registro, e documentar demais é um modo de falha por si só. O limiar importa.
Documente quando:
A decisão é difícil de reverter sem custo significativo. Reconstruir uma árvore de navegação, migrar uma estrutura de URL ou desfazer uma configuração padrão que está no ar há um ano contam.
A decisão afeta mais de um time ou superfície. Uma mudança de tier de preço toca marketing, produto, billing e suporte, e cada um desses times eventualmente vai querer saber por quê.
O time tem chance de relitigar a decisão depois. Se o trade-off é não óbvio ou o contexto vai mudar, a próxima conversa sobre essa decisão está a meses de distância e os participantes serão diferentes.
A decisão estabelece um precedente. Compromissos de acessibilidade, configurações de privacidade padrão e padrões de interação de nível de marca são estabelecedores de precedente e precisam de uma justificativa escrita.
A decisão tem implicações regulatórias ou de compliance. Qualquer coisa que toque GDPR, HIPAA, PCI ou lei de acessibilidade deve ter um registro escrito tanto para a memória institucional quanto para a trilha de auditoria.
Pule quando:
A decisão é pequena, isolada e facilmente reversível. Cor de botão em uma única tela, variante de copy para um CTA, microcopy em um empty state.
A decisão é uma chamada de ofício em que as alternativas não são significativamente diferentes. Um designer sênior escolhendo entre dois tratamentos visuais próximos não precisa de um registro de decisão.
A decisão é um estado temporário que vai ser substituído em breve. UI de holding-pattern entregue enquanto a solução real está em andamento não precisa de registro além de um ticket no tracker.
Uma pergunta-limiar útil: em doze meses, vou conseguir reconstruir meu raciocínio a partir dos artefatos que o time já produz (especificações, código, tickets)? Se sim, sem registro necessário. Se não, escreva o registro.
A balança custo-benefício pende para a documentação de forma mais agressiva do que a maioria dos times supõe. Uma escrita de 10 minutos produz um registro que economiza horas de relitigação depois. Um time que documenta 10% a mais do que precisa desperdiça algumas horas por trimestre. Um time que documenta 10% a menos perde um sprint inteiro por trimestre recriando decisões que deveriam ter sido lidas em vez de reconstruídas.
Os padrões abaixo vêm de observar times ao longo de anos, não de um livro-texto. Cada um é uma lição escrita no sprint desperdiçado de um time anterior.
1. Documentar a conclusão, não as alternativas. O modo de falha mais comum. Sem as alternativas, a justificativa é incompleta e a decisão é difícil de revisitar. Leitores futuros não conseguem dizer se o time considerou a outra opção óbvia, o que significa que vão refazer a consideração do zero.
2. Tratar "o time concordou" como evidência. Consenso não é evidência; comportamento é. Uma reunião pode concordar com a resposta errada com alta confiança. O registro de decisão deve citar o que usuários fizeram, não o que o time achou.
3. Pular documentação para decisões rápidas. Decisões rápidas são as que têm mais chance de serem relitigadas, porque a velocidade da decisão geralmente significa que as alternativas não foram exploradas profundamente. Documente assim mesmo. O registro é um mecanismo de forçamento sobre se a velocidade se justificava.
4. Não revisitar decisões quando o contexto muda. Uma decisão tomada com base em determinado comportamento de usuário deve ser revisitada quando esse comportamento muda. A maioria dos registros de decisão morre no dia em que é escrita; os mais fortes recebem uma linha "revisitado em [data]" adicionada no fim sempre que o contexto muda.
5. Exagerar no formato. Um registro de decisão em 5 partes para uma escolha de CSS de 2 linhas é overhead. Combine o formato com o risco. Alguns times mantêm um template "leve" (decisão + justificativa de uma linha) para chamadas de ofício e o template completo para decisões materiais.
6. Enterrar a decisão dentro de um documento mais longo. Um registro de decisão que vive dentro de uma especificação de 12 páginas é um registro de decisão que não vai ser encontrado. Mantenha a decisão no próprio documento dela, com um título claro, e linke para ele a partir da especificação.
7. Deixar o autor se esconder. Um registro sem autor é um registro sem dono. Leitores futuros precisam saber a quem perguntar, e o ato de colocar o seu nome em uma decisão é uma ferramenta de calibração para quem escreve.
8. Confundir a decisão com o plano de rollout. "Vamos rodar um teste A/B disso" é um plano de rollout, não uma decisão. A decisão é a escolha; o teste é como ela é validada. Empacotar os dois produz registros que são difíceis de ler depois.
9. Escrever em voz passiva. "Foi decidido que o fluxo de sign-in seria adiado" é mais difícil de agir do que "Adiamos o fluxo de sign-in". A seção de decisão deve ser uma declaração direta da escolha, escrita na voz do time que a tomou.
10. Registrar decisões em ferramentas que não sobrevivem. Threads do Slack, comentários de ferramenta de design e correntes de email não são duráveis. Confluence e Notion são. A base de código é. A escolha do armazenamento é metade da disciplina.
11. Pular as consequências quando o lado positivo é óbvio. Uma decisão sem consequências listadas é uma decisão na qual o time não terminou de pensar. Mesmo uma vitória "óbvia" tem trade-offs; nomeá-los no registro força honestidade.
12. Tratar a coleta de evidência como atividade pontual. Evidência não é montada uma vez e congelada. Os registros de decisão mais fortes tratam a seção de evidência como parte viva do documento, com novos achados adicionados conforme chegam. Isso é especialmente verdadeiro uma vez que uma camada de análise de sessão por IA está rodando, porque os padrões que ela traz à tona vão evoluir conforme os usuários evoluem.
13. Confundir precedente com regra. Uma decisão em uma parte do produto não é automaticamente uma regra em todo lugar. Torne o precedente explícito quando você o pretende ("isso passa a ser nossa abordagem padrão para fluxos de sign-in") e evite quando não pretende.
14. Esquecer de ligar a decisão à métrica. Uma decisão deveria se conectar à métrica que ela se propôs a movimentar. "Retenção D1", "adoção de feature" ou "tickets de suporte por usuário ativo" deveriam aparecer na seção de contexto, e a seção de consequências deveria descrever como a decisão será medida. Sem essa ligação, o time não consegue dizer se a decisão funcionou.
Esta é a seção para a qual o resto do guia vinha construindo.
A etapa de evidência no framework acima costumava ser o gargalo. Puxar pesquisa de usuário, assistir a replays suficientes para conclusão, comparar com produtos comparáveis, caracterizar o padrão de fricção em um nível de detalhe que justificasse uma escolha de design específica: esse trabalho costumava levar dias de um pesquisador sênior por decisão. Diante desse custo, a maioria dos times ou pulava a evidência e afirmava a decisão a partir de intuição, ou pulava a documentação e tomava a decisão em uma reunião. Os dois atalhos eram racionais sob a economia antiga.
Existe uma forma útil de pensar a disciplina como três eras de evidência para decisão de design.
Era um: opinião. A primeira era foi de decisões tomadas com base em intuição, debate interno e seja qual fosse a voz mais sênior na sala com a postura mais firme. Registros, onde existiam, capturavam a conclusão e não a justificativa. A evidência era anedótica, na melhor das hipóteses.
Era dois: analytics quantitativo mais qualitativo de N pequeno. Uma vez que ferramentas de analytics amadureceram e session replay se tornou viável, times começaram a empilhar evidência quantitativa (funis, retenção, conversão) com evidência qualitativa de N pequeno (um punhado de testes moderados, vinte session replays por semana). As decisões ficaram melhores. A etapa de evidência também ficou mais cara, porque montar cada lado da camada exigia tempo e um pesquisador sênior para interpretar.
Era três: análise de sessão por IA em escala. Essa é a era em que estamos agora. A Tara AI dentro do UXCam lê sessões no volume que o produto de fato gera, clusteriza padrões de fricção por impacto de negócio e devolve uma lista ranqueada de padrões com clipes de replay anexados. Pergunte "quais são os padrões de fricção na nossa etapa de sign-in?" e a IA devolve os clusters, ranqueados por frequência e impacto, com a evidência de apoio pronta para colar em um registro de decisão. O trabalho que costumava levar dois dias de um pesquisador sênior agora leva uma manhã.
A compressão importa pelo que ela faz com o limiar para decisões com qualidade de evidência. Quando a evidência custa dois dias, só as decisões de mais alto risco recebem qualidade de evidência; tudo o mais é afirmado a partir da intuição. Quando a evidência custa duas horas, o limiar cai, e as decisões passam a ter qualidade de evidência por padrão em vez de por exceção. Essa é a mudança subjacente, e é a razão pela qual um time que adota análise de sessão por IA acaba com uma biblioteca de registros de decisão mais espessa do que um time que não adota, mesmo que os dois times tenham a mesma cultura e os mesmos incentivos.
Uma segunda consequência: a seção de alternativas no registro de decisão fica mais forte. Uma vez que uma camada de IA está lendo cada sessão, o time não está mais adivinhando quais alternativas têm chance de performar melhor; a camada pode caracterizar o padrão de fricção que cada alternativa endereçaria ou deixaria de endereçar. O registro deixa de ser "escolhemos a opção B porque achamos que era a certa" e passa a ser "escolhemos a opção B porque o padrão de fricção que a opção A teria endereçado se revela ser 12% do tráfego relevante, enquanto o padrão que a opção B endereça é 38%."
Uma terceira consequência, e essa é estrutural: a seção de evidência começa a convergir entre decisões. Os dez registros produzidos por um time rodando análise de sessão por IA vão todos referenciar padrões da mesma biblioteca, e padrões vão aparecer em múltiplos registros. Essa referência cruzada transforma a biblioteca de decisões em um grafo de conhecimento em vez de uma coleção de notas isoladas, e o valor da biblioteca cresce com o tamanho dela de uma forma que formatos mais antigos não suportavam.
Os times que migraram para esse modelo não o descrevem como mais rápido. Descrevem como diferente. As perguntas que eles fazem à evidência mudam de "tem um problema com o onboarding?" para "dos onze padrões de fricção que a Tara AI trouxe à tona esta semana, quais dois valem a pena consertar antes do próximo release?" O registro de decisão passa a ser um artefato de trabalho em vez de um artefato retrospectivo, e a prática de tomar decisões de design fica mais difícil de imitar de fora porque os inputs de evidência se acumularam por tempo demais.
Verticais diferentes têm restrições diferentes, e o registro de decisão deve refletir isso. O framework é o mesmo; os pesos e os tipos de evidência mudam.
Restrições regulatórias empurram o registro de decisão para uma documentação mais pesada. Uma mudança em um fluxo de sign-in em contexto regulado não é só uma decisão de UX; é uma decisão de compliance, e a trilha de auditoria importa. As seções de evidência devem referenciar os padrões regulatórios relevantes explicitamente (PSD2, PCI DSS, KYC/AML), e as consequências devem chamar a atenção para qualquer implicação de auditoria. O limiar para documentação é mais baixo em fintech do que em apps de consumo: escreva o registro mais vezes do que você acha que precisa, porque uma decisão que parecia pequena pode virar uma pergunta de auditoria dois anos depois. Análise de sessão por IA é particularmente poderosa em fintech porque a sensibilidade dos dados desaconselha pesquisa em formato livre com usuários; descoberta de padrão baseada em replay, com mascaramento adequado, é uma das poucas formas de aprender com comportamento real de usuário sem violar privacidade.
HIPAA empilha um segundo conjunto de restrições sobre qualquer framework geral de privacidade. Registros de decisão que tocam superfícies voltadas a paciente devem chamar a atenção explicitamente para quais campos são mascarados, quais são excluídos da captura e qual é a postura de retenção de dados. A coleta de evidência via session replay precisa de configuração cuidadosa antes de virar utilizável, e a seção de alternativas frequentemente inclui "não gravar essa superfície de forma alguma" como uma escolha legítima. Times de saúde também devem documentar decisões de acessibilidade explicitamente, porque a população de usuários pende para adultos mais velhos e o uso de tecnologia assistiva é mais comum do que em produtos de consumo.
Conversão é a métrica, e a seção de evidência é dominada por dados de funil, testes A/B e replay. Abandono de carrinho, fricção de checkout e descoberta de produto são as superfícies em que decisões compõem mais rápido, e o registro de decisão deve se conectar explicitamente ao impacto em receita em vez de apenas a métricas comportamentais. Análise de sessão por IA ganha o seu lugar em ecommerce ao quantificar o tamanho de cada padrão de fricção em termos de receita, o que torna a priorização entre correções concorrentes muito mais afiada. Mobile e web devem ser tratados como superfícies igualmente de primeira classe; times de ecommerce que tratam mobile como canal secundário rotineiramente perdem 30%+ de receita potencial para fricção que a revisão focada em desktop nunca vê.
As sessões que importam são as primeiras 48 horas de uma conta nova e os momentos em que um admin tenta convidar um colega de time, configurar uma integração ou importar dados. Registros de decisão devem chamar a atenção para a coorte que a decisão se propõe a servir (admin novo, power user que retorna, usuário final convidado por um admin), porque superfícies de B2B SaaS rotineiramente servem três ou quatro coortes com necessidades conflitantes, e uma coorte não especificada é a fonte da maioria dos arrependimentos. Evidência em B2B SaaS apoia-se mais pesadamente em session replay e análise de sessão por IA do que em testes A/B, porque o tráfego em fluxos individuais é fino demais para resultados experimentais limpos.
Engajamento é a métrica, e as superfícies que importam são tutoriais, momentos de monetização e loops de formação de hábito. Registros de decisão devem chamar a atenção para a tensão entre engajamento imediato e retenção de longo prazo de forma explícita, porque a maioria das decisões
Silvanus Alt, PhD, is the Co-Founder & CEO of UXCam and a expert in AI-powered product intelligence. Trained at the Max Planck Institute for the Physics of Complex Systems, he built Tara, the AI Product Analyst that not only analyzes user behavior but recommends clear next steps for better products.
