Produto

RECOMENDADO

TESTE GRATUITO

Integrações

CONEXÕES UNIFICADAS

Visualize todas as suas assinaturas juntas para fornecer uma visão holística da saúde de suas empresas.

Recursos

Como lidar com grandes interrupções e interrupções de serviço

Por Josh Pigford em 13 de julho de 2016
Última atualização em 28 de abril de 2026

Um mês atrás estávamos imersos em problemas de servidor que causaram problemas de dados esporádicos, interrupções e problemas de desempenho para quase todos os clientes ao longo de uma semana inteira. Foi extremamente frustrante para nossa equipe não apenas porque era um problema muito difícil de resolver, mas mais importante, porque significava que nossos clientes não estavam recebendo o serviço que mereciam.

Lidar com esses tipos de problemas pode ser delicado, especialmente quando os problemas não estão necessariamente afetando todos os clientes.

Você mostra um aviso para todos clientes, mesmo que apenas 50% aleatórios estejam tendo problemas? Você compartilha tudo o que está acontecendo? Ou apenas quando há progresso significativo? Qual deve ser o tom? Deve oferecer reembolsos?

Obviamente há uma infinidade de variáveis que podem entrar em jogo, aqui está como geralmente lidamos com interrupções e interrupções de servidor e como gostamos de comunicar aos nossos clientes durante esses momentos.

Procedimento de escalonamento

Idealmente você tem algum tipo de monitoramento de sistema em vigor. Em um nível básico, isso pode ser feito com um simples ping para garantir que uma URL determinada seja acessível. Em um nível mais profundo, monitorar coisas como carga de banco de dados, erros de aplicação e tempos de resposta pode ajudar muito a detectar as coisas antes quando realmente são um problema perceptível para seus clientes.

Além do monitoramento do sistema, se você tem mais de um engenheiro, ter um cronograma de plantão vale a pena. Notificar cada engenheiro sempre que há um problema é estressante e não é um ótimo uso do tempo de ninguém.

A combinação dessas duas coisas permite que você coloque um procedimento de escalonamento sólido em vigor.

Passo 1: Notificação de chat geral

Quando um problema em potencial chega pela porta, seja através do monitoramento do sistema ou do suporte ao cliente, ele é primeiro relatado ao nosso canal #backend no Slack, mencionando todos os engenheiros. Como nossos engenheiros estão espalhados por vários fusos horários em várias partes do mundo, na maioria das horas do dia alguém está online.

É preferível que alguém que realmente está acordado lide com um problema em vez de ter que acordar alguém.

Se um engenheiro está online, ele pode confirmar se é um problema ou não e manter o processo em andamento.

Passo 2: Mensagem de texto

Se não há engenheiro online e o problema parece ser crítico, o monitoramento do sistema entra em ação na maioria das vezes e enviará uma mensagem de texto para o engenheiro de plantão que, acordado ou não, se dedicará e começará a trabalhar no problema.

Passo 3: Chamada

No cenário em que o monitoramento do sistema não detectou o problema ou uma mensagem de texto claramente não funcionou, então quem quer que tenha notado o problema (geralmente alguém do Suporte ao Cliente) chamará o engenheiro de plantão.

Geralmente depois de tudo isso, alguém ficou ciente do problema e está trabalhando em uma solução.

Comunicando o problema

Depois de verificar que realmente há um problema, poste uma mensagem de status. Nossa abordagem preferida é que todos vejam a mensagem de status o mais rápido possível em vez de esperar e tentar notificar apenas um grupo menor de pessoas.

A razão para isso é que geralmente é muito difícil identificar a extensão de um problema no início. Preferimos dizer a todos que pode haver um problema, mesmo que eles não o estejam experimentando, do que deixar um cliente se perguntando se algo está acontecendo. Nossa regra geral pessoal é ser aberto e honesto desde o início.

Achamos que você não pode excedamos-comunicar essas coisas.

Começamos postando em nossa página de status, que também posta em nossa conta do Twitter e cria uma mensagem no painel do Baremetrics.

Suporte durante uma interrupção

Quando há uma interrupção ou interrupção de serviço, nosso objetivo principal é comunicar e responder aos clientes o mais rápido possível. Isso significa que nossa equipe de suporte dá maior prioridade a tweets, emails e tickets relacionados à interrupção.

Quanto menos tempo nossos clientes tiverem que gastar se perguntando se algo está errado e quando será corrigido, melhor.

Em nossa interrupção um mês atrás, depois de termos quase uma semana de altos e baixos esporádicos, decidimos que responder a investigações recebidas sobre a interrupção não era suficiente. Na verdade, enviei uma "Carta do CEO" para todos os nossos clientes. Pessoas suficientes tinham experimentado problemas para que eu atualizasse coletivamente a todos e explicasse o que havia acontecido e como estávamos corrigindo, pareceu necessário. Novamente, a comunicação é a chave para manter a confiança de seus clientes e, portanto, seus negócios.

Depois da tempestade

Depois de superar a interrupção, faça uma análise pós-incidente. Inclua uma visão geral do que aconteceu, quando aconteceu, como aconteceu e o que você está fazendo para evitar que aconteça novamente.

A realidade é que a maioria dos clientes não lerá isso. Eles simplesmente não se interessam pelos detalhes importantes. No entanto, para os clientes que faz se importam com isso…eles realmente se importam com isso e isso contribuirá muito para restabelecer a confiança no seu produto.

E quanto a reembolsos pelo tempo de inatividade?

Não fazemos reembolsos automáticos por tempo de inatividade. A única vez que você deve fazer reembolsos preventivos para todos é se tiver um acordo de nível de serviço (SLA) que garanta um certo nível de desempenho ou disponibilidade.

Dito isso, você também não deve ser mesquinho. Se alguém estiver claramente incomodado com o tempo de inatividade, ofereça um reembolso total pelo mês anterior. Definitivamente vale a pena.

Suportando o peso da frustração do cliente

Geralmente você e sua equipe se importam muito mais com uma interrupção do que seus clientes. Sim, isso os incomodará e frustrará, mas o estresse você que você sente é essencialmente o peso todos das frustrações dos seus clientes. Pode ser bem intenso.

Resista ao impulso de microgerenciar. Mantenha o foco em manter seus clientes informados e deixe sua equipe de engenharia fazer seu trabalho.

Descobrimos que a grande maioria dos clientes entende os problemas de servidor. Essa "Carta do CEO" que enviei para quase 800 pessoas resultou em exatamente duas pessoas que ficaram frustradas. O restante das respostas foi incrivelmente apoiador e deu um bom ânimo para mim e para a equipe.

Ferramentas

Aqui estão algumas das ferramentas que usamos ou usamos ao longo dos anos para ajudar a gerenciar todas as partes deste processo:

  • StatusPage — Alimenta nossa página de status e notificações no aplicativo
  • Honeybadger — Monitoramento de erros e tempo de atividade e notificações
  • PagerDuty — Agendamento on-call e procedimentos de escalação
  • Datadog — Monitoramento de infraestrutura e alertas
  • Intercom — Email, chat e suporte geral durante interrupções

Perguntas Frequentes

  • Como uma empresa SaaS deve se comunicar com clientes durante uma grande interrupção de serviço?
    Comunique-se cedo, comunique-se com frequência e prefira informar a todos, mesmo que apenas um subconjunto de clientes seja afetado.

    Tentar identificar exatamente quem é afetado antes de postar uma atualização de status perde tempo e deixa os clientes se perguntando o que está acontecendo. Publique na sua página de status no momento em que confirmar que algo deu errado, depois continue atualizando conforme a situação se desenvolve. Algumas práticas específicas que funcionam bem na prática:
    • Publique uma mensagem de status imediatamente, mesmo que a causa raiz ainda seja desconhecida
    • Envie notificações por todos os canais que seus clientes já acompanham: página de status, banners no aplicativo, Twitter e email direto
    • Escale para uma mensagem direta do CEO para interrupções que se estendem além de 24 horas ou afetam uma parte significativa da sua base de assinantes
    • Responda a tickets de suporte e tweets sobre a interrupção mais rápido do que seu SLA usual
    A super comunicação durante uma interrupção de serviço constrói mais confiança do que o silêncio, mesmo quando você ainda não tem todas as respostas.
  • Qual é a diferença entre uma interrupção de serviço e uma degradação de serviço para um produto SaaS?
    Uma interrupção de serviço significa que seu produto está completamente indisponível, enquanto uma degradação de serviço significa que está acessível, mas funcionando abaixo dos níveis esperados, como tempos de resposta lentos, atrasos de cálculo ou erros de dados parciais.

    Para negócios de assinatura, a distinção prática importa porque a degradação é frequentemente mais difícil de detectar e mais difícil de comunicar claramente. Os clientes podem ver métricas inconsistentes ou anomalias no painel sem entender o porquê, o que silenciosamente corrói a confiança nos seus dados. Ambos os estados garantem uma atualização de status pública e suporte ao cliente ativo. Ferramentas de monitoramento que rastreiam a carga do banco de dados, erros de aplicativo e tempos de resposta, não apenas simples verificações de tempo de atividade, são o que detecta degradação antes que se transforme em uma interrupção completa que gera frustração involuntária do cliente e aumenta o risco de churn.
  • Quais ferramentas as empresas SaaS usam para detectar e gerenciar interrupções de serviço?
    A pilha mais confiável de detecção de interrupção e gerenciamento de incidentes para uma empresa SaaS geralmente combina monitoramento de tempo de atividade, rastreamento de erros, observabilidade de infraestrutura e ferramentas de agendamento on-call.

    As ferramentas mais usadas incluem:
    • Honeybadger para rastreamento de erros e monitoramento de tempo de atividade
    • Datadog para monitoramento de infraestrutura e alertas em tempo real sobre carga do banco de dados e tempos de resposta
    • PagerDuty para agendamento on-call e procedimentos de escalação para que o engenheiro certo seja acionado em qualquer hora
    • StatusPage para publicar atualizações de status voltadas para o cliente e disparar notificações no aplicativo automaticamente
    • Intercom para gerenciar o volume de suporte durante um incidente ativo
    Uma abordagem em camadas é importante porque o simples monitoramento de ping de URL perde a degradação. A combinação de alertas de infraestrutura profunda mais um caminho de escalação claro, de notificação do Slack a SMS a chamada telefônica, reduz o tempo entre um problema começar e um engenheiro começar a trabalhar ativamente nele.
  • As empresas SaaS devem oferecer reembolsos após uma interrupção de serviço ou tempo de inatividade prolongado?
    Os reembolsos automáticos só são necessários se você tiver um acordo de nível de serviço que garanta contratualmente um percentual de tempo de atividade específico, mas você nunca deve ser pão-duro com clientes individuais que estão claramente frustrados.

    Para a maioria das empresas de assinatura em estágio inicial e de crescimento sem SLAs formais, uma abordagem prática de reembolso se parece com isto:
    • Não emita reembolsos proativos gerais para tempo de inatividade rotineiro
    • Ofereça um reembolso de um mês completo, sem hesitação, a qualquer cliente que o contate claramente chateado com a interrupção
    • Trate o reembolso como um investimento de retenção, não como uma perda, já que o LTV de um cliente retido supera em muito um mês de MRR
    A boa vontade criada por um reembolso rápido e sem perguntas a um cliente insatisfeito quase sempre previne um evento de churn que custaria muito mais ao longo da vida do cliente.
  • Como as interrupções de serviço afetam a taxa de churn do SaaS e o que você pode fazer para reduzir o impacto?
    As interrupções de serviço aumentam o churn involuntário e voluntário ao corroer a confiança do cliente, particularmente para produtos SaaS B2B onde os usuários dependem de dados em tempo real precisos para tomar decisões comerciais.

    O risco de churn se intensifica quando os clientes experimentam uma interrupção e não recebem nenhuma comunicação sobre isso, porque o silêncio sinaliza falta de confiabilidade mais do que o próprio tempo de inatividade. As etapas que comprovadamente reduzem o impacto do churn durante uma interrupção de serviço incluem:
    • Postar uma atualização de status dentro de minutos de confirmar um problema, antes que os clientes comecem a enviar e-mails
    • Enviar um e-mail direto do CEO ou fundador para interrupções com duração superior a 24 horas
    • Publicar uma análise pós-mortem que explique a causa raiz e o que você mudou para evitar recorrência
    Baremetrics rastreia movimentos de MRR e eventos de churn em tempo real, para que você possa monitorar se uma interrupção importante está realmente se traduzindo em cancelamentos e responder com divulgação de retenção segmentada antes que o impacto na receita se intensifique.

Josh Pigford

Josh é mais famoso como fundador de Baremetrics. Porém, muito antes de Baremetrics e até hoje, Josh tem sido um maker, construtor e empresário. Sua carreira começou em 2003 construindo um par de diretórios de links, ReallyDumbStuff e ReallyFunArcade. Antes de vender isso com lucro, ele já havia iniciado seu próximo conjunto de projetos. Como especialista em design, começou a consultar sobre projetos de web design. Essa empresa acabou se transformando em Sabotage Media, que tem sido a empresa de fachada para muitos de seus projetos desde então. Alguns de seus maiores projetos antes de Baremetrics foram TrackThePack, Deck Foundry, PopSurvey e Temper. Os pontos problemáticos que ele vivenciou quando PopSurvey e Temper decolaram foram a razão pela qual ele criou Baremetrics. Atualmente, ele está dedicado a Maybe, o sistema operacional para suas finanças pessoais.