São métricas adotadas no modelo ITIL: mean time between failures (MTBF), mean time between service incidents (MTBSI), mean time to repair (MTTR) e mean time to restore service (MTRS). O MTBSI pode ser definido como a soma do MTBF e do MTRS; e o MTRS é sempre maior ou igual ao MTTR.

Gabarito

Gabarito oficial: CERTO.

Esquema

Medidas de desempenho de Disponibilidade

Medidas de desempenho de Disponibilidade

Termos importantes para a questão

Antes de tudo, vamos utilizar o Glossário dos termos da ITIL v3 em Português [1] para esclarecermos alguns termos que se encontram neste post. Vamos a elas!

Disponibilidade

  • Termo em inglês: Availability.
  • Descrição:
    • (Desenho de Serviço) Habilidade de um Item de Configuração ou Serviço de TI de desempenhar a sua Função acordada quando necessário;
    • Disponibilidade é determinada pela Confiabilidade, Sustentabilidade, Funcionalidade do Serviço, Desempenho e Segurança;
    • Disponibilidade é normalmente calculada em porcentagens, tal cálculo freqüentemente se baseia no Tempo de Serviço Acordado e na Indisponibilidade;
    • É considerado Melhor Prática no cálculo da Disponibilidade o uso de medições baseadas em transações de Negócio geradas a partir de um Serviço de TI.

Incidente

  • Termo em inglês: Incident.
  • Descrição:
    • (Operação de Serviço) Uma interrupção não planejada de um Serviço de TI ou uma redução da Qualidade de um Serviço de TI;
    • Falha de um Item de Configuração que ainda não tenha impactado um Serviço de TI é também um Incidente;
    • Por exemplo: Falha de um disco rígido de um conjunto de discos espelhados.

Gerenciamento de Incidente

  • Termo em inglês: Incident Management.
  • Descrição:
    • (Operação de Serviço) O Processo responsável por gerenciar o Ciclo de Vida de todos os Incidentes;
    • O principal Objetivo do Gerenciamento de Incidente é restabelecer o Serviço de TI aos Usuários o mais rápido possível.

Registro de Incidente

  • Termo em inglês: Incident Record.
  • Descrição:
    • (Operação de Serviço) Um Registro contendo os detalhes de um Incidente;
    • Cada Registro de Incidente documenta o Ciclo de Vida de um único Incidente.

Ciclo de Vida do Incidente Expandido

  • Termo em inglês: Expanded Incident Lifecycle.
  • Descrição:
    • (Desenho de Serviço) Detalhes dos estágios do Ciclo de Vida de um Incidente. Os estágios são Deteção, Diagnóstico, Reparo, Recuperação e Restauração;
    • O Ciclo de Vida do Incidente Expandido é usado para ajudar a entender todas as contribuições ao Impacto de Incidentes e a como Planejar para que sejam controlados ou reduzidos.

Detecção

  • Termo em inglês: Detection.
  • Descrição:
    • (Operação de Serviço) Um estágio no Ciclo de Vida de Incidentes;
    • Detecção tem como resultado o conhecimento de um Incidente por parte do Provedor de Serviços;
    • Detecção pode ser automática ou pode ser resultado do registro de um Incidente por parte de um Usuário.

Diagnóstico

  • Termo em inglês: Diagnosis.
  • Descrição:
    • (Operação de Serviço) Um estágio no Ciclo de Vida de Incidentes e Problemas;
    • O propósito do diagnótico é identificar uma Solução de Contorno para um Incidente ou a Cauza Raiz de um Problema.

Reparo

  • Termo em inglês: Repair.
  • Descrição: (Operação de Serviço) A substituição ou correção de um Item de Configuração em falha.

Retorno

  • Termo em inglês: Back-out.
  • Descrição: Sinônimo para Reparo.

Recuperação

  • Termo em inglês: Recovery.
  • Descrição:
    • (Operação de Serviço) (Desenho de Serviço) Retornar um Item de Configuração ou Serviço de TI a seu estado de funcionamento;
    • A Recuperação de um Serviço de TI freqüentemente inclui recuperação de dados a um estado consistente conhecido;
    • Depois da Recuperação, passos adicionais podem ser necessários antes do Serviço de TI puder estar disponível aos Usuários (Restauração).

Restauração

  • Termo em inglês: Restore.
  • Descrição:
    • (Operação de Serviço) Tomar ação para restaurar um Serviço de TI aos Usuários após o Reparo e Recuperação de um Incidente;
    • Este é o Objetivo principal de Gerenciamento de Incidente.

Mean Time To Repair (MTTR)

  • Termo em português: Tempo Médio Para Reparo (TMPR).
  • Descrição:
    • O tempo médio levado para reparar um Item de Configuração ou Serviço de TI após uma falha do mesmo;
    • TMPR é medido do momento em que o Item de Configuração ou Serviços de TI falhou até quando ele é Reparado;
    • TMPR não inclui o tempo necessário para Recuperar ou Restaurar;
    • TMPR é algumas vezes usado de forma incorreta no lugar do Tempo Médio para Restaurar Serviço.

Mean Time to Restore Service (MTRS)

  • Termo em português: Tempo Médio para Restaurar Serviço (TMRS).
  • Descrição:
    • O tempo médio levado para Restaurar um Item de Configuração ou Serviço de TI após uma falha do mesmo;
    • TMRS é medido do momento em que o Item de Configuração ou Serviços de TI falhou até quando ele estiver completamente restaurado e executando sua funcionalidade normal.

Mean Time Between Failures (MTBF)

  • Termo em português: Tempo Médio Entre Falhas (TMEF).
  • Descrição:
    • (Desenho de Serviço) Uma Métrica para medir e relatar a Confiabilidade;
    • TMEF é o tempo médio que um Item de Configuração ou Serviços de TI consegue realizar sua Função acordada sem interrupção;
    • É medido a partir do momento em que o Item de Configuração ou Serviço de TI começa a funcionar, até sua próxima falha.

Mean Time Between Service Incidents (MTBSI)

  • Termo em português: Tempo Médio Entre Incidentes de Serviço (TMEIS).
  • Descrição:
    • (Desenho de Serviço) Uma Métrica para medir e relatar a Confiabilidade;
    • TMEIS é o tempo médio desde quando um Sistema ou Serviço de TI falha, até a sua próxima falha.

Comentários da Questão

Galera, as medidas mostradas na questão vêm do Gerenciamento de Disponibilidade do livro de Desenho de Serviço (o “D” do ED TOM).

Para traduzir os termos citados e o esquema mostrado no início do post, podemos utilizar um exemplo bem simples:

  • Um usuário sempre se logou em sua máquina normalmente;
  • Um dia, não deu certo se logar (Incidente);
  • Esse usuário encontrou em contato com o Service Desk para informar o ocorrido;
  • O Service Desk registrou o incidente (Registro do Incidente);
  • O incidente foi detectado e diagnosticado pelo Service Desk (Detecção e Diagnóstico);
  • Viu-se que o problema é um hub queimado e a reparação é trocá-lo (Reparação);
  • Com a troca do hub, a rede voltou a funcionar ( Recuperação);
  • O usuário então pode novamente se logar (Restauração );
  • Com um tempo ele voltou a não se logar mais (novo Incidente) e o ciclo começa novamente.

Observações importantes:

  • O grupo das medidas que contém as letras TR (MTTR e MTRS) deve ser o mais curto possível, evitando-se o Downtime;
  • O grupo das medidas com as letras TB (MTBF e MTBSI) deve ser o mais longo possível, alongando o Confiabilidade;
  • Para saber qual o maior do grupo TR (MTTR ou MTRS), basta ver a medida que, além do TR, tenha também a letra S no final, ou seja, TRS é maior do que TR;
  • A MTBF será a medida entre os Ciclos de Incidentes daquele serviço.
  • A MTBSI é a maior de todas as medidas, vai de um incidente a outro do mesmo serviço.

Referência

[1] Glossário dos termos da ITIL v3 em Português: http://www.itil-officialsite.com/nmsruntime/saveasdialog.asp?lID=904&sID=242

Deixa que eu bato!

Deixa que eu bato! (I)

Deixa que eu bato! (I)

Deixa que eu bato! (II)

Deixa que eu bato! (II)

[]s e até a próxima!

_________________________
Sou eu! :-DRogério Araújo

Blog: https://rogerioaraujo.wordpress.com/
Gmail: rgildoaraujo@gmail.com
Twitter: http://twitter.com/rgildoaraujo
LinkedIn: http://br.linkedin.com/in/rgildoaraujo