Toleranță la erori

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Toleranța de eroare a tehnologiei de fiabilitate a lui Nell (sau toleranța la erori, din „ engleză ) este capacitatea unui sistem de a nu suferi daune (adică întreruperi ale serviciului) în prezența defectelor . Toleranța la erori este unul dintre aspectele care constituie fiabilitatea . Este important să rețineți că toleranța la erori nu garantează imunitatea față de toate defecțiunile, doar că defectele pentru care este proiectată o protecție nu provoacă defecțiuni.

Verificările de protecție (care se efectuează în timpul rulării ), împreună cu verificări similare efectuate static (cum ar fi la momentul proiectării sau al compilării ), sunt o metodologie foarte eficientă pentru obținerea unei robustețe ridicate (detectarea rapidă a erorilor și închiderea acestora) într-un sistem. Toleranța la erori poate duce la degradarea altor performanțe, astfel încât în ​​proiectarea unui sistem este necesar să se găsească optimizări și compromisuri adecvate.

Descriere

Robusteţe

Robustețea este proprietatea acelor sisteme care asigură detectarea rapidă a erorilor și permit închiderea acestora.

Studiile statistice au arătat că cel puțin două din trei erori se datorează solicitărilor ilegale de operațiuni pe obiecte, adică chiar solicitărilor pe care controalele de protecție le împiedică.

Măsurători de toleranță la erori

O măsurare tipică a toleranței la erori se formează prin calcularea timpului mediu care trece între două defecțiuni ale sistemului (în engleză Mean Time Between Failures, MTBF).

Exemple de aplicații

Toleranța la erori variază în funcție de tip în funcție de aspectul la care este aplicată și poate avea tipuri de implementare foarte diferite.

Dispozitive electronice

Puteți trece de la un sistem simplu de toleranță la erori în alimentarea cu energie a echipamentelor electronice, utilizând o sursă de alimentare neîntreruptibilă sau UPS : în cazul unei defecțiuni de curent, echipamentul va continua să funcționeze o perioadă dependentă de capacitatea sistemului de rezervă .

Un sistem mai complex, întotdeauna legat de sursele de alimentare ale dispozitivelor active, constă în replicarea sursei de alimentare; dacă sursa principală de alimentare nu funcționează, echipamentul va continua să funcționeze datorită uneia sau mai multor surse de alimentare plasate în redundanță. Toleranța la erori va corespunde în mod evident numărului de surse de alimentare redundante utilizate în sistem: în mod trivial, dacă un dispozitiv are trei surse de alimentare și toate cedează în același timp, dispozitivul se oprește.

Sisteme multiprocesor

În domeniul microprocesoarelor , tehnica SMP permite utilizarea mai multor microprocesoare în același timp, exploatând puterea totală de calcul și, dacă unul dintre procesoare se oprește, operațiunea va trece la procesorul (procesorii) încă în funcțiune.

Stocare în unități de disc

În protecția datelor, pot fi utilizate sisteme RAID , în care toleranța la erori este o funcție a schemei RAID adoptate și adoptarea sau nu a discurilor de rezervă la cald .

Nivele de toleranță la erori

  • Cea mai simplă metodă se numește oglindire și vă permite să aveți două copii identice ale aceluiași disc (sau doar unele arhive deosebit de importante și preselectate) în unitățile de memorie de masă ; atunci când o operațiune I / O întâmpină o eroare, procesarea nu este întreruptă, deoarece poate utiliza copia alternativă.
  • Un al doilea nivel de toleranță la erori este atins cu tehnica de duplexare , care constă în duplicarea controlerului de disc (controler), precum și a discurilor. Utilizatorul poate continua procesarea chiar și în cazul unei defecțiuni a controlerului sau a discului, reducând riscul de întrerupere.
  • Al treilea nivel se referă la duplicarea întregului sistem , a serverului în cazul rețelelor locale și a mainframe-ului în cazul unui sistem mare.
  • Există alte tehnici mai puțin costisitoare decât duplicarea parțială a sistemului, care sunt denumite RAID (Redundant Array of Independent Disks). Această tehnologie constă în distribuirea datelor pe un grup de discuri, astfel încât să fie posibilă reconstituirea matematică a oricăror date care pot fi pierdute de pe unul dintre discuri.

Elemente conexe

Alte proiecte

Securitate IT Portal de securitate cibernetică : Accesați intrările Wikipedia care se ocupă de securitatea cibernetică