31Jul

Môžu sa dáta na pevných diskoch degradovať bez varovania o poškodení?

Všetci sa obávame o to, aby sme uchovávali naše dáta a súbory bezpečné a neporušené, ale je možné, že sa dáta poškodia a používateľ ich bude mať prístup bez upozornenia alebo varovania akéhokoľvek druhu o probléme? Dnešný príspevok SuperUser Q & A má odpoveď na znepokojenú otázku čitateľa.

Dnešná otázka &Odpoveď na zasadnutie nám príde s láskavým dovolením SuperUser - subdivíziu Stack Exchange, komunitne riadeného zoskupenia webových stránok Q & A.

Foto s láskavým dovolením generalizácie( Flickr).

Otázka

čítačka SuperUser topo morto chce vedieť, či dáta na pevných diskoch môžu degradovať a byť pristupovať bez varovania o poškodení:

Je možné, že fyzická degradácia pevného disku môže spôsobiť, že bity sa "preklopia" v obsahu súborubez toho, aby si operačný systém všimol zmenu a o čom informoval používateľa pri čítaní súboru? Napríklad by sa text "p"( binárny 01110000) v textovom súbore ASCII mohol zmeniť na "q"( binárne 01110001), potom keď používateľ otvorí súbor, uvidia "q" bez toho, aby si uvedomili, že k poruche došlo?

Mám záujem o odpovede týkajúce sa súborov FAT, NTFS alebo ReFS( ak to má vplyv).Chcem vedieť, či operačné systémy chránia používateľov pred týmto alebo či by sme mali kontrolovať naše údaje o rozdieloch medzi kópiami v čase.

Môžu sa dáta na pevných diskoch zhoršovať a byť prístupné bez varovania pred poškodením?

Odpoveď

SuperUser prispievateľ Guntram Blohm má odpoveď pre nás:

Áno, existuje vec nazývaná bit hniloba. Ale nie, neovplyvní to užívateľa bez povšimnutia.

Keď pevný disk zapíše sektor do platforiem, nepíše iba zápisy bitov rovnakým spôsobom ako sú uložené v pamäti RAM, použije kódovanie, aby sa uistil, že neexistujú žiadne sekvencie toho istého bitu, ktoré sú príliš dlhé.Pridáva tiež ECC kódy, ktoré mu umožňujú opraviť chyby, ktoré ovplyvňujú niekoľko bitov a zisťujú chyby, ktoré sa týkajú viac ako niekoľkých bitov.

Keď pevný disk číta sektor, skontroluje tieto ECC kódy a v prípade potreby opraví údaje( a ak je to možné).Čo sa stane potom, závisí od okolností a firmvéru pevného disku, ktorý je ovplyvnený označením jednotky.

  • Ak je sektor čitateľný a nemá žiadne problémy s ECC kódom, prenesie ho na operačný systém.
  • Ak je sektor ľahko opravený, môže byť opravená verzia zapísaná na disk, čítaná späť a následne overená, aby sa zistilo, či bola chyba náhodná( napr. Kozmické žiarenie atď.), Alebo či existuje systémová chyba s médiami,
  • Ak pevný disk zistí, že s médiom došlo k chybe, prerozdelí sektor.
  • Ak sa po niekoľkých pokusoch o čítanie( na pevnom disku, ktorý je označený ako pevný disk RAID) sektor nedá prečítať ani opraviť, potom sa pevný disk vzdal, prerozdelil sektor a povedal kontrolórovi, že existujeproblém. Spolieha sa na radič RAID, aby rekonštruoval sektor od ostatných členov RAID a napísal ho späť na neúspešný pevný disk, ktorý ho potom uloží do prerozdeleného sektoru( ktorý, dúfajme, nemá problém).
  • Ak sektor nie je možné čítať alebo opravovať na pevnom disku pracovnej plochy, pevný disk sa bude viac snažiť prečítať.V závislosti od kvality pevného disku môže dôjsť k premiestneniu hlavy, kontrole, či sa nejaké bity, ktoré sa opakujú pri čítaní, skontrolujú, ktoré bity sú najslabšie, a niekoľko ďalších vecí.Ak sa niektorý z týchto pokusov podarí, pevný disk znovu pridelí sektor a napíše opravené dáta.

Jedná sa o jeden z hlavných rozdielov medzi pevnými diskami, ktoré sa predávajú ako pevné disky "desktop", "NAS / RAID" alebo "video surveillance".Pevný disk RAID sa môže jednoducho vzdať a robiť opravu sektora, aby sa zabránilo latencii na strane užívateľa. Pevný disk na pracovnej ploche sa bude pokúšať znova a znova, pretože čakanie na niekoľko sekúnd používateľom je pravdepodobne lepšie, ako povedať im, že údaje sa stratili. A pevný disk videa hodnotí konštantné rýchlosti prenosu údajov viac ako obnovenie chýb, pretože poškodený rámček sa zvyčajne ani nezaznamená.

Pevný disk bude v každom prípade vedieť, či došlo k malému hnilobe, zvyčajne sa z neho zotaví a ak to nedokáže, povie riadiacemu pracovníkovi, ktorý zase povedie vodičovi, ktorý potom povie operačný systém. Potom je na operačnom systéme, aby používateľovi uviedla chybu a konala na ňom. Preto cybernard hovorí:

  • Nikdy som nebol sám svedkom jednej bitovej chyby, ale videl som veľa pevných diskov, kde celé odvetvia zlyhali.

Pevný disk bude vedieť, či nie je v sektore niečo zlé, ale nevie, ktoré bity zlyhali. Jeden bit, ktorý zlyhal, bude vždy zachytený ECC.

Upozorňujeme, že chkdsk a systémy súborov, ktoré sa automaticky opravia, neupravujú opravu údajov v rámci súborov. Tie sú zamerané na poškodenie v štruktúre samotného súborového systému, ako je rozdiel vo veľkosti súboru medzi položkou adresára a počtom pridelených blokov. Funkcia automatického hojenia systému NTFS detekuje štrukturálne poškodenie a zabráni jeho ďalšiemu ovplyvneniu vašich údajov, ale nebude opravovať žiadne poškodené údaje.

Existujú samozrejme aj ďalšie dôvody, prečo sa môžu poškodiť dáta. Napríklad, zlý RAM na regulátore môže meniť dáta skôr, ako je dokonca poslaný na pevný disk. V takom prípade mechanizmus na pevnom disku nezistí alebo neopraví dáta a to môže byť jeden z dôvodov, prečo je poškodená štruktúra súborového systému.Ďalšie dôvody zahŕňajú softvérové ​​chyby, výpadky napätia pri písaní na pevný disk( aj keď je to riešené systémom žurnálovania súborov) alebo zlé ovládače súborového systému( ovládač NTFS v systéme Linux je predvolený iba na čítanie od doby,neboli zdokumentované a vývojári nedôverovali svojmu vlastnému kódu).

  • Mala som tento scenár raz, keď aplikácia zachránila všetky svoje súbory na dvoch rôznych serveroch v dvoch rôznych dátových centrách, aby zachovala pracovnú kópiu dostupných údajov za každých okolností.Po niekoľkých mesiacoch sme si všimli, že asi 0,1 percenta všetkých skopírovaných súborov nezodpovedá kontrolnej súčte MD5, ktorá je uložená vo svojej databáze. Ukázalo sa, že ide o chybný kábel s vláknami medzi serverom a SAN.

Tieto ďalšie dôvody sú dôvodom, prečo niektoré systémy súborov, napríklad ZFS, uchovávajú dodatočné informácie o súhrnnej kontrole, aby zistili chyby. Sú navrhnuté tak, aby vás ochránili pred mnohými ďalšími vecami, ktoré sa môžu pokaziť, než len bičovanie.

Musíte niečo doplniť k vysvetleniu? Znížte komentáre. Chcete si prečítať viac odpovedí od iných používateľov technológie Stack Exchange? Pozrite sa na celý diskusný príspevok tu.