S.M.A.R.T.: självövervakning och felprognos för hårddiskar

Upptäck S.M.A.R.T.: hur självövervakning och felprognos för hårddiskar fungerar — tidig varning för att förebygga fel och skydda dina data.

Författare: Leandro Alegsa

Self-Monitoring, Analysis and Reporting Technology, eller S.M.A.R.T., är ett system för att övervaka hårddiskar och andra lagringsenheter för att minska risken för fel. Tekniken samlar in ett antal hälsovärden från enheten och använder dem för att indikera när en enhet är på väg att fallera, så att data kan säkerhetskopieras och enheten bytas ut innan ett fullständigt haveri inträffar.

Hur fungerar S.M.A.R.T.?

  • S.M.A.R.T. läser kontinuerligt eller vid förfrågan ett antal attribut (mätvärden) från enheten. Varje attribut har ett normalt värde, ett råvärde och ofta en användardefinierad eller tillverkarbestämd tröskel.
  • Om ett attribut överskrider sin tröskel eller visar tydlig försämring kan enheten markera ett fel (t.ex. "SMART Status: FAILED") eller generera varningar.
  • Enheter kan även köra inbyggda självtester — korta eller långa — som söker efter läs-/skrivfel, sektorfel och andra problem.

Vanliga SMART-attribut

Attribut kan skilja sig mellan tillverkare, men några återkommande exempel är:

  • Reallocated Sectors Count (antal omallokerade sektorer) — antal dåliga sektorer som flyttats till reservområden.
  • Current Pending Sector Count — sektorer som väntar på omallokering på grund av läsproblem.
  • Raw Read Error Rate och Read Error Rate — antal läsfel.
  • Spin Retry Count — antal misslyckade uppstartsförsök (vanligt för roterande skivor).
  • Power-On Hours — totalt antal driftstimmar.
  • Temperature — enhetens temperatur; hög värme påverkar livslängden.
  • För SSD: Wear Leveling Count, Program/Erase Cycles och Remaining Life som visar NAND-slitage.
  • För NVMe finns motsvarande hälsoindikatorer i SMART/Health Information.

Självtester

  • Short self-test — snabb kontroll av de flesta funktioner, tar ofta några minuter.
  • Extended/Long self-test — grundligare test som kan ta timmar beroende på enhetens storlek.
  • Conveyance test — kort test av skador som kan uppstå under transport.
  • Resultat och loggar går att läsa ut med verktyg som smartctl (smartmontools), leverantörsverktyg eller grafiska program som CrystalDiskInfo.

Begränsningar

  • S.M.A.R.T. förutser inte alla fel — vissa plötsliga elektroniska eller mekaniska fel kan inträffa utan föregående varning. Tillförlitligheten varierar med enhetstyp och vilka attribut som övervakas.
  • Olika tillverkare använder egna attribut och skalor, vilket gör att tolkning kräver modellkunskap.
  • Vissa RAID-kontrollers abstrakterar underliggande diskar så att SMART-data inte alltid är tillgängliga utan särskilda drivrutiner eller verktyg.
  • S.M.A.R.T.-statusen (PASS/FAIL) är ett grovt mått — ett "PASS" betyder inte att en enhet är frisk för evigt, bara att inga kritiska trösklar har triggats.

Praktiska råd

  • Aktivera övervakning: Se till att S.M.A.R.T. är aktiverat i BIOS/UEFI och i operativsystemet om möjligt.
  • Övervaka regelbundet: Kör automatiska kontroller och testa enheter periodiskt (korta och långa självtester) och konfigurera varningar.
  • Tolka värden rätt: Lär dig vilka attribut som är kritiska för dina enheter. Ett ökande antal omallokerade sektorer eller en växande mängd pending sectors är ofta ett tydligt tecken på problem.
  • Säkerhetskopiera alltid: S.M.A.R.T. är ett verktyg för att minska risk, men ersätter inte regelbundna säkerhetskopior.
  • Byt ut tidigt: När SMART visar kraftig försämring eller misslyckade självtester, planera för att byta ut enheten snarast.
  • Var uppmärksam på temperatur: Håll enheter svala för att förlänga livslängden.

Sammantaget är S.M.A.R.T. ett värdefullt hjälpmedel för att få tidiga varningar om potentiella lagringsfel, men det fungerar bäst i kombination med proaktiv övervakning, regelbundna tester och bra rutiner för säkerhetskopiering.

Bakgrund

Fel på hårddiskar kan delas in i två kategorier:

  • Förutsägbara fel inträffar under en längre tidsperiod. Exempel på detta är mekaniskt slitage eller nedbrytning av lagringsenhetens yta.
  • Oförutsägbara fel inträffar plötsligt, på ett oförutsett sätt. Exempel på detta är fel på en elektronisk komponent eller plötsligt mekaniskt fel, kanske på grund av dålig hantering.

Förutsägbara fel kan upptäckas av vissa övervakningsanordningar. Detta är som en termometer i ett fordon som kan varna föraren att göra något innan allvarliga skador uppstår, till exempel för att motorn är för varm.

Ungefär 60 % av alla fel på enheterna beror på bristande mekanik. De flesta mekaniska fel beror på gradvis slitage. Ett eventuellt fel kan vara katastrofalt. Innan ett fullständigt fel inträffar finns det vanligtvis vissa tecken på att felet är nära förestående. Dessa kan omfatta ökad värmeutveckling, en mer bullrig enhet, problem med att läsa eller skriva data och en stor ökning av antalet skadade disksektorer.

Syftet med S.M.A.R.T. är att varna en användare eller systemadministratör om att en enhet håller på att gå sönder. Vid tidpunkten för varningen finns det vanligtvis fortfarande tid att göra vissa saker för att förhindra dataförlust, t.ex. att kopiera data till en annan enhet. Cirka 30 % av alla fel kan förutsägas av S.M.A.R.T. Arbetet på Google med över 100 000 enheter har visat att S.M.A.R.T.-statusen som helhet har ett litet allmänt förutsägande värde. Studien tyder på att vissa underkategorier av information som vissa S.M.A.R.T.-system spårar korrelerar med den faktiska felprocenten. Under de 60 dagarna efter det första skanningsfelet på en enhet är det i genomsnitt 39 gånger mer sannolikt att enheten går sönder än vad den skulle ha gjort om inget sådant fel hade inträffat. Första felet vid omfördelning, omfördelning offline och sannolikhetsräkningar är också starkt korrelerade med högre sannolikhet för fel.

På PCTechGuides sida om S.M.A.R.T. stod det 2003 att tekniken hade genomgått tre faser:

"

I sin ursprungliga form kunde SMART förutse fel genom att övervaka vissa aktiviteter på hårddisken online. En senare version förbättrade förutsägelsen av fel genom att lägga till en automatisk lässökning utanför nätet för att övervaka ytterligare aktiviteter. Den senaste SMART-tekniken övervakar inte bara aktiviteter på hårddisken utan förebygger även fel genom att försöka upptäcka och reparera sektorfel. Medan tidigare versioner av tekniken endast övervakade hårddiskaktiviteten för data som hämtades av operativsystemet, testar den senaste SMART-versionen alla data och alla sektorer på en hårddisk genom att använda "off-line datainsamling" för att bekräfta hårddiskens hälsa under perioder av inaktivitet.

"

 

Historia och föregångare

Branschens första teknik för övervakning av hårddiskar introducerades av IBM 1992 i deras IBM 9337 Disk Arrays för AS/400-servrar som använder IBM 0662 SCSI-2-diskar. Senare fick den namnet PFA-teknik (Predictive Failure Analysis). Den mätte flera viktiga parametrar för enhetens hälsa och utvärderade dem i enhetens fasta programvara. Kommunikationen mellan den fysiska enheten och övervakningsprogrammet begränsades till ett binärt resultat, nämligen antingen "enheten är OK" eller "enheten kommer sannolikt att gå sönder snart".

Senare skapades en annan variant, kallad IntelliSafe, av datortillverkaren Compaq och disketttillverkarna Seagate, Quantum och Conner. Diskarna skulle mäta diskens "hälsoparametrar" och värdena skulle överföras till operativsystemet och programvaran för övervakning av användarutrymmet. Varje diskleverantör kunde fritt bestämma vilka parametrar som skulle ingå i övervakningen och vilka tröskelvärden de skulle ha. Föreningen skedde på protokollnivå med värddatorn.

Compaq överlämnade sin implementering till Small Form Committee för standardisering i början av 1995. Den stöddes av IBM, Compaqs utvecklingspartner Seagate, Quantum och Conner samt av Western Digital, som vid den tidpunkten inte hade något system för felprognostisering. Kommittén valde IntelliSafes tillvägagångssätt eftersom det gav större flexibilitet. Den gemensamt utvecklade standarden fick namnet S.M.A.R.T.

 

SMART-information

Den tekniska dokumentationen för SMART finns i standarden AT Attachment (ATA).

Den mest grundläggande informationen som SMART tillhandahåller är SMART-statusen. Den ger endast två värden: "Tröskelvärde inte överskridet" och "Tröskelvärde överskridet". Ofta representeras dessa värden som "enhet OK" respektive "enhet misslyckad". Ett värde för "tröskel överskrids" är avsett att indikera att det finns en relativt stor sannolikhet för att enheten inte kommer att kunna uppfylla sina specifikationer i framtiden - det vill säga att enheten är "på väg att gå sönder". Det förutspådda felet kan vara katastrofalt eller något så subtilt som oförmåga att skriva till vissa sektorer, eller kanske långsammare prestanda än tillverkarens deklarerade minimum.

SMART-statusen indikerar inte nödvändigtvis enhetens tidigare eller nuvarande tillförlitlighet. Om en enhet redan har haft ett katastrofalt fel kan SMART-statusen vara otillgänglig. Alternativt, om en enhet tidigare har haft problem, men sensorerna inte längre upptäcker sådana problem, kan SMART-statusen, beroende på tillverkarens programmering, tyda på att enheten nu är sund.

Att vissa sektorer inte kan läsas är inte alltid ett tecken på att en enhet är på väg att gå sönder. Ett sätt att skapa oläsbara sektorer, även om enheten fungerar enligt specifikationerna, är genom ett plötsligt strömavbrott medan enheten skriver. För att förhindra detta problem avslutar moderna hårddiskar alltid skrivningen av åtminstone den aktuella sektorn omedelbart efter strömavbrottet (vanligtvis med hjälp av rotationsenergi från disken). Även om den fysiska disken är skadad på ett ställe, så att en viss sektor är oläsbar, kan disken använda reservutrymme för att ersätta det dåliga området, så att sektorn kan skrivas över.

Du kan få mer information om enhetens tillstånd genom att granska SMART-attributen. SMART Attributes fanns med i vissa utkast till ATA-standarden, men togs bort innan standarden blev slutgiltig. Betydelsen och tolkningen av attributen varierar mellan olika tillverkare och betraktas ibland som en affärshemlighet för den ena eller andra tillverkaren. Egenskaperna diskuteras närmare nedan.

Hårddiskar med SMART kan som tillval stödja ett antal "loggar". Felloggen registrerar information om de senaste felen som enheten har rapporterat tillbaka till värddatorn. Genom att granska denna logg kan man hjälpa till att avgöra om datorproblemen är diskrelaterade eller orsakade av något annat.

En enhet som stödjer SMART kan som tillval stödja ett antal självtest- eller underhållsrutiner, och resultaten av testerna sparas i självtestloggen. Självtestrutinerna kan användas för att upptäcka oläsbara sektorer på disken, så att de kan återställas från säkerhetskällor (t.ex. från andra diskar i en RAID). Detta bidrar till att minska risken för permanent förlust av data.

 

Standarder och genomförande

Många moderkort visar ett varningsmeddelande när en diskettstation är på väg att gå sönder. Även om detta är en industristandard för de flesta stora hårddisktillverkare finns det fortfarande vissa problem och mycket hemlig kunskap hos enskilda tillverkare om deras specifika tillvägagångssätt.

Ur ett juridiskt perspektiv hänvisar termen "S.M.A.R.T." endast till en signalmetod mellan de elektromekaniska sensorerna i den interna diskettenheten och värddatorn. Därför kan tillverkarna hävda att en enhet har S.M.A.R.T.-stöd även om den inte har t.ex. en temperatursensor, som kunden rimligen skulle kunna förvänta sig att det finns. I det mest extrema fallet skulle en disktillverkare dessutom i teorin kunna tillverka en enhet som innehåller en sensor för endast en fysisk egenskap och sedan lagligt marknadsföra produkten som "S.M.A.R.T.-kompatibel".

Beroende på vilken typ av gränssnitt som används kan det hända att vissa moderkort med S.M.A.R.T.-funktion och tillhörande programvara inte kan kommunicera med vissa enheter med S.M.A.R.T.-funktion. Det är till exempel få externa enheter som är anslutna via USB och Firewire som korrekt skickar S.M.A.R.T.-data över dessa gränssnitt. Med så många sätt att ansluta en hårddisk (SCSI, Fibre Channel, ATA, SATA, SAS, SSA och så vidare) är det svårt att förutsäga om S.M.A.R.T.-rapporter kommer att fungera korrekt i ett visst system.

Även på hårddiskar och gränssnitt som har stöd för detta kan det hända att S.M.A.R.T.-informationen inte rapporteras korrekt till datorns operativsystem. Vissa diskkontroller kan duplicera alla skrivoperationer på en sekundär "backup"-enhet i realtid. Denna funktion kallas "RAID-spegling". Många program som är utformade för att analysera förändringar i enhetens beteende och vidarebefordra S.M.A.R.T.-varningar till operatören fungerar dock inte korrekt när ett datorsystem är konfigurerat för RAID-stöd. Detta beror i allmänhet på att datorn under normala RAID-operationsförhållanden inte tillåts av RAID-subsystemet att "se" (eller få direkt åtkomst till) enskilda fysiska enheter, utan kan i stället endast få åtkomst till logiska volymer.

På Windows-plattformen fungerar många program som är utformade för att övervaka och rapportera S.M.A.R.T.-information endast under ett administratörskonto. För närvarande implementeras S.M.A.R.T. individuellt av tillverkarna, och även om vissa aspekter är standardiserade för kompatibilitetens skull, är andra det inte.

 

ATA S.M.A.R.T.-attribut

Varje enhetstillverkare definierar en uppsättning attribut och fastställer tröskelvärden över vilka attributen inte får passera under normal drift. Varje attribut har ett råvärde, vars innebörd är helt upp till enhetstillverkaren (men som ofta motsvarar antal eller en fysisk enhet, t.ex. grader Celsius eller sekunder), och ett normaliserat värde, som sträcker sig från 1 till 253 (där 1 representerar det värsta fallet och 253 det bästa). Beroende på tillverkaren väljs ofta ett värde på 100 eller 200 som det "normala" värdet.

Bland de tillverkare som har stött minst ett S.M.A.R.T.-attribut i olika produkter finns följande: Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Western Digital och ExcelStor Technology.

Tröskelvärde Överskrider villkoret

TEC (Threshold Exceeds Condition) är ett förmodat datum då ett kritiskt statistiskt attribut för en enhet kommer att nå sitt tröskelvärde. När programvaran Drive Health rapporterar ett "Nearest T.E.C." ska det betraktas som ett "feldatum".

Prognosen för detta datum baseras på faktorn "Hastighet för ändring av attribut"; hur många punkter varje månad värdet minskar/ökar. Denna faktor beräknas automatiskt vid varje ändring av S.M.A.R.T.-attribut för varje enskilt attribut. Observera att TEC-datum inte är några garantier; hårddiskar kan och kommer antingen att hålla mycket längre eller gå sönder mycket tidigare än det datum som anges i TEC.

 


Sök
AlegsaOnline.com - 2020 / 2025 - License CC3