Teknik för självövervakning, analys och rapportering
Self-Monitoring, Analysis and Reporting Technology, eller S.M.A.R.T., är ett system för att övervaka hårddiskar för att minska risken för fel. Det gör det genom att övervaka hårddiskarnas tillförlitlighet för att försöka se när och var ett fel kan inträffa.
Bakgrund
Fel på hårddiskar kan delas in i två kategorier:
- Förutsägbara fel inträffar under en längre tidsperiod. Exempel på detta är mekaniskt slitage eller nedbrytning av lagringsenhetens yta.
- Oförutsägbara fel inträffar plötsligt, på ett oförutsett sätt. Exempel på detta är fel på en elektronisk komponent eller plötsligt mekaniskt fel, kanske på grund av dålig hantering.
Förutsägbara fel kan upptäckas av vissa övervakningsanordningar. Detta är som en termometer i ett fordon som kan varna föraren att göra något innan allvarliga skador uppstår, till exempel för att motorn är för varm.
Ungefär 60 % av alla fel på enheterna beror på bristande mekanik. De flesta mekaniska fel beror på gradvis slitage. Ett eventuellt fel kan vara katastrofalt. Innan ett fullständigt fel inträffar finns det vanligtvis vissa tecken på att felet är nära förestående. Dessa kan omfatta ökad värmeutveckling, en mer bullrig enhet, problem med att läsa eller skriva data och en stor ökning av antalet skadade disksektorer.
Syftet med S.M.A.R.T. är att varna en användare eller systemadministratör om att en enhet håller på att gå sönder. Vid tidpunkten för varningen finns det vanligtvis fortfarande tid att göra vissa saker för att förhindra dataförlust, t.ex. att kopiera data till en annan enhet. Cirka 30 % av alla fel kan förutsägas av S.M.A.R.T. Arbetet på Google med över 100 000 enheter har visat att S.M.A.R.T.-statusen som helhet har ett litet allmänt förutsägande värde. Studien tyder på att vissa underkategorier av information som vissa S.M.A.R.T.-system spårar korrelerar med den faktiska felprocenten. Under de 60 dagarna efter det första skanningsfelet på en enhet är det i genomsnitt 39 gånger mer sannolikt att enheten går sönder än vad den skulle ha gjort om inget sådant fel hade inträffat. Första felet vid omfördelning, omfördelning offline och sannolikhetsräkningar är också starkt korrelerade med högre sannolikhet för fel.
På PCTechGuides sida om S.M.A.R.T. stod det 2003 att tekniken hade genomgått tre faser:
" | I sin ursprungliga form kunde SMART förutse fel genom att övervaka vissa aktiviteter på hårddisken online. En senare version förbättrade förutsägelsen av fel genom att lägga till en automatisk lässökning utanför nätet för att övervaka ytterligare aktiviteter. Den senaste SMART-tekniken övervakar inte bara aktiviteter på hårddisken utan förebygger även fel genom att försöka upptäcka och reparera sektorfel. Medan tidigare versioner av tekniken endast övervakade hårddiskaktiviteten för data som hämtades av operativsystemet, testar den senaste SMART-versionen alla data och alla sektorer på en hårddisk genom att använda "off-line datainsamling" för att bekräfta hårddiskens hälsa under perioder av inaktivitet. | " |
Historia och föregångare
Branschens första teknik för övervakning av hårddiskar introducerades av IBM 1992 i deras IBM 9337 Disk Arrays för AS/400-servrar som använder IBM 0662 SCSI-2-diskar. Senare fick den namnet PFA-teknik (Predictive Failure Analysis). Den mätte flera viktiga parametrar för enhetens hälsa och utvärderade dem i enhetens fasta programvara. Kommunikationen mellan den fysiska enheten och övervakningsprogrammet begränsades till ett binärt resultat, nämligen antingen "enheten är OK" eller "enheten kommer sannolikt att gå sönder snart".
Senare skapades en annan variant, kallad IntelliSafe, av datortillverkaren Compaq och disketttillverkarna Seagate, Quantum och Conner. Diskarna skulle mäta diskens "hälsoparametrar" och värdena skulle överföras till operativsystemet och programvaran för övervakning av användarutrymmet. Varje diskleverantör kunde fritt bestämma vilka parametrar som skulle ingå i övervakningen och vilka tröskelvärden de skulle ha. Föreningen skedde på protokollnivå med värddatorn.
Compaq överlämnade sin implementering till Small Form Committee för standardisering i början av 1995. Den stöddes av IBM, Compaqs utvecklingspartner Seagate, Quantum och Conner samt av Western Digital, som vid den tidpunkten inte hade något system för felprognostisering. Kommittén valde IntelliSafes tillvägagångssätt eftersom det gav större flexibilitet. Den gemensamt utvecklade standarden fick namnet S.M.A.R.T.
SMART-information
Den tekniska dokumentationen för SMART finns i standarden AT Attachment (ATA).
Den mest grundläggande informationen som SMART tillhandahåller är SMART-statusen. Den ger endast två värden: "Tröskelvärde inte överskridet" och "Tröskelvärde överskridet". Ofta representeras dessa värden som "enhet OK" respektive "enhet misslyckad". Ett värde för "tröskel överskrids" är avsett att indikera att det finns en relativt stor sannolikhet för att enheten inte kommer att kunna uppfylla sina specifikationer i framtiden - det vill säga att enheten är "på väg att gå sönder". Det förutspådda felet kan vara katastrofalt eller något så subtilt som oförmåga att skriva till vissa sektorer, eller kanske långsammare prestanda än tillverkarens deklarerade minimum.
SMART-statusen indikerar inte nödvändigtvis enhetens tidigare eller nuvarande tillförlitlighet. Om en enhet redan har haft ett katastrofalt fel kan SMART-statusen vara otillgänglig. Alternativt, om en enhet tidigare har haft problem, men sensorerna inte längre upptäcker sådana problem, kan SMART-statusen, beroende på tillverkarens programmering, tyda på att enheten nu är sund.
Att vissa sektorer inte kan läsas är inte alltid ett tecken på att en enhet är på väg att gå sönder. Ett sätt att skapa oläsbara sektorer, även om enheten fungerar enligt specifikationerna, är genom ett plötsligt strömavbrott medan enheten skriver. För att förhindra detta problem avslutar moderna hårddiskar alltid skrivningen av åtminstone den aktuella sektorn omedelbart efter strömavbrottet (vanligtvis med hjälp av rotationsenergi från disken). Även om den fysiska disken är skadad på ett ställe, så att en viss sektor är oläsbar, kan disken använda reservutrymme för att ersätta det dåliga området, så att sektorn kan skrivas över.
Du kan få mer information om enhetens tillstånd genom att granska SMART-attributen. SMART Attributes fanns med i vissa utkast till ATA-standarden, men togs bort innan standarden blev slutgiltig. Betydelsen och tolkningen av attributen varierar mellan olika tillverkare och betraktas ibland som en affärshemlighet för den ena eller andra tillverkaren. Egenskaperna diskuteras närmare nedan.
Hårddiskar med SMART kan som tillval stödja ett antal "loggar". Felloggen registrerar information om de senaste felen som enheten har rapporterat tillbaka till värddatorn. Genom att granska denna logg kan man hjälpa till att avgöra om datorproblemen är diskrelaterade eller orsakade av något annat.
En enhet som stödjer SMART kan som tillval stödja ett antal självtest- eller underhållsrutiner, och resultaten av testerna sparas i självtestloggen. Självtestrutinerna kan användas för att upptäcka oläsbara sektorer på disken, så att de kan återställas från säkerhetskällor (t.ex. från andra diskar i en RAID). Detta bidrar till att minska risken för permanent förlust av data.
Standarder och genomförande
Många moderkort visar ett varningsmeddelande när en diskettstation är på väg att gå sönder. Även om detta är en industristandard för de flesta stora hårddisktillverkare finns det fortfarande vissa problem och mycket hemlig kunskap hos enskilda tillverkare om deras specifika tillvägagångssätt.
Ur ett juridiskt perspektiv hänvisar termen "S.M.A.R.T." endast till en signalmetod mellan de elektromekaniska sensorerna i den interna diskettenheten och värddatorn. Därför kan tillverkarna hävda att en enhet har S.M.A.R.T.-stöd även om den inte har t.ex. en temperatursensor, som kunden rimligen skulle kunna förvänta sig att det finns. I det mest extrema fallet skulle en disktillverkare dessutom i teorin kunna tillverka en enhet som innehåller en sensor för endast en fysisk egenskap och sedan lagligt marknadsföra produkten som "S.M.A.R.T.-kompatibel".
Beroende på vilken typ av gränssnitt som används kan det hända att vissa moderkort med S.M.A.R.T.-funktion och tillhörande programvara inte kan kommunicera med vissa enheter med S.M.A.R.T.-funktion. Det är till exempel få externa enheter som är anslutna via USB och Firewire som korrekt skickar S.M.A.R.T.-data över dessa gränssnitt. Med så många sätt att ansluta en hårddisk (SCSI, Fibre Channel, ATA, SATA, SAS, SSA och så vidare) är det svårt att förutsäga om S.M.A.R.T.-rapporter kommer att fungera korrekt i ett visst system.
Även på hårddiskar och gränssnitt som har stöd för detta kan det hända att S.M.A.R.T.-informationen inte rapporteras korrekt till datorns operativsystem. Vissa diskkontroller kan duplicera alla skrivoperationer på en sekundär "backup"-enhet i realtid. Denna funktion kallas "RAID-spegling". Många program som är utformade för att analysera förändringar i enhetens beteende och vidarebefordra S.M.A.R.T.-varningar till operatören fungerar dock inte korrekt när ett datorsystem är konfigurerat för RAID-stöd. Detta beror i allmänhet på att datorn under normala RAID-operationsförhållanden inte tillåts av RAID-subsystemet att "se" (eller få direkt åtkomst till) enskilda fysiska enheter, utan kan i stället endast få åtkomst till logiska volymer.
På Windows-plattformen fungerar många program som är utformade för att övervaka och rapportera S.M.A.R.T.-information endast under ett administratörskonto. För närvarande implementeras S.M.A.R.T. individuellt av tillverkarna, och även om vissa aspekter är standardiserade för kompatibilitetens skull, är andra det inte.
ATA S.M.A.R.T.-attribut
Varje enhetstillverkare definierar en uppsättning attribut och fastställer tröskelvärden över vilka attributen inte får passera under normal drift. Varje attribut har ett råvärde, vars innebörd är helt upp till enhetstillverkaren (men som ofta motsvarar antal eller en fysisk enhet, t.ex. grader Celsius eller sekunder), och ett normaliserat värde, som sträcker sig från 1 till 253 (där 1 representerar det värsta fallet och 253 det bästa). Beroende på tillverkaren väljs ofta ett värde på 100 eller 200 som det "normala" värdet.
Bland de tillverkare som har stött minst ett S.M.A.R.T.-attribut i olika produkter finns följande: Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Western Digital och ExcelStor Technology.
Tröskelvärde Överskrider villkoret
TEC (Threshold Exceeds Condition) är ett förmodat datum då ett kritiskt statistiskt attribut för en enhet kommer att nå sitt tröskelvärde. När programvaran Drive Health rapporterar ett "Nearest T.E.C." ska det betraktas som ett "feldatum".
Prognosen för detta datum baseras på faktorn "Hastighet för ändring av attribut"; hur många punkter varje månad värdet minskar/ökar. Denna faktor beräknas automatiskt vid varje ändring av S.M.A.R.T.-attribut för varje enskilt attribut. Observera att TEC-datum inte är några garantier; hårddiskar kan och kommer antingen att hålla mycket längre eller gå sönder mycket tidigare än det datum som anges i TEC.