hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Le sujet est résolu

Demande d'aide : c'est ici.
Répondre
Avatar de l’utilisateur
Dunatotatos
Membre
Membre
Messages : 426
Inscription : 11 mai 2016, 20:56
Status : Hors-ligne

Salut à tous,

Ma machine s'est comporté de manière très étrange hier soir après une intense session de gaming. Le système s'est figé, à l'exception de la souris et de l'accès aux tty. Déplacer la souris fonctionnait, mais cliquer n'ouvrait aucun menu, et une tentative d'autentification en tty restait coincée juste avant d'ouvrir un shell.
Par chance, j'avais glances ouvert en même temps, qui continuait à tourner en m'indiquant un très haut ratio de CPU_IOWAIT. Le disque dur serait-il mort ? Petit détail d'importance, / est sur NVMe, et /home sur un disque dur (celui qui semble mort), les deux en btrfs.

J'ai redémarré la machine espérant en reprendre le contrôle, mais à l'ouverture de session, KDE m'a lancé tout un tas d'erreurs, et /home était monté en lecture seule. Au moins, je peux ouvrir une console et voir ce qu'il se passe. dmesg me retourne des lignes pas très rassurantes:

Code : Tout sélectionner

hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
smartctl me retourne un message d'erreur contenant

Code : Tout sélectionner

A mandatory SMART command failed: exiting. To continue, add one or more '-T
permissive' options*
Option que je m'empresse d'essayer, pour obtenir exactement le même message d'erreur.

Pour m'assurer que le problème venait bien du disque et pas de la carte mère ou d'un cable, je l'ai branché en USB sur cette même machine. Mêmes erreurs, et toujours monté sur /home en lecture seule. Et aujourd'hui, je branche en USB ce même disque dur sur une autre machine, et j'y ai accès en lecture/écriture, et smartctl est content et m'indique même

Code : Tout sélectionner

SMART overall-health self-assessment test result: PASSED
Par contre, il y a des références à des erreurs passées :

Code : Tout sélectionner

SMART Error Log Version: 1
ATA Error Count: 26 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 26 occurred at disk power-on lifetime: 13182 hours (549 days + 6 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 20 ff ff ff 4f 00      00:09:08.574  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:09:08.565  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:08.564  READ FPDMA QUEUED
  ef 10 03 00 00 00 a0 00      00:09:08.555  SET FEATURES [Enable SATA feature]
  ef 10 02 00 00 00 a0 00      00:09:08.545  SET FEATURES [Enable SATA feature]

Error 25 occurred at disk power-on lifetime: 13182 hours (549 days + 6 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 20 ff ff ff 4f 00      00:09:08.083  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:08.080  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:08.078  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:08.068  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:09:08.045  READ FPDMA QUEUED

Error 24 occurred at disk power-on lifetime: 13182 hours (549 days + 6 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 20 ff ff ff 4f 00      00:09:07.216  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:09:07.196  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:07.195  READ FPDMA QUEUED
  ef 10 03 00 00 00 a0 00      00:09:07.185  SET FEATURES [Enable SATA feature]
  ef 10 02 00 00 00 a0 00      00:09:07.176  SET FEATURES [Enable SATA feature]

Error 23 occurred at disk power-on lifetime: 13182 hours (549 days + 6 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 20 ff ff ff 4f 00      00:09:05.966  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:05.964  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:05.962  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:09:05.951  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      00:09:05.951  READ FPDMA QUEUED

Error 22 occurred at disk power-on lifetime: 13182 hours (549 days + 6 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 20 ff ff ff 4f 00      00:09:03.606  READ FPDMA QUEUED
  60 00 20 ff ff ff 4f 00      00:09:03.573  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00      00:09:03.562  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00      00:09:03.562  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00      00:09:03.562  READ FPDMA QUEUED
Je ne cherche pas à résoudre le problème, le disque dur est déjà changé par un neuf. Mais j'aimerais bien savoir ce qu'il se passe. Ce disque est-il mort ou non ?
PascalHambourg
Contributeur
Contributeur
Messages : 930
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

Les extraits de log du noyau et d'état SMART que tu donnes sont beaucoup trop incomplets pour en déduire quoi que ce soit.

Le log SMART montre une erreur de lecture de secteur défectueux, mais comme tu ne montres pas le nombre d'heures de fonctionnement total on ne peut pas savoir si l'erreur est récente ou pas.
Avatar de l’utilisateur
Dunatotatos
Membre
Membre
Messages : 426
Inscription : 11 mai 2016, 20:56
Status : Hors-ligne

J'ai préféré poster ici l'essentiel pour éviter de poster un pavé...

Voici la sortie complète de smartctl. Les log du kernel arriveront ce soir, je n'ai pas accès à ma machine pour le moment.

Code : Tout sélectionner

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-957.1.3.el7.x86_64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ST1000LM035-1RK172
Serial Number:    WES083YB
LU WWN Device Id: 5 000c50 09ca9477a
Firmware Version: SDM1
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Apr 25 12:49:29 2019 +03
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(    0) seconds.
Offline data collection
capabilities: 			 (0x71) SMART execute Offline immediate.
					No Auto Offline data collection support.
					Suspend Offline collection upon new
					command.
					No Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 166) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x3035)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   068   049   006    Pre-fail  Always       -       6104536
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       490
  5 Reallocated_Sector_Ct   0x0033   087   087   036    Pre-fail  Always       -       8536
  7 Seek_Error_Rate         0x000f   085   060   045    Pre-fail  Always       -       330376445
  9 Power_On_Hours          0x0032   085   085   000    Old_age   Always       -       13263 (94 237 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       481
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   046   046   000    Old_age   Always       -       54
188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       12885491723
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   055   047   040    Old_age   Always       -       45 (Min/Max 25/45)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       13
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       1284195
194 Temperature_Celsius     0x0022   045   053   000    Old_age   Always       -       45 (0 14 0 0 0)
197 Current_Pending_Sector  0x0012   086   086   000    Old_age   Always       -       1184
198 Offline_Uncorrectable   0x0010   086   086   000    Old_age   Offline      -       1184
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       9466 (112 202 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       34599199817
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       20343951398
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 54 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 54 occurred at disk power-on lifetime: 13263 hours (552 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 f8 65 29 09  Error: UNC at LBA = 0x092965f8 = 153708024

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 08 f8 65 29 49 00      02:16:42.547  READ DMA EXT
  25 d5 08 40 7c 5c 4a 00      02:16:42.546  READ DMA EXT
  25 d5 08 f8 65 29 49 00      02:16:42.523  READ DMA EXT
  25 d5 08 38 7c 5c 4a 00      02:16:42.522  READ DMA EXT
  25 d5 08 30 7c 5c 4a 00      02:16:42.521  READ DMA EXT

Error 53 occurred at disk power-on lifetime: 13263 hours (552 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 f8 65 29 09  Error: UNC at LBA = 0x092965f8 = 153708024

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 08 f8 65 29 49 00      02:16:42.523  READ DMA EXT
  25 d5 08 38 7c 5c 4a 00      02:16:42.522  READ DMA EXT
  25 d5 08 30 7c 5c 4a 00      02:16:42.521  READ DMA EXT
  25 d5 08 28 7c 5c 4a 00      02:16:42.521  READ DMA EXT
  25 d5 08 20 7c 5c 4a 00      02:16:42.521  READ DMA EXT

Error 52 occurred at disk power-on lifetime: 13263 hours (552 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 f8 65 29 09  Error: UNC at LBA = 0x092965f8 = 153708024

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 08 f8 65 29 49 00      02:16:42.330  READ DMA EXT
  25 d5 08 b0 77 5c 4a 00      02:16:42.330  READ DMA EXT
  25 d5 08 f8 65 29 49 00      02:16:42.270  READ DMA EXT
  25 d5 08 18 29 5c 4a 00      02:16:41.876  READ DMA EXT
  25 d5 08 10 29 5c 4a 00      02:16:41.861  READ DMA EXT

Error 51 occurred at disk power-on lifetime: 13263 hours (552 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 f8 65 29 09  Error: UNC at LBA = 0x092965f8 = 153708024

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 08 f8 65 29 49 00      02:16:42.270  READ DMA EXT
  25 d5 08 18 29 5c 4a 00      02:16:41.876  READ DMA EXT
  25 d5 08 10 29 5c 4a 00      02:16:41.861  READ DMA EXT
  25 d5 08 08 29 5c 4a 00      02:16:41.860  READ DMA EXT
  25 d5 08 00 29 5c 4a 00      02:16:41.860  READ DMA EXT

Error 50 occurred at disk power-on lifetime: 13262 hours (552 days + 14 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 00 66 29 09  Error: UNC at LBA = 0x09296600 = 153708032

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d5 08 00 66 29 49 00      02:00:46.526  READ DMA EXT
  25 d5 00 70 e7 78 41 00      02:00:46.510  READ DMA EXT
  25 d5 00 70 e3 78 41 00      02:00:46.507  READ DMA EXT
  25 d5 00 70 df 78 41 00      02:00:46.502  READ DMA EXT
  25 d5 00 70 db 78 41 00      02:00:46.498  READ DMA EXT

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
PascalHambourg
Contributeur
Contributeur
Messages : 930
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

Code : Tout sélectionner

  5 Reallocated_Sector_Ct   0x0033   087   087   036    Pre-fail  Always       -       8536
197 Current_Pending_Sector  0x0012   086   086   000    Old_age   Always       -       1184
198 Offline_Uncorrectable   0x0010   086   086   000    Old_age   Offline      -       1184
Le disque est hors d'usage. Trop de secteurs défectueux.
Avatar de l’utilisateur
piratebab
Site Admin
Site Admin
Messages : 5875
Inscription : 24 avr. 2016, 18:41
Localisation : sud ouest
Status : En ligne

Est ce que lles erreurs d'écriture peuvent apparaître en cas de surchauffe, puis revenir à la normale lorsque le disque refroidit ?
PascalHambourg
Contributeur
Contributeur
Messages : 930
Inscription : 05 août 2016, 20:25
Status : Hors-ligne

Possible, mais d'après les attributs SMART le disque ne semble pas avoir particulièrement surchauffé (maxi à 53 °C pour Temperature_Celsius, et pire valeur normalisée ne dépassant pas le seuil pour Airflow_Temperature_Cel).
Avatar de l’utilisateur
Dunatotatos
Membre
Membre
Messages : 426
Inscription : 11 mai 2016, 20:56
Status : Hors-ligne

Merci Pascal pour cette réponse. C'est clair :D

Et merci piratebab pour la question qui aurait été ma suivante. Par le passé, la batterie s'est mise à gonfler, et un ventilateur a commencé a vibré... Je ne sais pas si ces problèmes sont liés et dénote une cause plus profonde.

Je passe en résolu !
Répondre