Drv_ssd read failed: errno 5

Hi,

I am running aerospike on a 3-Node Cluster. Every Node has got 2 480GB Samsung 843T SSD and 128GB RAM. Since some hours, one of the Nodes logs errors so that we had to make a shutdown of this node, because the latency grows and the client limit of 15.000 reached (normally about 150).

I haven’t found anything about this error:

Sep 11 2014 08:09:02 GMT: WARNING (drv_ssd): (drv_ssd.c::1165) read failed: expected 512 got -1: fd 9900 data 0x7f277981b000 errno 5
Sep 11 2014 08:09:05 GMT: WARNING (drv_ssd): (drv_ssd.c::1165) read failed: expected 512 got -1: fd 9900 data 0x7f277981b000 errno 5
Sep 11 2014 08:09:05 GMT: WARNING (drv_ssd): (drv_ssd.c::1238) read_and_size_all: failed as_storage_record_read_ssd()
Sep 11 2014 08:09:05 GMT: WARNING (rw): (thr_rw.c::3424) write_local: failed as_bin_get_and_size_all()

Thanks, Arndt

Hi Arndt,

Thanks for posting on our forum.

Could you provide the server build version you are using? One other input that may help get back to you would be the output of the following command (while under this situation).

iostat -x 1 10

Which would provide us some insight on how your storage layer is performing.

Thanks, –meher

Got some input internally, and this message tends towards some hardware issue. Basically we tried to read 512 bytes from the device and got -1 (error) which is EIO (I/O error).

Hi, this is the iostat result:

Linux 3.13.0-34-generic (easy1) 22.09.2014 x86_64 (24 CPU)

avg-cpu: %user %nice %system %iowait %steal %idle 11,14 0,01 8,12 2,56 0,00 78,18

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 4,19 0,07 3,90 4,68 327,08 167,41 0,01 1,60 0,64 1,62 0,18 0,07 sdb 0,00 0,00 0,00 0,00 0,00 0,00 11,12 0,00 0,60 0,60 0,00 0,60 0,00 sdc 0,13 168,83 1169,47 12,55 3127,02 1650,39 8,08 0,57 0,48 0,32 15,95 0,15 17,15 sdd 0,00 84,25 1040,89 14,78 2798,56 2149,95 9,38 0,36 0,35 0,16 13,52 0,14 14,33 sde 0,10 168,83 1079,64 12,58 2628,18 1655,21 7,84 0,36 0,33 0,16 15,06 0,13 14,67 sdf 0,00 0,00 0,00 0,00 0,00 0,00 10,38 0,00 0,97 0,97 0,00 0,82 0,00 sdg 0,00 84,25 1061,86 19,89 3196,03 2804,35 11,09 0,37 0,35 0,16 10,24 0,14 15,03

avg-cpu: %user %nice %system %iowait %steal %idle 9,71 0,00 8,95 34,89 0,00 46,45

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 1264,00 9,00 2953,00 1152,00 6,45 13,76 10,77 10,84 1,33 0,58 73,60 sdd 0,00 0,00 1229,00 8,00 2569,50 1024,00 5,81 0,17 0,14 0,14 0,00 0,12 14,40 sde 0,00 0,00 1236,00 11,00 3114,50 1408,00 7,25 0,13 0,11 0,11 0,00 0,09 10,80 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 1299,00 9,00 2618,50 1152,00 5,77 0,21 0,17 0,16 0,44 0,12 15,20

avg-cpu: %user %nice %system %iowait %steal %idle 17,13 0,00 11,89 5,16 0,00 65,82

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 26,00 0,00 3,00 0,00 116,00 77,33 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 2675,00 35,00 3739,50 4480,00 6,07 1,20 0,46 0,45 1,26 0,13 35,20 sdd 0,00 0,00 2391,00 15,00 3425,50 1920,00 4,44 0,37 0,16 0,15 0,53 0,13 30,80 sde 0,00 0,00 2386,00 17,00 3822,50 2176,00 4,99 0,37 0,15 0,15 0,71 0,13 30,80 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 2594,00 16,00 3277,50 2048,00 4,08 0,38 0,15 0,14 0,50 0,12 30,80

avg-cpu: %user %nice %system %iowait %steal %idle 12,00 0,00 11,03 22,19 0,00 54,78

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 1918,00 28,00 6287,00 3584,00 10,14 6,42 3,30 3,16 13,00 0,29 56,40 sdd 0,00 0,00 1865,00 10,00 2743,50 1280,00 4,29 0,44 0,24 0,24 0,00 0,19 36,40 sde 0,00 0,00 1727,00 11,00 2585,00 1408,00 4,59 0,99 0,57 0,57 0,36 0,28 48,40 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 1893,00 13,00 3247,50 1664,00 5,15 1,01 0,53 0,53 0,92 0,27 50,80

avg-cpu: %user %nice %system %iowait %steal %idle 10,06 0,00 9,43 23,78 0,00 56,73

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 1299,00 8,00 1392,00 1024,00 3,70 9,62 0,14 0,14 0,00 0,46 59,60 sdd 0,00 0,00 1293,00 4,00 1110,50 512,00 2,50 0,18 0,14 0,14 1,00 0,12 16,00 sde 0,00 0,00 1308,00 5,00 1488,00 640,00 3,24 0,22 0,16 0,17 0,00 0,14 18,40 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 1337,00 5,00 1376,00 640,00 3,00 0,14 0,11 0,11 0,00 0,10 13,20

avg-cpu: %user %nice %system %iowait %steal %idle 13,14 0,00 11,20 12,34 0,00 63,33

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 2627,00 31,00 5747,00 3968,00 7,31 4,58 5,27 5,09 20,13 0,17 44,80 sdd 0,00 0,00 2404,00 11,00 2649,50 1408,00 3,36 0,32 0,13 0,13 0,36 0,11 25,60 sde 0,00 0,00 2400,00 16,00 3039,00 2048,00 4,21 0,34 0,14 0,14 0,00 0,11 26,80 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 2552,00 14,00 3128,50 1792,00 3,84 0,34 0,13 0,13 0,57 0,10 26,80

avg-cpu: %user %nice %system %iowait %steal %idle 11,57 0,00 10,69 22,21 0,00 55,53

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 1953,00 25,00 4952,00 3200,00 8,24 7,08 3,58 3,60 1,92 0,29 58,00 sdd 0,00 0,00 1669,00 11,00 3217,50 1408,00 5,51 0,96 0,57 0,57 0,36 0,30 50,00 sde 0,00 0,00 1874,00 16,00 4009,50 2048,00 6,41 1,02 0,54 0,53 1,25 0,26 48,40 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 1760,00 11,00 3263,50 1408,00 5,28 0,83 0,47 0,47 0,36 0,27 47,20

avg-cpu: %user %nice %system %iowait %steal %idle 11,37 0,00 9,22 16,84 0,00 62,57

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 13,00 0,00 2,00 0,00 60,00 60,00 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 1770,00 12,00 2263,50 1536,00 4,26 5,56 0,16 0,16 1,00 0,28 50,00 sdd 0,00 0,00 1668,00 9,00 2847,50 1152,00 4,77 0,22 0,13 0,13 0,89 0,10 17,60 sde 0,00 0,00 1612,00 10,00 2875,50 1280,00 5,12 0,25 0,16 0,16 0,00 0,13 21,60 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 1720,00 9,00 3093,50 1152,00 4,91 0,23 0,13 0,13 0,89 0,12 20,40

avg-cpu: %user %nice %system %iowait %steal %idle 13,25 0,00 9,66 9,75 0,00 67,34

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 0,00 0,00 10,00 0,00 2676,00 535,20 0,04 4,00 0,00 4,00 0,40 0,40 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 2529,00 19,00 4030,00 2432,00 5,07 2,99 3,25 3,25 2,32 0,16 41,60 sdd 0,00 0,00 2382,00 12,00 3506,50 1536,00 4,21 0,30 0,13 0,12 1,33 0,11 26,40 sde 0,00 0,00 2385,00 14,00 3558,50 1792,00 4,46 0,38 0,16 0,16 0,86 0,13 30,40 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 2484,00 9,00 2567,00 1152,00 2,98 0,28 0,11 0,11 0,44 0,10 25,20

avg-cpu: %user %nice %system %iowait %steal %idle 9,66 0,00 12,01 32,62 0,00 45,72

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdc 0,00 0,00 1578,00 19,00 4543,00 2432,00 8,74 14,10 8,83 8,90 3,37 0,46 74,00 sdd 0,00 0,00 1435,00 9,00 2013,50 1152,00 4,38 0,18 0,12 0,12 0,44 0,09 13,60 sde 0,00 0,00 1431,00 11,00 2670,50 1408,00 5,66 0,16 0,11 0,11 0,73 0,09 13,20 sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 sdg 0,00 0,00 1471,00 9,00 2440,50 1152,00 4,85 0,17 0,12 0,11 0,89 0,09 14,00

SMART shows errors like this:

We use the following Samsung SSDs:

=== START OF INFORMATION SECTION === Device Model: SAMSUNG MZ7WD480HCGM-00003 Serial Number: xxxxxxxxxxxxx LU WWN Device Id: 5 002538 5001bdf08 Firmware Version: DXM9103Q User Capacity: 480.103.981.056 bytes [480 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 4c SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Mon Sep 22 10:36:01 2014 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled

Now, 3 weeks after installing Aerospike, 4 out of 16 devices show these SMART Errors. The Latency grows on these nodes and we got these read failed errors.

Here is the SMART output:

Error 18182 occurred at disk power-on lifetime: 260 hours (10 days + 20 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH


00 51 e1 1f 4a 72 e2 Error:

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


27 00 00 00 00 00 00 03 00:15:38.321 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error 1 Extended offline Interrupted (host reset) 90% 260 - 2 Extended offline Completed without error 00% 39 -

Hi Arndt,

Sorry for the late reply, I will have to dig up further internally. Will get back to you as soon as I find something.

Thanks, –meher

Hi Arndt,

It indeed looks like the drives are failing based on those errors. We do take SSD issues very seriously at Aerospike. I will reach out to you directly asap to follow up on this issue.

Thanks, –meher

A few more details: We have tested the Samsung 843T for our normal performance tests, and the 843T performed fairly well. I am not certain which of our customers have been using 843T for long term use, we are looking into who might. We would also like to run our test drive with your configuration & speeds.

There are some configuration errors one can make - like setting the high water mark too high, and setting up RAID incorrectly. Meher will talk to you about specifics when you are available.

-brian