חשוב לשים לב למה שעושים במחשב או בכל מכשיר דיגיטלי אחר - במיוחד כשמדובר בכזה שמכשירים ושירותים אחרים "סומכים" עליו. זה הלקח של אמזון מהתקלה שגרמה לאלפי אתרים ואפליקציות להפסיק לעבוד ביום שלישי בערב.
ביום חמישי בערב חשפה החברה כי טכנאי מחשבים שניסה לתקן תקלה קטנה בשירות גרם לתקלה גדולה. בעברית פשוטה, הטכנאי הקליד פקודה שהיתה אמורה לנתק כמה שרתים כדי להאיץ את מנגנון גביית התשלומים של שירות האחסון S3.
אלא שהטכנאי ביצע שגיאת הקלדה שגרמה לניתוק של הרבה יותר שרתים, שהיוו חלק גדול מתשתית הקטלוג של השירות. במילים אחרות: השרתים שעליהם נמצא המידע שאומר למערכת היכן נמצא כל קובץ נותקו מהשירות, ולכן אי אפשר היה למצוא את הקבצים שאתרים ואפליקציות אחסנו בשירות, וגם לא להוסיף קבצים חדשים. הדבר גרם לאלפי אתרים ואפליקציות לעלות ריקים, או לא לעלות בכלל. כך גם מצלמות אבטחה ששולחות את ההקלטה לשירות במקום לאחסן אותו על זיכרון פנימי לא יכלו להעלות את החומר הטרי לשרתים.
בעיקרון, אומרת החברה, כל מה שהיה צריך לעשות כדי לתקן את התקלה הוא לאתחל את השרתים כדי שיתחברו מחדש - אלא שמכיוון שמדובר בהמון שרתים שלא אותחלו "הרבה שנים", תהליך ההדלקה שלהם, שכולל סריקה של הנתונים כדי לוודא שהם שלמים ולא כוללים שגיאות, לקח שעות.
החברה הבטיחה כי תוסיף לשירות הגנות שימנעו מצבים כאלה בעתיד, כמו מגבלה על כמות השרתים שפקודה של טכנאי יכולה להשפיע עליהם בו-זמנית, כמו גם פיצול השרתים ל"תאים", כך שכל "תא" שקורית בו תקלה משפיע על כמות קטנה של נתונים ולא על כל השירות.