כל התמונות שאנחנו מעלים לפייסבוק, הסרטים ליוטיוב, המיילים, המסמכים - חשבתם מי מטפל בזה, מי הופך את הרי המידע האלה לזמינים לחיפוש ולשימושיים? התחום הזה הפך לבאזז וורד אחד החמים ביותר היום - "ביג דאטא".
טיפול נכון בכל המידע הזה מאפשר להפיק תובנות חדשות ולנבא מגמות חשובות כמו מלחמות, התפרצות מחלות, כיוון שוק המניות או מזג אוויר.
בכמה מידע מדובר?
"בכמות מטורפת. מדי יום מייצרת האנושות 2 הקסה בייט של מידע חדש - שהם 2 מיליארד גיגה בייט ביום. כל כך הרבה, שלמעשה 90% מהמידע שקיים בכלל בעולם - נוצר רק בשנתיים האחרונות", אומר עופר לוינגר, הממונה על מערך המידע באגף הפיתוח בחטיבת טכנולוגיה ומחשוב בבנק הפועלים ולשעבר מפקד יחידת המחשוב היוקרתית לשם בצה"ל.
הנתונים הללו מגיעים מכל מקום: מחיישנים שאוספים מידע אקלימי, מתגובות באתרי מדיה חברתית, מתמונות דיגיטליות וסרטונים שמועלים לרשת, מרישומים של רכישות מקוונות ומסימני GPS של טלפונים סלולריים. המקורות רבים מספור. וזהו בדיוק הביג דאטא.
הנתונים לא רק נעשים זמינים יותר, אלא גם מובנים יותר למחשבים. עיקר הגידול בביג-דאטא הוא בנתונים 'פראיים'- מושגים לא מובנים כמו מלים, תמונות וסרטוני וידיאו שמועלים לרשת וזרמי הנתונים שמגיעים מהחיישנים. נתונים אלה נקראים "מידע בלתי מובנה", והוא אינו ניתן לעיבוד כיום.
בנייתם של כלי המחשוב שיאפשרו עיבוד והפקת תובנות משפע המידע הבלתי-מובנה של עידן האינטרנט, מתקדמת במהירות. בחזית נמצאות הטכניקות של בינה מלאכותית כמו עיבוד שפה טבעית, זיהוי תבניות ולימוד מכונה. טכנולוגיות הבינה המלאכותית האלה ניתנות ליישום בתחומים רבים. שירותי החיפוש והמודעות של גוגל, כמו גם המכוניות הרובוטיות הנסיוניות שלה, שנסעו אלפי קילומטרים על כבישי קליפורניה - משתמשים שניהם בשורה של טכניקות בינה מלאכותית.
אבל השאלה האמיתית היא אילו תובנות אפשר להפיק מעיבוד הרי המידע האלה. ואולי הדוגמה הכי טובה היא זו שהובנה בדיעבד. אחרי הפיגוע במגדלי התאומים ב-2001 הראה ניתוח לאחור של המידע הרב שהסתובב ברשת כי תשומת הלב למונחים "מטוס" ו"מגדלי התאומים" הלך והאמיר בתקופה שקדמה לפיגוע. עכשיו רק צריך לעשות את זה בזמן אמת - ועל כמויות הרבה יותר גדולות של מידע.