תגית: Data Integration&Quality

מה הם מחסני נתונים (Data Warehouse) וכיצד מנהלים אותם?

כותב: moransinay2103@gmail.com

מחסן נתונים DWH- Data Warehouse מבוסס על מערכת ממוחשבת, אשר משמשת כמאגר נתונים ארגוניים רחב היקף, לרבות נתונים רב-תקופתיים והיסטוריים, נתונים על תנועות כספיות, שינויים במצבת המלאי, פעולות שיווק מול לקוחות, מעקב אחר שירות הלקוחות, מכירות, הזמנות רכש, ייצור ומשאבי אנוש. ארגונים נעזרים במחסני נתונים כדי לנתח מידע ולבצע השוואות בין-תקופתיות לצורך החלטות עסקיות, ולכן מחסני נתונים משמשים גם כמערכות תומכות החלטה, שכן הם מהווים את התשתית המרכזית למערכות הבינה העסקית (BI) .

[toc]

ניהול מחסני נתונים

תהליך ארגון המידע במחסן הנתונים כולל שלושה שלבים עיקריים:

הנתונים מוזרמים אל המחסן ישירות ממערכות המידע התפעוליות של הארגון לרבות מערכת לניהול משאבי הארגון (סאפ, פריוריטי, חשבשבת, ERP) מערכת לניהול קשרי לקוחות (CRM), ניהול רצפת ייצור (MES), ניהול מחסן בזמן אמת (WMS) מערכות לניהול משאבי אנוש וכל מערכת תפעולית אחרת שמשמשת את הארגון.
הנתונים מסוננים וממוינים (עוברים תהליך של "טיוב") בהתאם לפקודות שונות במטרה למזער "רעשי רקע" ולהתאים להקשר הנכון (הנתונים יישלפו באמצעות שאילתה או שאלה עסקית, תלוי בפלטפורמת ה-BI)
הפיכת נתונים גולמיים לתובנות עסקיות בעזרת תהליך ניתוח נתונים.

<<< צרו איתנו קשר לעוד מידע על המערכות של Qlik לניהול מחסני נתונים >>>

מדוע צריך מחסני נתונים?

מלבד הצורך בריכוז, אחזור, סינון, מיון והפיכת נתונים גולמיים לתובנות עסקיות, ארגונים נעזרים במחסני נתונים לצורך חיבור בין מערכות שונות ואחזור מהיר של מידע גם כאשר הנתונים אינם נגישים (נמצאים במערכות סגורות) . כמו כן בשונה ממערכות תפעוליות – המצריכות ניהול של מספר טבלאות סביב אותה ישות במחסן הנתונים, מבוצע תהליך "טיוב" אוטומטי של נתונים, דבר החוסך בנפח אחסון ובזמן ריצה – למשל: כאשר תאריך הלידה נרשם בהפרדה של פסיקים לעומת תאריך לידה שנרשם בהפרדת לוכסנים או תעודת זהות שנרשמה עם או ללא ספרת ביקורת.

נוסף לכך המערכות התפעוליות הארגוניות אינן מתוכננות לשמור נתונים היסטוריים לאורך זמן, כך שבמקרה הטוב ניתן לגשת לנתון שנרשם בטווח של שבועות ספורים, ומה שהיה קודם לכן לא נשמר. בשונה מכך ארגונים שמעוניינים לבצע ניתוחים סטטיסטיים המתפרסים על פני ציר זמן של שנים רבות (לדוגמה כמות מפריט מסוים שנמכרה במשך עשור) יכולים לעשות זאת באמצעות שימוש במחסן נתונים – מערכת שנוצרה מראש כדי לאחסן אינספור נתונים ומאופיינת בנפח אחסון רחב ושיטת אחסון המבוססת על שכבות (רובד על רובד). באופן זה ניתן לשלוף נתונים במהירות ואף לאחזר מידע בנוחות ובקלות, כולל אחזור מידע ממערכות לא פתוחות כדוגמת MF (וזאת כיוון שבמחסן הנתונים אין כפילות של טבלאות, ולכן אין כל חשש להאטת הקצב או להצגת שגיאות בעת ריצת הנתונים.

מערכות מחסני נתונים

מחסן הנתונים מורכב בעצם משתי שכבות: מערכת רב-ענפית (ארגונית, Data Warehouse) ומערכת ענפית (מחלקית, Data Mart), כאשר בשכבה הראשונה מחסן הנתונים נותן מענה למספר מחלקות ומציג את הנתונים בהקשר של שאלה עסקית מובחנת התואמת את עולמו המקצועי של המשתמש, ואילו בשכבה השנייה המחסן מיועד לתחום עסקי מובחן – כספים, רכש, מלאי, משאבי אנוש וכן הלאה. השיקול אם לבנות מחסן נתונים בשכבה רב ענפית לעומת בניית מחסן נתונים ענפי אחד מבוסס על משאבים שונים לרבות תקציבים וזמן – שכן בנייה של מחסן נתונים איכותי הוא פרויקט מתמשך.

מערכת רב-ענפית (ארגונית, Data Warehouse)

מחסן נתונים שנותן מענה למספר תחומים עסקיים ומרכז נתונים המשותפים לתחומים שונים – לדוגמה: טבלת לקוחות, טבלת מכירות, טבלת הזמנות רכש וכן הלאה. בתהליך הקמת המחסן יש לשים דגש כיצד כל טבלה נותנת מענה לצרכים הייחודיים של הענפים השונים בארגון ולצרכים הרבים של משתמשי המערכת. המערכת מתאימה לארגונים בסדר גודל בינוני ומעלה המנהלים מספר מערכות מידע לרבות מערכת ERP, CRM, ייצור, משאבי אנוש ועוד מערכות נוספות, ונדרשים לתת מענה למספר עולמות תוכן.

מערכת ענפית (מחלקית, Data Mart)

מערכת ענפית מחלקתית כוללת מחסן נתונים הממוקד לתחום עסקי מובחן – למשל מחסן נתוני כח אדם, מחסן נתוני שכר וכן הלאה. זהו למעשה מחסן נתונים פנימי, והוא פועל בדרך כלל לצד מחסני נתונים ענפיים מקבילים – כאשר כל מחסן ענפי מאחסן את המידע המחלקתי הייעודי. בארגונים הבוחרים בגישה של ביזור ניתן לראות מספר מחסני Data Mart.

כיצד בנויה מערכת מחסן נתונים קלאסית?

מערכת תפעולית

נקראת גם מאגר נתונים תפעולי OLTP (On Line Transactional Processing) ומטרתה לאגור ולנהל נתונים בתדירות יום יומית בהתאם לשיוכה במערכת. לדוגמה: שינויים שחלו בכרטיסיית לקוח, שינויים שחלו בפרטי מוצר מסוים (לדוגמה: היסטוריית הנחות, בעיות עם לוטים ועוד) כאמור המאגר מתעדכן בתדירות יום יומית ומשמש לניהול תנועות לישות במערכת וצפייה בתנועות היסטוריות.

מאגר נתונים תפעולי

מאגר נתונים תפעולי, ODS (Operational Data Store) משמש כמסד לנתונים עדכניים, אשר מספק "תמונת מצב" ואפשרות למעקב אחר התנועות האחרונות שבוצעו בארגון בכל תחום. נוסף לכך הוא מאפשר לארגונים לאחד נתונים שמקורם בתבניות שונות וכך להקל על אופן קריאת הנתונים וניתוחם.

קליטה וטיפול בנתונים

תהליך קליטה וטיפול בנתונים Staging Area) – STA) נעשה באזור "העמסת ביניים" או "אחסון ביניים" המאפשר לעבד נתונים בתהליך ETL (הוצאת נתונים מקובצי מקור, שינוי מבנה הנתונים וסיכומם וטעינת נתונים למחסן נתונים). מיקומו של אזור זה נמצא בין מאגרי ידע שונים לרבות מחסני נתונים ענפיים ומחסני נתונים רב-ענפיות ומאגרים נוספים.

מאגר המידע

ה- Data Warehouse בסיס הנתונים העיקרי של מחסן נתונים. בבסיס זה מאוגדים כלל הנתונים שנגזרו מהמערכות התפעוליות לאחר שעברו "טיוב" והתאמה להצגתם בתבנית אחידה המקלה על ניתוח, אחזור ושליפת המידע. מחסן הנתונים משמש לבינה עסקית, כריית מידע ומתן מענה לשאילתות רב-מימדיות (עיבוד אנליטי מקוון).

ממשק משתמש

זהו כלי גרפי המשמש את משתמש הקצה לחקור נתונים, להפיק שאילתות, לחולל דוחות ולבצע שימוש מעשי במערכת הבינה העסקית העומדת לרשותו. ממשק משתמש איכותי כולל אינספור מוטיבים גרפיים שונים אשר מקלים על קריאה וניתוח הנתונים, ואף מאפשרים לבצע תחקור חופשי של הדאטה על גבי הדשבורד (יכולת שקיימת רק במערכות BI מהדור החדש).

<<< צרו איתנו קשר לעוד מידע על המערכות המתקדמות של Qlik לניהול מחסני נתונים >>>

מה ההבדל בין מבנה מחסן נתונים למערכות עיבוד נתונים

עסקים המתמודדים עם ניתוח של אינספור נתונים יום יומיים, ומבקשים להשוות ביצועים עסקיים בין תקופות שונות נדרשים הן למחסן נתונים והן למערכות לעיבוד נתונים – שתי מערכות שיעודן המרכזי הוא לאחסן נתונים, אולם הן נוצרו למטרות שונות, ולכן הן נבדלות זו מזו במספר מאפיינים:

תהליך עיבוד: OLAP מול OLTP – ההבדל העיקרי בין מחסן נתונים למערכות עיבוד נתונים הוא באופן עיבוד הנתונים. במחסן נתונים נהוג להיעזר בתהליך עיבוד תנועות מקוון (OLTP) כדי למחוק, להוסיף, להחליף או לעדכן מספר רב של רשומות מקוונות בזמן קצר ואילו במערכות עיבוד נתונים, המיקוד בתהליך העיבוד נעשה במסות רבות יותר של נתונים כדי לאפשר למשתמש לנתח את המידע ממגוון נקודות מבט וזוויות. זהו תהליך מהיר יותר ומאפשר לשלוף את הנתון בהקשר הנכון.
אופטימיזציה – במערכות עיבוד נתונים ניתוח הדאטה נעשה ברמת "המיקרו", כלומר ברמת רישום התנועה, לעומת זאת במחסני נתונים – הניתוח נעשה ברמת "המאקרו" ונותן מענה לשאילתות מורכבות אשר מבוססות על מאגרי נתונים רב-ממדיים וגדולים.
ניתוח מידע – במערכות לעיבוד נתונים המיקוד הוא על תהליך העיבוד עצמו, ניתן אף לבצע ניתוח נתונים ברמה בסיסית או ברמה מורכבת ביותר אך במקרה זה נדרשת התערבות של איש פיתוח כדי שיחבר בין מספר טבלאות וייתן מענה לשאילתות מורכבות. ברוב המקרים גם לאחר תהליך זה הניתוח המתקדם יניב דו"ח סטטי, שאינו מאפשר להגיע לתובנות מעמיקות. לעומת זאת מחסני נתונים נוצרו כדי לתת מענה לניתוחים מורכבים, רב-ממדים, ולחקירה "חופשית" של הדאטה על גבי מסך העבודה, ללא תלות בצוותי פיתוח או בשאילתות מובנות מראש. בדרך זו ניתן להגיע לתובנות מעמיקות ולא רק "לקרוא" נתונים מתוך דו"ח סטטי.
תמיכה במספר משתמשים במקביל – מערכות לעיבוד נתונים נותנות מענה למספר רב של משתמשים במקביל, לעומת זאת מחסני נתונים מיועדים למספר קטן של משתמשים במקביל
הצגת מידע עדכני – מערכות לעיבוד נתונים עובדות "בזמן אמת" ולכן מציגות נתונים עדכניים, בשונה מהן מחסני נתונים הם מאגרים לאחסון נתונים, ולכן מוצגים בהם נתונים היסטוריים הנוגעים לתחומים שונים בארגון.

כיצד מעצבים בסיס נתונים למערכת של מחסן נתונים

בסיס נתונים המשמש למערכת של מחסן נתונים נדרש לתת מענה לשני אתגרים מרכזיים ביג דאטה ויכולת להפיק שאילתות מורכבות:
ביג דאטה – והכוונה לצבר נתונים שמגיעים מאינספור מקורות ומעובדים על ידי מנוע רב עוצמה שפועל בבסיס המערכת.
הפקת שאילתות מורכבות – מתבטאת ביכולת לתחקר את הדאטה בחופשיות, ללא תלות בשאילתות, כאשר המידע מגיע מטבלאות בהן הנתונים משוכפלים מספר פעמים (בשונה מטבלאות מנורמלות שממזערות ככל הניתן כפילות בין נתונים בטבלה אחת) ,וכן לא פעם מוצגים נתונים מסוכמים כדי לתת מענה לצורך בצפייה במידע רב-שכבתי. שמירה על עקרונות עיצוב אלו ישפר באופן משמעותי את חווית המשתמש ואת ביצועי המערכת לאורך זמן.

מודל כוכב

זהו העיצוב הקלאסי למחסן הנתונים, והוא מבוסס על טבלת סיכום המרכזת את רשומות המידע הגולמיות, שמסביבן ממוקמות טבלאות המגדירות חתכים שונים של דאטה וטבלאות סיכום במטרה לתת מענה לשאילתות מורכבות. למודל הכוכב יש יתרונות וחסרונות – מחד מדובר במודל פשוט יחסית, שמקטין את הצורך באיחוד שדות בין שתי טבלאות על סמך ערכים משותפים, משפט מודלים מורכבים, משמש גם כמקור נתונים לבסיס נתונים רב-ממדי אשר נותן מענה לשאילתות מורכבות, ומאידך כדי לתת מענה לאותה מורכבות שנדרשת ברמת הניתוח הוא משכפל נתונים ולכן צורך שטחי אחסון נרחבים. כמו כן כפועל יוצא מפעולת השכפול, תתכן אפשרות להיעדר עקביות וכן שימוש בטבלאות סיכום רבות.

מודלים נוספים לניהול מחסני נתונים

סכמת פתיתי שלג

דומה בצורתה לסכמת הכוכב אך מבוססת על ממדים המנורמלים למספר טבלאות המקושרות ביניהן, ולכן מאופיינת ברמת סיעוף גבוהה הנוצרת כתוצאה מריבוי רמות קשר בין נתונים שונים. הסכמה משמשת בעיקר מחסני נתונים רב-ממדים ומערכות ענפיות לשליפה מהירה של נתונים, נהוג לבחור עיצוב סכמת פתיתי שלג, כאשר נדרש להפיק שאילתות מורכבות.

סכמת גלקסיה

נקראת גם סכמה מרובת כוכבים או סכמת מרובה כוכב, ומשמשת אף היא לניתוחים מורכבים רב-ממדיים הדורשים יותר משאילתת SQL אחת וכוללת שתי טבלאות נתונים החולקות טבלאות ממדים. נהוג לבצע בה שימוש בשאילתות מורכבות מאוד, כיוון שהיא מקשרת בין מספר מערכות של מחסני נתונים, שחולקות טבלאות ממדי נתונים משותפות.

מדוע מערכת ה-BI של Qlik עדיפה לניהול מחסני נתונים

Qlik מבוססת על טכנולוגיית זיכרון ליצירת קבצים פנימיים, אשר מתפקדים כמחסן נתונים רגיל דמוי מסד נתונים. זהו פתרון "היברידי" המשמש הן לאחסון נתונים והן ככלי לדיווח גמיש. כאשר בבסיס המערכת פועל מנוע אסוציאטיבי (פטנט רשום) אשר מעבד מידע ומציג אותו בהקשר הנכון גם אם לא חשבת לתחקר לגביו, ובחזית המערכת ישנו יישום אינטרנטי (דשבורדים) שמשמשת כסביבה לחקירת וניתוח דאטה במספר רמות ורבדים, ללא הגבלת שאילתה, וללא תלות באנשי פיתוח. הפלטפורמה של Qlik מתממשקת לאינספור מקורות פנים ארגוניים (גיליונות אקסל אלקטרוניים, תיקיות, קובצים) ואינספור מקורות חיצוניים (פורטלים, תיבות דואר, אתרי אינטרנט, רשתות חברתיות), כך שכל המידע מאוחסן במקום אחד ונגיש למשתמשי הארגון בהתאם להגדרות התפקיד ולרמת האבטחה שלהם. נוסף על כך חקירת הדאטה מתאפשרת בכל כיוון שבו יבחר המשתמש על ידי הקלדת ערך אקראי או על ידי הקלדה של שאלה גם אם מדובר בשאלה מורכבת ביותר – אשר מצריכה שימוש במספר טבלאות המגיעות ממספר מאגרי נתונים. בדרך זו הפלטפורמה מאפשרת לחקור דאטה במספר "שכבות ידע" ולהתמודד גם עם מודלים מורכבים ביותר ועם מאגרי מידע מרובים מאוד, כדוגמת מודל הגלקסיה.

כריית נתונים ומידע (Data Mining) המחצבים החשובים ביותר של ימינו

כותב: moransinay2103@gmail.com

כריית מידע (Data Mining) או בשמו הנוסף כריית נתונים זהו כלי אוטומטי, רב-עוצמה, המסייע לזהות מגמות ודפוסים קיימים בין אינסוף רשומות בבסיסי הנתונים (Data Base). תהליך הזיהוי והניתוח נעשה באמצעות הצלבת נתונים. תוצרי התהליך מאפשרים לקבל החלטות עסקיות מבוססות ידע. כריית הנתונים המודרנית, זו המאפיינת את תקופתנו באה לתת מענה לפער שהיה עד כה בשוק. אם בעבר תהליך ניתוח הנתונים התבסס בעיקרו על שיטות מסורתיות מבוססות סטטיסטיקה, הרי שהיום, כשמאגרי המידע רק צוברים עוד ועוד נתונים, נדרש היה לבנות מודל חדש, שישמש עבור כריית מידע (Data Mining), ינתח אותו ויסייע בניתוח מידע. המודל החדש מבוסס על בינה מלאכותית ואלגוריתמים מתמטיים במטרה להפוך מידע מבוזר למידע מאורגן, שבאמצעותו ניתן היה לייעל תהליכים עסקיים. מעבר לכך, ברמה העסקית היום-יומית, הרי שכריית מידע נוכחת בעולם העסקי במספר תצורות ובעיקר בתצורתה השיווקית, כי הרי היום עסקים נעזרים בכריית נתונים כדי להתאים טוב יותר המסרים השיווקיים ללקוחותיהם, להציע להם מוצרים ושירותים על סמך פרופיל אישי ולתקשר איתם באופן שוטף. שימוש אחר הנוגע לכריית מידע (Data Mining) מזוהה עם פעילות פיננסית בקרב בנקים וחברות ביטוח, אשר נעזרים באלגוריתמים מתמטיים הנוגעים ל data mining- כדי לזהות הונאות עסקיות וחריגות כספיות. אך מעבר לכך כריית מידע (Data Mining) הוא מדע הנתונים החדש, שבאמצעותו ניתן להגיע לתובנות בכל תחום.

[toc]

כיצד התפתח תחום כריית מידע (Data Mining)

בטרום עידן המחשב, דפוסים שונים בין פיסות של מידע זוהו באופן "ידני" כלומר אנשים ליקטו מידע ממקורות שונים, חלקם גלויים וחלקם סמויים (ממש בדומה לפעולת מודיעין) הצליבו בין הנתונים שנאספו ודנו עליהם. ההיסטוריה מלמדת שבמאה ה-18 נעזרו בחוק בייס – חישוב הסתברות מותנית של אירוע בתנאי שידועות ההסתברויות ההפוכות. ובמאה ה-19 הוחלט לבצע ניתוחי רגרסיה באמצעות מודלים סטטיסטיים, שמטרתם להעריך קשרים בין משתנים. עם כניסת רשתות המחשוב וצמיחה בנפח המידע התהליך הידני לא נתן מענה מספק, הן מבחינת יכולת איסוף המידע והן מבחינת מהירות הניתוח ונדרש למצוא פתרון אוטומטי יותר, שהתבסס על עיבוד מידע נוירונים, אלגוריתמים גנטיים, ניתוח אשכולות, עצי החלטה ווקטורים תומכים. כל אלו אפשרו לזהות מגמות ודפוסים באמצעות כריית מידע (Data Mining) בצורה ממוחשבת – מהלך שכבר הוטמע בעסקים רבים כבר בשלהי שנות ה-80 של המאה הקודמת. וכבר אז ממשלות נעזרו במידע שנאסף כדי לנתח את האוכלוסייה וחברות קמעונאיות ניתחו את תכולת הקניות של לקוחותיהם.

היכנסו ללמוד על קליקסנס מערכת ה BI המתקדמת של Qlik>>>

שיטות מוקדמות לכריית נתונים

חוק בייס

חוק בייס ידוע גם בשם נוסחת בייס על שם המתמטיקאי האנגלי תומאס בייס, שהתגלתה במאמר אקדמי על פתרון בעיה בתורת הסיכויים, אשר פורסם ב-1764. על פי חוק בייס ניתן לחשב תוצאה או אירוע בהסתברות כל עוד יודעים מהן ההסתברויות ההפוכות. כך למשל אם בעיר מסוימת יש שני סופרמרקטים גדולים, כאשר 60% מבין התושבים רוכשים באופן קבוע בסופרמרקט הגדול, ואילו השאר רוכשים באופן קבוע בסופרמרקט הקטן, ובסקר שביעות רצון נמצא כי דווקא אלו שרוכשים באופן קבוע בסופר מרקט השני מרוצים יותר (90% שביעות רצון בסופרמרקט הקטן לעומת 80% שביעות רצון בסופרמרקט הגדול) ניתן לקבוע – שהשירות של הסופרמרקט הקטן טוב יותר. האם אמרה זו נכונה? ובכן לצורך כך מכניסים נתונים לנוסחת בייס , אשר בוחנת את היחס בין הקבוצות השונות ואת רמת שביעות הרצון שלהן. לאחר מכן מכניסים את הנתונים לנוסחת ההסתברות השלמה – כיוון שמכירים את ההסתברות ההפוכה להיתכנות של "האירוע" (=הקביעה הנוגעת לשביעות הרצון של הלקוחות) ומפריכים את הטענה או מאששים אותה.

ניתוח רגרסיה

ניתוח רגרסיה ובשמו הלועזי regression analysis הוא ניתוח סטטיסטי, שבדרך כלל נעשה באמצעות מחשב, המודד יחסים בין שני משתנים או יותר מן העבר, במטרה לחזות מגמות עתידיות, למשל יחס בין המכירות של השנה הקודמת ) בניתוחי רגרסיה של משתנה תלוי (משתנים לא ידועים) וגורמים ידועים (המשתנה הבלתי-תלוי, במקרה שלנו – המכירות בשנה הקודמת). משוואה מתמטית מסייעת לבטא את הקשר בין שני הגורמים. ברגרסיה פשוטה – ההשוואה בין שני המשתנים נוגעת למשתנה ידע אחד (נקרא גם משתנה מוסבר) לבין משתנה בלתי-ידוע אחר (נקרא גם משתנה בלתי-מוסבר), ואילו ברגרסיה רבת-משתנים ההשוואה נעשית בין משתנה תלוי אחד לבין מספר משתנים בלתי-תלויים כמו למשל מציאת קשר בין מכירה של מוצר מסוים ביחס לגיל, מין ומצב כלכלי של קבוצת אוכלוסייה. דרך נוספת להיעזר במודל הרגרסיה נעשית כדי להסיק סיבה להיתכנות של מצב מסוים, גם כאן בהשוואה בין משתנים "מסבירים" לבין משתנים "מוסברים" (למה אדם חלה למשל) או מה הסיבה שתרמה להחלמה או לבריאותו של אדם. יש לציין, שמדובר על מודל סטטיסטי, ולכן הוא נשען על הנחות בלבד ולא על אמיתות מוצקות.

ניתוח אשכולות

ניתוח אשכולות מתייחס לחלוקה של עצמים דומים לקבוצות שונות. כאשר כל קבוצה שומרת על זהות מסוימת בין סך חלקיה. כך למשל : קבוצת בנות לעומת קבוצת בנים, קבוצת בגדים כהים לעומת קבוצת בגדים בהירים וכן הלאה. ניתוח אשכולות משמש רבות את תחומי השיווק ובעיקר את תחום ניתוח התנהגות הצרכנים וזאת באמצעות פילוח האוכלוסייה על פי תכונות דמוגרפיות שונות או לפי הרגלי צריכה. ניתוח אשכולות אף משמש את המדע. כך למשל חוקרים ביולוגים מחלקים את המידע הגנטי לאשכולות שונים וזאת כדי לאתר זנים מסוימים או תתי-אוכלוסיות. גם בתחומי המחקר הסוציולוגי נעשה שימוש במודל כריית מידע (Data Mining) זה, כיוון שכדי להסביר את השוני בין קבוצות שונות ואף בין פרטים בתוך הקבוצה, מחלקים את האוכלוסייה הנחקרת לאשכולות ביחס לקשרים בין-אישיים (קבוצת אבות-בנים, קבוצת אימהות נתונים-בנות, קבוצות אחים וכן הלאה). קיבוץ האשכולות נחלק לשני סוגים: הראשון – קיבוץ קשה, כאשר כל עצם או ישות שייך לאשכול אחד והשני – קיבוץ רך כאשר כל עצם או ישות משויך למספר אשכולות עלפי דרגת שייכות. ישנם מספר מודלים לניתוח אשכולות, ביניהם מודל הקישוריות, הבוחן את המרחק בין העצמים/ ישויות שונות מההיבט ההיררכי. מודל מרכז הכובד, שבוחן את ההתפלגות הסטטיסטית של חברי האשכול, מודל הצפיפות, שבוחן את האזור בו מתקבצים מספר רב של עצמים, ומודל תורת הגרפים, הבוחן את הקבוצה ביחס למיקומה בין צמתים בתוך גרף אחד.

עץ החלטה

עץ החלטה (ידוע גם כעץ רגרסיה או עץ סיווג) הוא מודל חיזוי סטטיסטי בתחום כריית מידע (Data Mining) והלמידה החישובית ומשמש כמודל לחיזוי על בסיס מיפוי תצפיות והתאמה בין ערכים, כאשר "עלי העץ" מייצגים סיווגים שונים ו-"ענפי העץ" מייצגים צירופי תכונות, שיחלקו את הסיווג. במודלים של כריית נתונים או כריית מידע (Data Mining) עץ ההחלטות משמש לתיאור הנתונים ובמודלים של ניתוח החלטות, עץ ההחלטות משמש ככלי להדמיה חזותית. קיימים שני סוגי חיזוי לעצי החלטה – עץ רגרסיה (העוסק בערך רציף), עץ סיווג (העוסק בערך בדיד) ועץ CART Classification And Regression Tree אשר משלב בין שני סוגי החיזוי. כיום ישנם אלגוריתמים הלומדים כיצד לקבל החלטות על בסיס נתונים, שמתפצלים בין קבוצת המקור לתתי קבוצות בתהליך הולך-וחוזר גם בתתי הקבוצות בתוך העץ (תהליך זה נקרא מחיצות רקורסיביות) .במדע כריית נתונים ניתן למצוא עצי החלטה משני סוגים: הראשון – עץ סיווג עם תוצאה צפויה והשני – עץ רגרסיה כאשר התוצאה משקפת מספר ממשי (עלות של מוצר, מספר רץ בתור וכן הלאה).

מכונת תמך וקטורי

זוהי שיטה ללמידה מונחית המשמשת הן לסיווג ולרגרסיה והן לניתוח נתונים. השיטה נקראת באנגלית: Support Vector Machine SVM-. הדוגמאות בשיטה זו מסווגות ל"חיובי" ול"שלילי" ומיוצגות כווקטורים במרחב לינארי. כאשר במרחב ה-SVM נוצר וקטור שמשמש כמפריד הלינארי כלומר הוא מחלק את המרחב לשני חצאים, שנצבעים בשני צבעים שונים, והמטרה של המודל היא לסווג את שייכות הנקודות החדשות (אירועים, פרטים, עצמים וכן הלאה) לכל מרחב.. ובמילים אחרות האם דואר חדש שנכנס מסווג כספאם או לא? האם מוטציה בגן תגרום למחלה או לא? וכן הלאה. ישנם מנתחי נתונים, המבצעים שימוש ב- SVM גם למטרות לא-ליניאריות באמצעות הוספת "גרעין" (Kernel) הממפה את הקלט. את ה-SVM מחלקים לשני סוגי הפרדה: הפרדה קשיחה והפרדה רכה:
הפרדה קשיחה – חלוקת אזורי החלוקה לשוליים רחוקים ושוליים קרובים, כך שלא רק שקיים סיווג ראשוני לשתי קבוצות שונות אלא קיים סיווג משני שמתייחס לאובייקטים בתוך הקבוצה עצמה.
הפרדה רכה – מתייחסת לרוחב השוליים ונסמכת על פונקציה מרחיבה, שמתאימה לבעיות ללא הפרדה-ליניארית.

היכנסו ללמוד על ביג דאטה כאן>>>

אילו מודלים של כריית מידע (Data Mining) קיימים

מודלים תיאוריים

מודלים המתייחסים לסיווג דפוסים ופילוחים ומתבססים על ניתוח אשכולות. בדומה לשיטת כריית נתונים או כריית מידע (Data Mining) המבוססת על אשכולות, גם כאן הרעיון מאחורי הסיווג והפילוח נוגע לחלוקת האובייקטים בתוך האשכולות עצמם ולניתוחם על ידי אלגוריתם ייעודי. תוצאות המודל מספקות מידע על אירועים מהעבר הרחוק והקרוב וכן מאפשרות לקבל תשובות לשאלות שיעלו בעתיד באמצעות נתונים היסטוריים בעיקרון המנחה לקבלת ההחלטה. מודלים תיאוריים משמשים בדרך כלל ליצירת מתאמים, טבלאות צולבות ובחינת תדירות של אירוע מסוים, באמצעותן ניתן לחשוף דפוסים.

מודלים לחיזוי

מטרתם של מודלים אלו היא לחזות תוצאות עתידיות ולאו דווקא התנהגות עכשווית. בשימוש במודלים לחיזוי מעוניינים לענות על שאלות הנוגעות לתרחישים עתידיים כמו "מה עלול לקרות"? ו-"מדוע תרחיש מסוים עלול לקרות"? במודל לחיזוי כריית נתונים או כריית מידע (Data Mining) נעשה סיווג, ניתוח סדרות זמן ורגרסיה – זאת כדי למצוא דפוסים, שחוזרים על עצמם או אירועים מבדלים. מידול הנתונים נעשה באמצעות שימוש במשתנים מסוימים במטרה לצפות בערכי נתונים עתידיים בלתי-ידועים עבור משתנים אחרים.

מודלים לכריית דפוסים

כשמם כן הם, מודלים שכל מטרתם היא לזהות דפוסים בתוך מסדי נתונים רחבי היקף. הדפוסים עצמם עשויים להעיד על חוקיות מסוימת בדאטה וכן הקשרים וקישורים שלא בהכרח ניתנים להסקה באופן ראשוני. בדרך זו נחשף מידע, שלא ניתן היה לצפות אותו ויש בכוחו למנוע שגיאות, סיכונים, תקלות ופגמים.

מודלים לזיהוי אנומליה

מודלים אלו נוצרו כדי לזהות תוצאות חריגות, שלא בהכרח מתכנסות לתבניות, אשכולות, תצפיות או דפוסים צפויים, אלו למעשה המודלים המשלימים למודל התיאורי, מודל החיזוי ומודל כריית נתונים או בשמו האחר מודל כריית מידע (Data Mining). השימוש במודלים אלו מסייע לגלות תקלות, בעיות וסטיות מתוצאות התקן. כך למשל בעיה בתעבורת מידע ברשת עלולה לרמז על מתקפת האקרים, חריגה בתוצאה של בדיקה רפואית עשויה להעיד על מחלה. ישנן שלוש שיטות לזיהוי אנומליות:

שיטות לא-מונחות (unsupervised)- שמבוססות על ההנחה כי מרבית התצפיות במסד הנתונים מייצגות מקרים תקינים או נורמליים. בשיטות אלו משתמשים בשיטת ניתוח האשכולות, אשר מסווגת ומשייכת את המקרים השונים לקבוצות. מה שלא ניתן לסווג או לשייך – נחשב באנומליה.
שיטות מונחות (supervised)- נעשות כאשר התצפיות בבסיס הנתונים מסווגות לשני סוגים: תצפיות "נורמליות" ותצפיות "לא נורמליות". בשיטות אלו נעזרים בלמידה חישובית לאימון מסווגים כדי לאתר מקרים חדשים, שטרם עלו בתהליך הלמידה.
שיטות מונחות למחצה (semi-supervised)- מבוססת על מודל הבוחן דפוסים של התנהגות נורמלית ובוחן אותם אל מול תצפיות חדשות.

כיצד מתבצע תהליך כריית מידע (Data Mining)

עיבוד המידע

תהליך עיבוד המידע נחלק לשלושה שלבים: איתור דפוסים, סינון נתונים ויצירת וקטורים מאפיינים לתצפיות:

איתור דפוסים- כריית מידע או כריית נתונים נסמכת על איתור דפוסים ותבניות בבסיס הנתונים רחב-היקף כמו מחסן נתונים או מחסן נתונים מחלקתי. כשבסיס הנתונים רחב דיו הוא יכיל ברוב המקרים את מרב התבניות.
סינון נתונים- השלב הבא נוגע ל"ביצוע ניקיון" בדאטה. כעת מסוננים כל הנתונים, שאינם מציגים מידע מלא או שמייצרים "רעש" במערכת.
בשלב השלישי מיוצרים וקטורים מאפיינים (Feature vector) לכל תצפית ותצפית, הווקטור עצמו מבטא את סיכום רשומת התצפית. הווקטורים מסייעים להפחית את היקף הנתונים ובעצם מקבצים אותם תחת פרטים מזהים (למשל תמונה של 1000 פיקסלים, תקובץ לפי מזהה עיניים ושפתיים, וכך ניתן יהיה לגשת לנתונים באמצעות עיבוד מזערי בלבד). האפיון הנכון של הווקטורים משמעותי מאוד לתהליך ונחלק לשתי סדרות : סדרת אימון, אשר משמשת את האלגוריתם עצמו וסדרת הבדיקה, אשר מסייעת לאמת את רמת הדיוק בתוך התבניות.

כריית מידע (Data Mining)

כריית מידע (Data Mining) או כריית נתונים הוא תהליך כולל למציאת דפוסים, תבניות ואנומליות בתוך מסדי נתונים גדולים. תפקידה של כריית מידע (Data Mining) לטפל בארבע בעיות עיקריות: סיווג, ניתוח אשכולות, רגרסיה ולמידת חוקי האסוציאציה

טיפול בבעיות סיווג- בעיקר בכל הקשור לפעולתו של האלגוריתם לסיווג מקרים חדשים באמצעות "עצי החלטה", "שיטת השכן הקרוב", "סיווג בייס נאיבי" ורשת עצבית מלאכותית. שימושים נפוצים: ניבוי יכולת החזר של הלוואה עתידית.
ניתוח אשכולות- האשכולות מקבצים עצמים או ישויות עם מאפיינים קרובים או דומים. כך שניתן באמצעות אלגוריתם לאפיין כל אשכול ואשכול ולסווג אותו. שימושים נפוצים: אפיון מערך הלקוחות בחברה.
ניתוחי רגרסיה- צמצום שגיאות הניבוי באמצעות פונקציית רגרסיה לינארית.
למידת חוקי אסוציאציה- מציאת הקשרים, חוקיות מסוימת וחזרתיות בתוך הנתונים השונים. כל למשל ניתן לדעת אם לקוח רוכש מספר מוצרים קבועים יחדיו, ובניתוח רחב של כלל הקניות שלנו ניתן לדעת אם ישנם שני פריטים התלויים זה בזה כמו פסטה ורוטב עגבניות. באמצעות המידע שהתקבל ניתן להציע לו סל קניות דיגיטלי מובנה מראש או אף לסדר את המוצרים במרכול בהתאם להרגלי הצריכה.

אימות התוצאות

זהו השלב האחרון בהפיכת נתונים לידע ומטרתו לאמת את התבניות, שנמצאו על ידי האלגוריתם. יש לציין שלא כל התבניות בהכרח מאומתות, וזאת כיוון שיש תבניות, שסובלות מתופעה שנקראת "התאמת יתר" – בעיית יסוד במדע הסטטיסטיקה שנוגעת להתאמה יתרה של נתונים למודל מסוים (בדרך כלל במודל האימון) ולכן במצב זה לא ניתן להסתמך על הנתונים לצורך ביצוע תצפיות. הדרך להימנע מהתאמת יתר היא לקבוע את המודל על בסיס מספר מוגבל של מאפיינים, שיאפשר למפות ולסנן בהמשך את "הרעש" הסטטיסטי ואת המידע החסר. מעבר לכך, ניתן לבצע בדיקה נוספת של האלגוריתם על תרחישים, שטרם נבדקו וזאת במטרה להשוות בין פלט סדרת הבדיקה לפלט סדרת האימון ולחלץ משם את "הרעש הסטטיסטי", שהוא למעשה המידע הלא-רצוי.

לקריאה כיצד מערכות ה BI של Qlik תורמות להפקת נתונים>>>

איך לבחור אלגוריתם לכריית נתונים

סיווג

בעיות בסיווג עלולות לצוץ כאשר קיימת בעיה במתאם בין הנתונים. כך למשל כאשר ישנם נתונים סטוכטיים, או כאשר מעוניינים ליצור איזשהו רצף, סדרה או להבין דפוס בין נתונים. לצורך כך מומלץ להיעזר במודל עץ ההחלטה, המסייע בקבלת החלטות ובזיהוי אסטרטגיה להשגת המטרה. מודל זה רווח מאוד בכל הקשור ללמידת מכונה. כמו כן מומלץ להיעזר במודל SGD ירידת שיפוע סטוכטית (הכוונה לקבוצת נתונים, שנבחרה באופן אקראי), אשר פועלת בשיטה של ייעול פונקציות ומתאימה לטיפול בבעיות אופטימיזציה רחבות היקף. מודלים נוספים הם סיווג ביסיאני נאיבי המבוסס על חוק בייס ומסייע בסיווג טקסט לקטגוריות וכן אלגוריתם "השכן הקרוב" המסייע לסווג רגרסיה מקומית ומבוסס על חישובי ממוצעים.

קישור

במקרים בהם קיימת איזושהי אינטראקציה מורכבת בין תכונות ניתן לבחור בכל אלגוריתם המתייחס לנתון זה. אך כדי להגיע להחלטה הנכונה ביותר חשוב לבחון מספר אלגוריתמים על בסיס הנתונים. האלגוריתמים שיתאימו במקרים אלו עבור כריית נתונים הם עצי החלטה (המבוססים על צמתים בינאריים, הבודקים קיומם של תנאים), רשתות נוירונים (אשר מפשטות משימות מורכבות). כמו כן מומלץ לבחון אלגוריתמים המתבססים על פונקציות ליניאריות או על פונקציות מרחק.

דפוסים עוקבים

דפוסים עוקבים נוגעים לחוקיות ולתבנית מסוימת כך למשל קיום קשר בין שני פרטים שתלויים זה בזה ולכן מומלץ לבחון אלגוריתמים הנוגעים לביצוע מחרוזות חיפוש ולזיהוי תבניות עבור כריית נתונים כמו : Naïve string-search algorithm, או אלגוריתם Rabin–Karp שמסנן במהירות טקסטים לתבניות ובודק את התאמת מיקומם או אלגוריתם Knuth – Morris – Pratt אשר עוקב אחרי תווים מסוימים ומחפש התאמה בין מחרוזות שונות.

הקצבה

כאשר המטרה העסקית נוגעת להקשרים של מידע, הרי שמוטב להיעזר במודלים הנוגעים להקבצות של מידע באשכולות, כלומר שעצמים שונים בתוך הדאטה נחלקים לקבוצות שונות על סמך קרבה או זהות מסוימת. אשכולות אלו עשויים להיות היררכיים, מבוססי הפצה או שיטות חלוקה, מודל הצפיפות, וכן הלאה. מומלץ להיעזר במודלים המסייעים בפילוח של מידע בפורמטים שונים, טקסט, שמע, תמונה, וידאו ולהתאים את הבחירה למטרה העסקית. כך למשל זיהוי של פערים בביקוש ביחס למדדי העבר או שימוש באשכולות למתן המלצות ללקוחות וכן הלאה.

אז למה קליק Qlik?

עסקים נעזרים בטכניקות לניתוח סטטיסטי כדי לזהות דפוסים והקשרים בין נתונים היסטוריים וכדי לנתח התנהגות לקוחות, לגלות הונאות, לדרג אשראי, לחזות רמות מלאי, לנהל משאבים ותחזוקה וכן לנבות תרחישים עתידיים. קליק יצרה תוכנה לניתוח מידע, אשר מתאימה גם למשתמשים ללא רקע טכני, תוכנה המשלבת בין "מכונה לומדת" ל"חוכמה אנושית" – תוכנה המחליפה את מהנדסי הנתונים, מייצרת דוחות ומאפשרת את ביצוע הניתוח באופן עצמאי על בסיס לוח המחוונים (הדשבורד) עצמו, שאליו ניתן להתחבר מכל מכשיר המחובר לרשת האינטרנט ובאופן מוצפן. פלטפורמת ה-BI של קליק מהדור החדש מאפשרת לארגונים גדולים וקטנים לבנות את מערכי הנתונים שלהם ממגוון מקורות ולבצע ניתוח חזותי של מסדי נתונים גדולים. נוסף על כך, הפלטפורמה מעמידה לרשותם כלי מחקר נתונים אינטואיטיביים, המאפשרים להם לאתר את הנתונים הדרושים להם במהירות ובקלות ולשקלל את תהליכי הניבוי באמצעות מרכיב המכונה הלומדת.

Qlik Sense, פלטפורמת ה- BI והניתוח המובילה בתעשייה מצוידת במנוע אסוציאטיבי, רכיב AI מוגן בפטנט ויחיד במינו בעל ארכיטקטורה מתוחכמת המאפשרת למשתמשים לחקור את הדאטה בחופשיות מלאה, לבנות דוחות, מצגות, תרשימים וגרפים, ואף להניע תהליכים מתוך הדשבורד עצמו. נוסף על כך משתמשי המערכת יכולים לטעון נתונים, לשנות אותם ואף להעשירם בקלות ובכך למנף את ניתוח המידע, לגלות מידע נסתר ולהגיע לתובנות עסקיות – ללא כל צורך בתסריטים מורכבים.

מה הם בסיסי נתונים ואיך מנהלים אותם?

כותב: moransinay2103@gmail.com

מסד נתונים או בשמו האחר בסיס נתונים הוא מאגר מידע, המנקז אליו נתונים מאינספור מקורות. נתונים אלו יכולים להיות פנים ארגוניים כמו רשימות, טבלאות, מעקב אחר נושאים שונים או חוץ ארגוניים כמו ניתוח מידע מפורטלים אינטרנטיים, ניתוח מידע על מתחרים, מעקב אחר לידים ברשתות החברתיות ובקמפיינים השיווקיים וכן הלאה. באמצעות מערכות בסיסי הנתונים הארגון מפיק דוחות בנושאים הנוגעים לניהול השוטף, כך למשל הארגון יכול לעקוב אחר מצבת המלאי של פריטים מסוימים, ניצול שעות עבודה, היקף מכירות, מעקב אחר תקציב, ריכוז וניתוח מידע אודות הלקוחות וכן הלאה. על מנת להבטיח את אמינות הנתונים נדרש להסתייע במערכות בסיסי נתונים.

[toc]

מההיבט הטכנולוגי מסד הנתונים מבוסס על תוכנה, המאחסנת את המידע, מנהלת אותו ומאפשרת את שליפתו לצורך ניתוח מידע, הפקת דוחות, תרשימים, טבלאות. ארגונים קטנים מסתפקים בקבצי אקסל או אקסס, ובהם ניתן להציג את המידע במגוון דרכים, לנתח אותו ולבצע עליו חישובים. לעומתם ארגונים גדולים נדרשים למערכות בסיסי נתונים במטרה להתמודד עם היקפי מסדי המידע, המשמשים אותם ולממש יכולות מתקדמות, ביניהן התממשקות אל מערכות בסיסי נתונים אחרות בארגון, סינון ומיון של מידע, ניתוח מידע מובנה והצגתו בלוח מחוונים (דשבורד) ייעודי, המשמש לקבלת החלטות.

לעוד פרטים על מערכות ניהול בסיסי נתונים של Qlik צרו איתנו קשר כאן

הנה שתי דוגמאות לשימושים במסדי נתונים: הדוגמה הראשונה עוסקת בגורם חוץ ארגוני, המעוניין לקבל ניתוח מידע בנוגע לפריט מסוים. כך למשל לקוח קבוע בעל הסכם מסגרת, המעוניין לבצע הזמנת רכש לארגון שלו דרך פורטל מכירות, יוכל לצפות ברשימה מובנית של פריטים ומחירים התואמים את החוזה, שחתם עם המוכר. מאחורי הקלעים של תצוגה זו פועל מסד נתונים, אשר אוסף את הנתונים התואמים את שאילתת החיפוש של הרוכש באופן אוטומטי.

דוגמה אחרת עוסקת בשימוש של ניתוח מידע לצרכים פנים ארגוניים, כך למשל מנהל המחסן מעוניין לעקוב אחר לוטים, שתוקפם עתיד לפוג בחודש הקרוב. לצורך כך הוא מריץ שאילתה בלוח המחוונים (דשבורד) במערכת ה-BI. במקביל מסד הנתונים מושך את רשימת הפריטים בהתאם לפריטי השאילתה: סוג הפריט, המחסן ומועד התוקף.

אילו מודלים של בסיסי נתונים קיימים

בסיסי הנתונים מסווגים לשתי קטגוריות: מסד נתונים רלציוני (Relational database) ומסד נתונים שאינו רלציוני (Non-relational database) . שני מסדי הנתונים נבדלים זה מזה בשני מאפיינים:

באופן בו הם מסווגים את המידע – מסדי נתונים רלציונים מסווגים מידע בטבלאות ובסכמות ומושכים אותו באמצעות קוד, לעומתם מסכי נתונים לא-רלציונים מסווגים מידע בצורת מסמך, כ"משפחה" או ערכי מפתח שונים, במטרה לרכז מידע ממגוון רחב של מקורות וממגוון רחב של פורמטים
בקיבולת שלהם- כך למשל מסדי נתונים רלציונים פועלים על שרת אחד ואילו מסדי נתונים לא-רלציונים יכולים לפעול על מספר רב של שרתים.

מה זה בסיס נתונים רלציוני

בסיס נתונים רלציוני (Relational database) – ידוע גם כ – RDBMS ובנוי על בסיס טבלאות, כאשר כל טבלה מרכזת נתונים על ישות מסוימת במערכת, כך למשל: טבלה המרכזת את שמות אנשי המכירות, טבלה המרכזת קטגוריה של מוצרים, טבלה עם רשימת לקוחות, רשימת ספקים וכן הלאה. לכל ישות במערכת מצורף קוד זיהוי (מספר קטלוגי, מספר זהות, מספר לקוח, מספר הזמנה וכן הלאה) כך שבעת ההקלדה של הקוד המזהה, נשלף המידע המקושר אליו בסכמה- כלומר- היקף המכירות, שבוצעו בסניף X, בתאריך Y על ידי מוכרן Z מאפיין זה מקל על תהליך ניתוח המידע. כדי לוודא שהמידע הנמשך לשדה בבסיס הנתונים מהימן ותואם יש להגדיר את השדה מבעוד מועד, כך למשל תאריך מופיע בפורמט מסוים וכולל ספרות בלבד, תעודת זהות מוגבלת לתשעה תווים ושדה של שם יכלול אותיות בלבד ללא מספרים. יתרון נוסף שיש לבסיס נתונים זה הוא היכולת לקשר בין טבלאות שונות, כך למשל, פריטי "אב" בעץ מוצר יקושרו לטבלאות הנוגעות לפרטי "הבנים". ישנם מספר בסיסי נתונים רלציונים, הידועים ביניהם הם: SQL Server, MySQL, , DB2, PostgreSQL Oracle ו-IBM.

MySQL – מסד נתונים המבוסס על שפת המחשב לעיבוד מידע – (SQL (Structured Query Language נמצא בבעלותה של חברת התוכנה Oracle. התוכנה מהווה את הבסיס לאתרי תוכן רווחים כמו אתר "ויקיפדיה", מערכות בסיסי נתונים לניהול תוכן שונות, על בסיס דפי האינטרנט, כמו וורדפרס וכמו דרופל. פועלת על מספר פלטפורמות ביניהן Linux, OpenBSD , OpenServer, SCO UnixWare ומערכת Windows על גרסאותיה השונות. המערכת מופעלת על ידי רישוי חופשי או על ידי רישוי מסחרי- והדבר נתון לבחירת המשתמשים.
אורקל (ORACLE) – מערכת ניהול עבור מסדי נתונים מבוססי טבלאות. המערכת בנויה משני חלקים- הראשון הוא רכיב ה- Instance המורכב מ- DBWR ‏(database writer) , (system monitor) SMON ו- PMON (Process monitor) הרכיב השני נוגע לשטח האחסון. הנתונים נשמרים בשתי תצורות- הראשונה- טבלאית והשנייה על בסיס קבצי דאטה בייס (data base). השמירה הטבלאית מיוחסת ללוגיקה, הנובעת מסכמה של נתונים ואילו התצורה הפיזית- היא קצבי הדאטה. ניתן לבצע פעולות שונות על בסיס הנתונים, לרבות ניתוח נתונים קיבוץ והרחבה של מידע, כתיבת פרוצדורות חדשות וכן הלאה. התכנות נעשה באמצעות .JAVAהיתרון המרכזי של אורקל הוא בתמיכה במערכות ERP , שבאה לידי ביטוי ביכולת לפתח ולשנות את מסכי האפליקציה, ליצור טפסים, להפיק דוחות ולבצע פעולות נוספות. גלו את השילוב המושלם בין סגנון להגנה עם שלנו, תוך כדי הנאה מחוויית אידוי חלקה וטעימה שמציע בר אחד עשר. שדרגו את צרככם היומיומיים עוד היום!
DB2 – תוכנה טבלאית בפיתוח של IBM המתאימה למערכות הפעלה שונות כמו Windows, Linux ו- UNIXוכן למערכות בסיסי נתונים. היתרון המרכזי של DB2 הוא בכך שמדובר על אחד מבסיסי הנתונים הנפוצים ביותר שיש. המערכת מתעדכנת ומתפתחת באופן תדיר, בכל מהדורה מתווספים שימושים שונים, המקלים על תהליך הפיתוח ומרחיבים את התמיכה במערכות הפעלה שונות. שפת התכנות בניהול בסיס נתונים זה מבוססת על JAVA – שפת הבסיס למערכות בסיסי נתונים ומערכות המתמחות בניתוח נתונים.
Firebird – זהו בסיס נתונים חדש, המשמש הן כשרת והן כבסיס נתונים יחסי לפיתוח בקוד פתוח. לבסיס נתונים זה אפשר לכתוב פרוצדורות וטריגרים ויכולת מובנית לאתר שגיאות מערכת (באגים) ניתן לבצע בו פיתוחים במספר שפות פייתון, רובי C, c++, Java, #c, וכן הלאה. ה – Firebird משמש כשרת קלסי, סופר שרת עליו ניתן לבצע מספר ריצות (תהליכונים) ושרת סופר קלסי, שממצה באופן מיטבי את משאבי המערכת. הפיתוח נעשה באמצעות שפת ה-SQL.
Microsoft Access – זהו בסיס נתונים טבלאי עם ממשק משתמש גרפי עם יכולת לאסוף מידע בהיקף נרחב (מחולל יישומים) מתאים למשתמשים, אשר מכירים את יכולות הכלי ולעסקים בסדר גודל קטן עד בינוני. בסיס הנתונים כלול בסביבות ה- Professional של מייקרוסופט או נמכר בנפרד. ניתן לפתח באמצעותו יישומי תוכנה באמצעות שפת תכנות מונחית עצמים, אירועים ותסריטים משתנים (Visual Basic for Applications). ב- Access ניתן לייצר טבלאות, טפסים, דוחות, שאילתות ולתמוך בתהליכי אוטומציה באמצעות פקודות מאקרו או כתיבת תסריטים (סקריפטים) וכן ניתוח נתונים.
PostgreSQL – זוהי מערכת בסיסי נתונים בקוד פתוח, אשר נתמכת על ידי קהילת משתמשים ולא כפופה לאף חברה מסחרית (ממש בדומה לאפאצ'י, לינוקס וכן הלאה). היתרון המרכזי במערכת זו הוא בנק הידע הרב, שנוצר בבסיס שלה, וזאת בשונה מ- MYSQL, שכמעט ולא מקבל שום מידע מהקהילה, ואף היא הפועלת באמצעות רישיון פתוח. המערכת נוחה לשימוש, פועלת באמצעות שפות פיתוח רבות, וניתן להריץ אותה על מגוון פלטפורמות ולבצע בה תהליכי ניתוח נתונים.

מה זה בסיס נתונים לא-רלציוני

מסד נתונים לא-רלציוני (non-relational database) – זהו מסד נתונים רחב היקף, שידוע גם בשם NoSQL, שנועד לטפל במסות של מידע, שנכנסות למערכת בקצב מסחרר. המידע הנכנס למערכת מגוון ומגיע ממקורות רבים כמו- תגובות, לייקים, שיתופים ברשתות החברתיות, פורומים, טוקבקים, תמונות, קבצי טקסט, מידע טכנולוגי מקודד וכן הלאה. יש לציין, שהמידע עצמו אינו מאורגן בטבלאות אלא מסווג על פי ערכי מפתח מסוימים לעיתים על ידי סיווג "משפחתי" או על בסיס מסמך, שמהווה את המפתח של התוכן וזאת במטרה לנהל את הנתונים על מספר רב של שרתים ולבצע ניתוח מידע. היתרון המרכזי של מסדי נתוניםNOSQL בא לידי ביטוי ביכולת להקליד את הנתונים בכל תצורה ללא כלי כתיב נוקשים ומורכבים. בדרך זו ניתן לטפל בנתונים מובנים או שאינם מובנים בקלות ולכן לבצע ניתוח מידע וניתוח נתונים במהירות. בסיס נתונים NoSQL נחלק למספר סוגים, הנה העיקריים מבניהם:

Document – מסמכים, המטופלים במסד הנתונים, המקודדים בפורמטים או קידודים שונים כמו XML, YAML ו- JSON וצורות בינאריות כמו BSON. המסמכים עצמם מטופלים במסד הנתונים באמצעות מפתח ייחודי, המשמש לייצוג המסמך. ניתן לארגן את המידע במסמכים באמצעות: תגיות, אוספים, מטה-נתונים, שאינם נראים לעין ומילון מונחים קיימים מספר סוגים של מסמכים הינה העיקריים מבניהם:
1. MongoDB הוא מסד נתונים בקוד פתוח המיועד לטפל במסמכים במספר פלטפורמות. התוכנה מבצעת שימוש במסמכים דמויי JSON עם סכמות אופציונליות. MongoDB פותחה על ידי MongoDB Inc. ומורשית לשימוש באמצעות הרישיון הציבורי של שרת הצד (SSPL).
2. Qizx הוא מאגר XML קנייני המספק אחסון מקורי לנתוני XML.
3. אפאצ'י CouchDB -מסד נתונים מסוג NoSQL עם קוד פתוח, המיושם ב- Erlang.התוכנה נעזרת בפורמטים ופרוטוקולים כדי לאחסן, להעביר ולעבד נתונים וכן לבצע ניתוח נתונים. אחסון הנתונים מבוצע ב- JSON, כאשר השאילתות מיוצרות בשפת JavaScript.
4. Amazon DocumentDB הוא שירות מסדי נתונים קנייני מסוג NoSQL, התומך במבני נתוני מסמכים וכן מאפשר תמיכה מוגבלת בעומסי עבודה של MongoDB עד גרסת 3.6 של MongoDB (שוחררה בשנת 2017) וגרסה 4.0 (שוחררה בשנת 2018). DocumentDB משמשת לאחסון מסמכים, ומקלה על ביצוע האחסון ועל כתיבת שאילתות.
5. BaseX – מערכת ניהול מסדי נתונים XML מקומית וקלת משקל, אשר פותחה כפרויקט מקומי. ניתן לבצע בה אחסון, לפתח שאילתות ולבצע הדמיות של מסמכי XML ואוספים בהיקף נרחב. השימוש בה מוצר באמצעות רישיון תוכנה חופשי.
key-value – מסד נתונים של NoSQL, אשר מספק מנגנון לאחסון ושליפה של נתונים שאינם קשורים זה לזה באמצעות טבלה, ונמצאים במאגרי מידע יחסיים, ומשמשים יישומי מידע רחבי היקף. הנה חמש דוגמאות רווחות למסד זה:
1. Oracle – מאפשר לטפל בנתונים טבלאיים, ומאפשר להקים שאילתות, וביצוע מניפולציות של נתונים היררכיים ונתונים פשוטים.
2. Azure Cosmos DB – הוא שירות מסדי הנתונים הרב-מודליים המופץ בעולם. פיתוח מבית מיקרוסופט.
3. דינמו – זהו מאגר נתונים מבוזר בעל מאפיינים של מסדי נתונים וטבלאות מבוזרות. תחילה נוצר על מנת לתת מענה לבעיות טכניות באתר אמזון ולאחר מכן המשיך ועדיין ממשיך לשמש כשרת אחסון.
4. האפאצ'י של חברת Ignite – מסד הנתונים של אפאצ'י Ignite, שייך לפלטפורמות מחשוב בזיכרון ומשתמש ב- RAM כרובד האחסון המאחסן שכבות של נתונים.
5. Riak – מאגר נתונים מבוזר של ערכי מפתח מסוג NoSQL המציע זמינות גבוהה, ויכולת לנטר תקלות פשוטות ומורכבות. זמין בגרסת קוד פתוח וגרסה המוצעת לארגונים, ונתמכת באחסון באמצעות הענן.
wide column store – סוג של מסד נתונים NoSQL, המבצע שימוש בטבלאות, שורות ועמודות, אך בשונה ממסד נתונים יחסי, שמות העמודות עשויים להשתנות משורה לשורה באותה הטבלה וזאת כיוון שכל משפחת עמודות מאוחסנת בנפרד, והנתונים נשמרים בשורות נפרדות אך העמודות בכל שורה נתונה נשמרות יחד. Amazon DynamoDB Apache, Accumulo Apache ,Cassandra Apache ,HBaseataStax Enterprise הם רק חלק מהיישומים, הפועלים בשיטה זו.
Graph Store – מסדי נתונים, שבנויים על סכמה תלוית קשרים בין נתונים שונים. Graph Store כשמה כן היא נועדה להציג נתונים בתצורה של גרפים חזותיים. מסדי נתונים גרפיים כמו Datastax, Neo4J ו- Enterprise Graph, משמשים על מנת להתחקות אחר דפוס מסוים בבליל נתונים אקראי, שאינם מקיימים קשרים זה עם זה ומקלים על תהליך של ניתוח נתונים.
Object Database- כשמו כן הוא מאפשר שמירה וסידור המידע באמצעות הצגה של עצמים כמו אובייקטים, פונקציות או מבני נתונים. בשונה מניהול בסיסי נתונים יחסיים כל פיסת מידע מטופלת כיחידה נפרדת בתוך בסיס נתונים. לשימוש במסד נתונים זה ישנם שני יתרונות: ראשית נגישות גבוהה למידע ושנית זמינות גבוהה של נתונים. ניתן להקים שאילתות בבסיס הנתונים על בסיס עצם אחד ולייחד עצם אחר ממש באותה שאילתה: כך למשל: "על כל מי שמתגורר בתל אביב מלא שם רחוב ועבור כל שם של סוכן מכירות מלא את שם הסניף".

חלוקה של בסיסי נתונים לפי פעילות

בסיס נתונים אנליטי

בסיסי נתונים אופרטיביים

בסיסי נתונים אופרטיביים מאחסנים רשומות שונות באופן דינמי, כלומר, המידע המוצג למשתמש מתממשק עם פלטפורמות אחרות ומתעדכן בזמן אמת בהתאם לאירועים עסקיים שונים. כך למשל: אם לקוח ביצע רכישה דרך האתר, בסיס הנתונים יקבל את המידע ממערכת המכירות ויציג למשתמש את המלאי הזמין הנותר לאחר הרכישה. השימוש בבסיסי נתונים אופרטיביים נעשה, כאשר מעוניינים לעקוב אחר רשומות, שמשתנות באופן תדיר, כמו פריטים מסוימים במלאי, וכן כאשר מעוניינים להתריע על מחסור צפוי בפריט אחד או במספר פריטים. באמצעות ניהול בסיסי נתונים אופרטיביים, עסקים יכולים להבטיח עמידה באמות שירות ורמות מלאי התואמות את הביקוש השוטף ואף להיערך מבעוד מועד לעתיד לבוא. בשונה מניהול בסיסי נתונים אנליטיים, המיועדים להצגת המידע לצפייה בלבד, בניהול בסיסי נתונים אופרטיביים ניתן לעדכן מידע, להוסיף או למחוק רשומות.

חלוקה של מסדי נתונים נפוצים לפי סוגים

מסדי נתונים עיתיים (Temporal Databases)

מסד נתונים המתייחס לאירועים מנקודת מבט, הנוגעת לממד של הזמן. כלומר הנתונים המאוחסנים בו מיוחסים למשך הזמן, שנדרש לפעולה מסוימת. כך למשל: משך הזמן הנדרש לרישום של עסקה במערכת, משך הזמן הנדרש לקבלת החלטה וכן הלאה, משך הזמן שנתון נרשם כאמין וכן הלאה. המופעים או האירועים עשויים להיות בזמן עבר, הווה ועתיד. בראייה חד-זמנית, דו-זמנית ותלת-זמנית.

מסדי נתונים מבוזרים (Distributed Databases)

בסיס נתונים מבוזר, הוא למעשה מסד נתונים, הפזור בין שרתים שונים, אלו יכולים להיות שרתים פנים ארגוניים ובמקביל שרתים חוץ ארגוניים כמו שרתי הענן. האתגר המרכזי במסדי נתונים מבוזרים הוא לרכז את הנתונים ממגוון המקורות וליצור קשרים לוגים בדאטה בייס (Data Base). לשם כך מופעלת מערכת ניהול מרכזית, החולשת על השרתים השונים. עסקים הבוחרים במודל של מסדי נתונים מבוזרים נוהגים לעשות זאת משום שמדובר על מודל בטוח יחסית, המאפשר "לפזר את הסיכון".

מסדי נתונים אקטיביים (Active Databases)

אלו הם מסדי נתונים פעילים, אשר בבסיסם פועלת ארכיטקטורה בתצורה של כללי ECA קצרים, וכן טריגרים שמטרתם להגיב לאירועים שונים בתוך הדאטה בייס (data base). נהוג לבצע שימוש במסד נתונים אקטיבי, כאשר נדרשים לתגובה מהירה בזמן אמת במערכות אבטחה, התראה או לצורך אישורים ואיסוף מידע במערכות בסיסי נתונים. מסד נתונים אקטיבי רווח בתצורות שונות במאגרי הדאטה בייס (data base) העכשוויים.

מסדי נתונים שיתופיים (Cooperative Databases)

מסדי נתונים שיתופיים בנויים על מערכת ניהול (DBMS), המטפלת במטה-בסיסי נתונים שונים וממפה אותו לכדי מסד נתונים אחד מאוחד. הרשת מתחברת אל מאגרי מידע שונים, כאשר בדרך כלל מדובר על מחשבים בכל נקודה גאוגרפית בעולם וממזגת אותם באמצעות תהליך של הפשטה למסד נתונים וירטואלי. היתרון במסד נתונים שיתופי הוא ביכולת לאחזר בשאילתה אחת מידע המרוכז ממספר רב של דאטה בייסים (data base), כאשר מאחורי הקלעים מתבצע תהליך של פירוק השאילתה לשאילתות משנה. הדבר מקל על התהליך של ניתוח הנתונים.

מסדי נתונים הסתברותיים (Probabilistic Databases)

מסד נתונים הסתברותי, כשמו כן הוא, נוגע לנתונים הקשורים להסתברויות, ובמילים אחרות, נכונות הנתונים אינה ודאית, אך יש להם ערך וניתן לממש אותו באמצעות תהליך, שנקרא "כימות תקינות הנתונים" המקל על ניתוח נתונים.

אילו מנגנונים קיימים לניהול בסיסי נתונים

לכל מערכת מורכבת כמו מערכת ניהול בסיסי נתונים יש צורך במנגנוני ניהול שונים, המאפשרים למרכז את המידע, לאחזר אותו בקלות ולנתב אותו. מנגנונים אלו כוללים: קטלוג מערכת, מיטוב שאילתות, ניהול אחסון, יומן אירועים, ניהול זיכרון מטמון, מנגנון שכפול ומנגנון בקרת המקביליות.

קטלוג מערכת (System Catalog)

זהו המקום, המרכז את ההגדרות, השדות והרשומות ובמילים אחרות כל המידע הנוגע לבסיס הנתונים. כאן מפורטים שמות הפריטים והישויות במערכת, הסוגים שלהם וחוקי האימות של השדות השונים. (שדות מספריים, שדות מוגבלים למספר ערכים, שדות עם ערכי אותיות בלבד וכן הלאה) המידע בקטלוג מאוחסן באמצעות טבלה על בסיס הנתונים, שמשמשת אף לניתוח נתונים.

מיטוב שאילתות (Query Optimizer)

מיטוב שאילתות זה תהליך סטטיסטי, שמבוסס על איסוף דאטה, הנוגע לטבלאות בבסיס הנתונים. מידע זה כולל את מאפייני הטבלאות. גודלן, היקפן, התדירות שבה הן מתעדכנות וכן הקשרים, שהן מקיימות זו עם זו. נוסף על כך, נאספים נתונים נוספים הנוגעים לקטלוג המערכת וזאת במטרה ליצור אופטימיזציה לשאילתה כחלק מתהליך ניהול בסיסי נתונים.

מנהל האחסון (Storage Manager)

זהו כלי מובנה, המאפשר לטייב את מסדי הנתונים ולפנות מקום בנפח האחסון המובנה של כל מסד נתונים. בכלי זה ניתן לנקות קבצים או נתונים, שאין בהם צורך בתהליך מהיר ומובנה, ממש בדומה לפעולת הניקוי במחשבים הביתיים. ניתן באמצעות מנהל האחסון להעביר מידע בין שרתים ולנהל את נפח האחסון בקלות יחסית בדאטה בייס (Data Base).

בתחום מאגרי המידע במדעי המחשב, יומן עסקאות (גם יומן עסקאות, יומן מסד נתונים, יומן בינארי או שביל ביקורת) הוא היסטוריה של פעולות המבוצעות על ידי מערכת לניהול מסדי נתונים המשמשת להבטחת מאפייני ACID עקב קריסות או כשלים בחומרה. מבחינה פיזית, יומן הוא קובץ המציג שינויים במסד הנתונים, המאוחסן בתבנית אחסון יציבה.

יומן אירועים (Transaction Log)

זהו למעשה רכיב בתוך המערכת, שנועד לתת מענה לפערים בדאטה בייס (data base), שנוצרים בין ריצות העדכון השונות. התהליך נעשה באמצעות הפעלת טריגר במערכת הניהול של מסד הנתונים, שמטרתו לבדוק את יומני המסד עבור עסקאות לא מחויבות ולהחזיר את השינויים, שבוצעו בעסקאות אלו. נוסף על כך קיימת התייחסות גם לעסקאות, שכבר בוצעו אולם השינויים שלהם טרם מומשו בבסיס הנתונים- במקרה זה העסקאות מוחלות מחדש.

ניהול זיכרון מטמון (Cache Manager)

זהו רכיב חומרה, הידוע גם בשם "קש" (cache), שמטרתו לאסוף נתונים ממקורות אחסון חיצוניים (ממש בדומה לתהליך התקנת "קבצי עוגיות" (cookies) במנועי חיפוש אינטרנטיים. השימוש בקבצי מטמון נעשה על מנת לשלוף מידע במהירות ללא כל צורך לבצע ריצה מחודשת במאגר הנתונים המקורי, כך שקבצי המטמון ניתנים לאחזור במהירות, כאשר "הלקוח" הזקוק לנתונים, שממוקדם במקור המטמון (קרי משאב האחסון המארח) משלם רק על הגישה לנתונים אלו.

מנגנון שכפול (Replica Control)

מנגנון שכפול נועד לקצר תהליכים טכניים, הנוגעים לעדכון הגדרות של בסיסי נתונים שונים. באמצעות הפעלת מנגנון השכפול ניתן בלחיצת כפתור אחת לשכפל הגדרות מבסיס נתונים אחד למשנהו ואף ליצור מספר מופעים באתרים שונים ולסנכרן ביניהם. ובמילים אחרות, מנגנון השכפול מאפשר ליצור אחידות הן ברמת ההגדרות והן ברמת הדאטה בייס (data base).

מנגנון בקרת המקביליות (Concurrency Control)

מנגנון בקרת המקביליות נוצר על מנת לתת מענה לבעיית התנגשות בין תנועות, שמבוצעות במקביל במסד הנתונים. תפקידו של מנגנון זה הוא להבטיח, שאוסף של פעולות לאובייקטים, הממוקמים במסד הנתונים מתבצעות באופן תקין ומציגות נתונים עקביים. כאמור המנגנון מופעל, כאשר שתי תנועות (האוסף של הפעולות על האובייקטים) רצות במקביל ומבצעות פעולה של כתיבה לאותו האובייקט- התוצאה של מצב זה היא חוסר עקביות. כדי להימנע ממצב זה מופעל "המנעול" (Lock Based), המבוסס על אלגוריתם בשם PL2 (נעילה בשני שלבים) במנגנון זה קיים חיסרון מובנה, שעלול להביא "לקיפאון" (Deadlock) ולכן יש הבוחרים לבצע שימוש במנגנון בקרת מקביליות אופטימי, שנועד לתת מענה לחיסרון זה.

מה זה DBA (מנהל בסיס נתונים)

DBA (Database Administrator) הוא איש תשתיות, בעל תפקיד מרכזי, האחראי על המידע המוצג במסד הנתונים. תפקידו של ה-DBA נחלק לשני תחומים עיקריים: הראשון אפליקטיבי (כלומר ברמת המידע המוצג בסביבת העבודה של משתמש הקצה) והשני ברמת התשתית.

בתחום האפליקטיבי- ה-DBA יסייע בפתרון בעיות הקשורות להתממשקות למערכות שונות בארגון, או קושי להטמיע יישומים חדשים במערכות מידע ארגוניות כמו מערכות CRM או מערכות ERP וכן מערכות בסיסי נתונים אחרות. איש ה-DBA דואג לתוכן, למבנה הלוגי, לקשרים השונים בין הנתונים, להקמה של טבלאות ולפיתוח של שאילתות. ה-DBA מפתח את בסיס המידע בשפת ה-SQL.
בתחום התשתיתי- זהו תפקיד הכולל תחזוקה שוטפת וניהול של מערכות בסיסי נתונים, בין היתר מדובר על ביצוע שחזור וגיבויים לנתונים שונים, שמירה על זמינות המידע (כלומר, שהמערכת תפעל באופן מתמיד ולא "תיפול") , ואם כבר "נפלה" לוודא שאין שגיאות לאחר ש"שעלתה לאוויר" מחדש, שהמידע שמוצג בה ממשיך לקיים את אותם קשרים לוגיים, שהוגדרו לו מבעוד מועד. נוסף על כך איש ה-DBA אחראי על גישה מוצפת וסוגיות נוספות, הנוגעות לאבטחה וכן אחראי על שמירה על ביצועים מהירים למערכת (כלומר ניקוי קבצי cache, שמירה על מהירות ריצת השאילתות וכן הלאה)

מדוע Qlik היא המערכת העדיפה לניהול בסיסי נתונים?

Qlik הינה פלטפורמת בינה עסקית (BI), המאפשרת למשתמשים העסקיים, שאין להם שום הבנה בבסיסי נתונים, לנתח את כל הנתונים בצורה קלה ואינטואיטיבית. Qlik מאפשרת ניתוח כמויות גדולות של נתונים ממגוון רחב של מקורות ע"י החזקת כל הנתונים שרוצים לנתח בזיכרון. בבסיס מערכת Qlik , עומד מנוע אסוציאטיבי (פטנט רשום) המאפשר למשתמשים לקבל בכל לחיצת כפתור את התשובות לשאלות העסקיות שלהם, לעבור מנתונים אגרגטיביים ברמות השונות לנתונים אותם הוא מבקש לחקור ברמת הרשומה הבודדת.

מה זה Big Data (ביג דאטה) ואיך להשתמש בו בצורה נכונה?

כותב: moransinay2103@gmail.com

מדי יום עולים מאות אלפי תכנים לאינטרנט, דיווחים, כתבות, תחזיות, נתונים, מדידות, סרטונים, מאמרים ומודעות. תעבורת המידע הזאת זולגת גם לעולמות העסקיים, המבקשים להשתמש בידע הציבורי הרב שנצבר כדי לזהות מגמות בשוק, לדייק את מסעות הפרסום שלהם ולהוביל את התחרות. העולם משתנה, המידע זמין ונגיש יותר, אך מנגד דורש סינון גבוה וקיטלוג. כל אלו מביאים ארגונים לחפש פתרונות טכנולוגיים, שמחד מקצרים את תהליכי איסוף המידע ומנגד מאפשרים את רציפות העבודה ומנתחים היקפים נרחבים של נתונים. השימוש ב-Big Data נותן מענה לצורך זה באמצעות מתן גישה למידע, ביצוע תהליך של עיבוד ראשוני, שימוש באלגוריתם המאפשר לאתר ולשלוף מגמות וקשרים וייצוא הניתוח ל"לוח מחוונים" (דשבורד) שעל בסיסו מתקבלות ההחלטות הניהוליות.

מה זה Big Data?

ביג דאטה הוא מושג רווח, המתאר מגוון רחב של מקורות נתונים מסוגים שונים: מקורות מידע פנים ארגוניים כמו מערכות מידע, תיקיות, ארכיון, תיבות דואר, נהלים ומסמכים ומקורות מידע חוץ ארגוניים כמו פורטלים, חנויות אינטרנטיות, מסעות פרסום, רשתות חברתיות, אתרי חדשות ואתרי נתונים כמו אתר הבורסה, ניתוחי מזג אוויר, מפות וכדומה. מאגר המידע העצום הזה מתממשק למערכת ה-BI הארגונית ובאמצעות אלגוריתם ומנוע רב עוצמה, ממיין, מעבד ומנתח את הנתונים בהתאם לדפוסים, הקשרים, תובנות, מגמות והעדפות ולאחר מכן מציג לארגון את התוצר המנותח באמצעות שאילתה מובנית או באמצעות דשבורד מבוסס מודל עסקי. חברות, מוסדות וארגונים גדולים, מבססים את תהליכי קבלת ההחלטות שלהם על בסיס הדאטה המנותחת, שנאספת ומוצגת להן במערכות ה-BI

היכנסו ללמוד על BI (בינה עסקית) כאן>>>

איך מאפיינים בסיס נתונים של ביג דאטה

את הביג דאטה ניתן לסווג למספר מאפיינים:

נפח
מהירות
גיוון
אמינות
ערך

נפח

מנוע המערכת אוסף נתונים ממספר רב של מקורות, בהתאם להגדרות וצרכי הארגון. נפח המידע נקבע בהתאם להיקף הנתונים הנצבר, גודל הקבצים מהם הם נשאבים, וכיצד אלו משפיעים על מהירות התגובה ועל קצב ניתוח הנתונים. בין אם מדובר על נתונים מועתקים או נתוני Big Data – כמות הנתונים היא שקובעת את ערכם

מהירות

כמה זמן אורך תהליך האיסוף, העיבוד וניתוח הנתונים, והאם הדבר משפיע על קצב ורציפות העבודה עם המערכת. וכן כמה זמן נדרש למערכת להציג תשובות לשאילתות החיפוש של המשתמש, ובמילים אחרות – האם הנתונים זמינים בזמן אמת?

גיוון

נתונים מגיעים במגוון רחב של פורמטים ותפקידה של המערכת היא לאחד, ולקשר נתונים המגיעים מפורמטים שונים. מגוון הפורמטים רחב ונתונים נאספים מקבצי וידאו ושמע, קבצי וורד, אקסל, פאואר פוינט, אקסס, דפי אינטרנט, תמונות, קבצי טקסט ואף מידע לא מובנה – מיזוג הנתונים הוא זה שמשלים את המידע הדרוש לאנליסטים של המערכת כדי להפוך אותו למידע ארגוני מהותי.

אמינות

אמינות הנתונים נמדדת במידת ההתאמה לשאלה העסקית, האם באמצעות הנתונים ניתן להגיע למסקנות מהותיות, האם על סמך הנתונים ניתן לקבל החלטות, האם ניתן להסתמך על המידע המוצג כדי לדייק את ניתוח הנתונים? בהקשר זה האמינות נמדדת ביחס לרמת ההתאמה שלה לשאילתה העסקית ולתהליך החקירה בפרט.

ערך

ערך הנתונים נמדד בהתאמה לחשיבותם. האם ניתן לבצע בהם שימוש, האם המערכת מספקת תשובה רלוונטית לשאלה העסקית? האם הנתונים המוצגים נותנים תוספת חיובית למחקר שמבצע המשתמש? האם הם מעודדים אותו לשאול שאלות חדשות ולהתקדם בחקירה שלו? ובמילים אחרות, האם הנתונים המוצגים למשתמש הם בעלי חשיבות לפעילות העסקית.

לקריאה מורחבת על בסיסי נתונים היכנסו>>>

שימושים נפוצים לביג דאטה

ניהול מוצרים
פרסום
מסחר
התייעלות ארגונית
חדשנות
צבאית
גילוי הונאות
ביולוגיה
פיזיקה
לוחמת סייבר
מטאורולוגיה

ניהול מוצרים

באמצעות Big Data ניתן לאסוף מידע ממגוון מקורות ולנהל את מחזור חייו של המוצר החל משלב הפיתוח ועד שלב הדעיכה. ניתן להגדיר למנוע החיפוש מראש, לאסוף מידע אודות שוק הלקוחות של המוצר, זיהוי מגמות, שינויים בהעדפות. הכנסת שינויים במוצר או שינוי הגדרת המוצר בהתאם למידע המתקבל בזמן אמת. בנוסף ניתן לאסוף מידע אודות ניתוח ביצועי המוצר וחווית השימוש בו ביחד ולהגדיר ממדים שונים.

פרסום

תשתית טכנולוגית של Big Data במנועי פרסום בפורטלים צרכניים רחבי היקף, מספקת מידע על מאות אלפי עסקים ועוד מיליוני מבקרים, מתחקה אחר הרגלי הצריכה שלהם ומאפייני השימוש שלהם, מאתרת, מפלחת ומצליבה מידע בין גולשים לידע שצרכו ועל בסיס אותו ידע שנצבר מייצרת מסעות פרסום ושיווק, בהתאמה לצרכים המדויקים של הלקוחות.
מתאים: לחברות פרסום, פורטלים אינטרנטיים

לקריאה על איזיקליק מערכת לניהול קפיינים של Qlik>>>

מסחר

Big Data בעולם של מסחר בורסאי, וכן מסחר ממוחשב, הנשען על פקודות, הפעלת אלגוריתמים לכריית מידע, הנמצא במנועי החיפוש במטרה לגלות דפוסי צריכה והתנהגות מתוך אינספור תנועות במטרה לתמחר מוצרים ושירותים וכן לגלות הונאות. כמו כן, במידע הנצבר נעשה שימוש לצרכי סטטיסטיקה וכתיבת תחזיות שוק.
מתאים: לפלטפורמות למסחר בבורסה

התייעלות ארגונית

ארגונים מתנהלים ומתעדים תהליכים עסקיים באמצעות מערכות מידע שונות, לעיתים מערכות אלו מקושרות באמצעות ממשקים ולעיתים לא. ברוב המקרים, לא קיים "חוט מקשר" בין מערכות אלו ולכן מידע רב הולך לאיבוד. באמצעות Big Data המידע נשאב אל מנוע עוצמתי אחד, שמעבד, מנתח ומזרים אותו בתצוגה חזותית קלה לקריאה ולניתוח ומאפשר לחבר את הקצוות, לזהות תהליכים נסתרים, לאתר דפוסים בתוך עולם הנתונים, לייצר תחזיות ולהציע כיווני פעולה – אילו פעולות יביאו לתוצאות מסוימות.

חדשנות

בעידן התחרותי ארגונים נאלצים להתמודד עם אתגר בניית נאמנות מצד הלקוחות, וכדי לתת מענה לצורך זה עליהם לדייק את מסעות הפרסום שלהם, לנתח איומים, לבחון את תמחור המוצרים ולהתבסס על ניבוי וחיזוי של התנהגויות עתידיות. מערכות מבוססות Big Data מאחסנות ושולפות מידע במהירות ונעזרות במודלים, המאפשרים לנבא את הצמיחה העסקית.

צבאית

מערכות צבאיות מבססות את חקר המודיעין שלהן על Big Data שאוסף, מרכז, ממיין, מקטלג, מנתח מידע ומזהה דפוסים התנהגותיים, איומים, מייצר מטרות, ומסייע למנהלים מכל דרג להתמודד עם מסה של נתונים, כמעט אין סופית, במהירות וביעילות תוך שילוב יכולות "המכונה" עם ההבנה האנושית. כלומר, שימוש ב-Big Data באופן היברידי. למשל ניתן ללמד את המכונה מהי מטרה ולאתר אותה במפות טופוגרפיות, המכונה משמשת בעיקר כצינור של מידע.

גילוי הונאות

מעילות והונאות עלולות להיווצר בכל תהליך עסקי וכדי לצמצם אותן ולהתחקות אחר דפוסים נסתרים בתוך הדאטה, ניתן לבנות אלגוריתם, שלומד לזהות דפוסים אלו תוך עמידה במדדי תוכנית עבודה ייעודית, שנועדה למנוע הונאות.

ביולוגיה

שימוש ב-Big Data הפך לרווח גם בקרב מכונים ביולוגיים המעוניינים לבצע מיפוי של הגנום, מציאת דפוסים ותבניות, המסייעים לאתר פגמים גנטיים וכמו כן הסתייעות בחוכמת המכונה כדי לאסוף מידע הנוגע להשפעה של תרופות. בנוסף, בתחום הביולוגיה מבוצע שימוש בBig Data- על מנת לאסוף, לרכז ולנתח שדות של מאות אלפי נתונים במטרה לחזות סיכויים לפגמים תפקודיים, אגרגרציות ו"קיפולים שגויים" בחלבון.

פיזיקה

מערכות מבוססות Big Data תופסות תאוצה גם בעולם האסטרונומיה המרתק, באמצעותן נאספים מאות אלפי נתונים מלוויינים ששוגרו לחלל. באמצעות בינה מלאכותית ניתן לזהות אותות חלשים, התעמעמות מחזוריות, המאפשרת לגלות כוכבים חדשים כמו הגילוי של כוכב חדש בגלקסיית Kepler-90 על ידי מערכת ה Big Data של גוגל.

לוחמת סייבר

איומי סייבר הם מנת חלקם של עסקים רבים מכל גודל, הן מסיבות ביטחוניות והן מסיבות של תאוות בצע. ארגונים מתמודדים עם אתגרי הסייבר באמצעות מערכי הגנה כמו חומת אש והקפדה על הצפנה. אך עדיין למרות מאמציהם הרבים – האקרים מוצאים פרצות ומאיימים לחשוף מידע רגיש ולפגוע במוניטין העסקי. עסקים נעזרים במערכות Big Data על מנת לגלות פרצות אבטחה, ביצוע הצפנה, מדידה, עמידה בנהלים, גילוי פריצות או ניסיונות פריצה, ומעקב אחר מקור התקיפה.

מטאורולוגיה

בתחום המטאורולוגיה מסתייעים ב-Big Data על מנת לנבא את תחזית מזג האוויר וזאת על סמך התממשקות למערכות מטאורולוגיות אחרות כמו חיישנים תת קרקעיים, מטוסים, קבצי וידאו, קבצי תמונה, קבצי טקסט וכן ניתוח מידע היסטורי. המכונה מרכזת את המידע, מתחקה אחר דפוסים ומספקת תחזיות מדויקות לאזורים נרחבים ברחבי העולם.

שימוש בביג דאטה בארגונים גדולים

ארגונים גדולים, בעלי מאות ואלפי משתמשים נעזרים ב-Big Data במגוון רחב של תחומים, החל מאיסוף מידע בנוגע לתפקוד העובדים והספקים מכל קצוות העולם, מעקב אחרי עמידה ביעדי מכירות, ספירות, ניהול, איתור כשלים ופערים במערך שרשרת האספקה, בתהליכי השיווק והמכירה ובתהליכי הייצור. ניהול עומסים – עובדים, מכונות. שליטה טובה יותר על תקציבים שונים על ידי הקצאתם מחדש ובחינת תועלת ההשקעה. השימוש ב-Big Data נוגע בכל עולמות התוכן הפנימיים בארגון אך רלוונטי לעולמות התוכן החיצוניים ובא לידי ביטוי באיסוף מידע על מתחרים, דפוסי התנהגות והרגלי הצריכה של לקוחות התואמים את הסגמנטים השונים. יצירת הצעות שיווקיות חדשות ללקוחות חדשים או ללקוחות קיימים על סמך חקירה חופשית של הדאטה. איסוף מידע מאינסוף מקורות – קבצים, פורטלים, רשתות חברתיות, כתבות, והתממשקות לכלים ברחבי הרשת, המספקים מידע מהותי לפעילות העסקית. אלו רק חלק מהשימושים שניתן לבצע באמצעות Big Data אך היתרון המרכזי בכל אלו – שניתן יהיה לקבל החלטות בעסק על סמך מידע עדכני, מהיר ורחב.

שימוש בביג דאטה לארגונים קטנים

ובכן, על אף ש-Big Data נקשר לארגונים גדולים, גם ארגונים בסדר גודל קטן עד בינוני יוכלו להפיק תועלת רבה מכלי זה. החל מאיסוף מידע על מתחרים, איתור מגמות שוק, בחינת שאלות עסקיות הנוגעות להתרחבות וצמיחה. ניהול צוותי עבודה העובדים במיקור חוץ ומרחוק – בהיבטים של משימות וניהול התקשורת, ניהול התקציבים השיווקיים המופנים למסעות פרסום, איתור פערי ביצוע, קבלת החלטה על בסיס ידע בנוגע ליעילות ההשקעה ואיתור אפיקים, המניבים תוצאות עסקיות טובות יותר. בנוסף, ניתן לחבר את ה-Big Data למספר מקורות מידע ולאפשר לבעל העסק לקבל "תמונה מלאה" על הפעילות העסקית "ממעוף הציפור" כך למשל ניתן לחבר את תיבת המייל למערכת העוקבת אחר משימות פתוחות, מערכת דיוור, תיבות דואר ברשתות החברתיות ואפילו קבוצות מידע ברשתות חברתיות מהן ניתן למשוך לידים והצעות עבודה, מסרוני וואטסאפ וכדומה. האפיון הוא ייחודי בהתאם לצרכי העסק ומטרתו להקל על תהליכים תפעוליים, לשלוט על הנעשה בעסק (מלאי, מכירות, שיווק, גביה) וכן למצות את התקציבים באופן יעיל.

סוגיות ואתגרים בניהול מאגרי Big Data

כאמור Big Data הוא מאגר נתונים אדיר בנפח וביכולת שלו להתממשק למגוון אינסופי של מקורות, לעבד מידע, לנתח אותו ולהציג אותו בתצוגה נגישה. יחד עם זאת כדי לנהל מאגר זה ביעילות, עסקים נדרשים לדון בסוגיות הנוגעות למקום אחסון, אופן הזנת הנתונים, אפיון תבניות וניתוחן, שליפת נתונים, פרטיות ואבטחת מידע

מקום אחסון – הסוגייה המרכזית בתחום זה היא ביכולת לשלוף את המידע הנכון בזמן מהיר למאות ואלפי משתמשים במקביל (המתחקרים במקביל את המערכת בהתאם לתחום עיסוקם) בנוסף לכך, המערכת צריכה לבצע גיבוי ושחזור אמין ואוטומטי של מידע מבלי לפגוע בביצועי המהירות. פתרונות האחסון בתחום ניתנים על ידי חברות טכנולוגיות המספקות מערכי אחסון עם זיכרון מובנה רחב בתצורת SSD ובתצורת דיסק קשיח הכוללים מעבדים חזקים וקישוריות עורפיות או קישוריות NAS , בקרים כפולים וכן פתרונות אחסון היברידיים המשלבים תחנות אחסון פנים ארגוניות יחד עם אחסון בשרתי הענן. במטרה לנהל ולווסת את עומסי העבודה וליצור ממשקים למערכות ניהול ארגוניות כמו מעבדי תמלילים, מערכת ERP ועוד.
הזנת נתונים – תהליך קבלת ההחלטות הארגוני מבוסס על נתונים, אך אם הנתונים אינם נכונים הדבר עלול לפגוע בתהליכים עסקיים ובמוניטין הארגוני. נתונים יכולים "להשתבש" מסיבות שונות: הן בשל תהליכי הסבת נתונים והן בשל מיזוג נתונים ממערכות שונות, כמו כן איסוף מידע ממקורות מידע לא מהימנים ולא עדכניים. על הפערים בנתונים מעידים צוותי התפעול והמכירה, שנמצאים בקשר ישיר עם לקוחות הקצה. בעיות בנתונים הן עניין נפוץ ורווח, שמעמיס על המערכת, מזין אותה בטעויות ולבסוף פוגע בתהליך קבלת ההחלטות. לעיתים המידע הקיים במערכת נפגע כתוצאה מהסבה או מיזוג של מידע ממערכות שונות. הדרך היחידה לטפל במידע היא על ידי איתור הבעיות והקצאת משאבים לתיקון כמו מינוי של אנשים, שכל תפקידם הוא להבטיח את איכות הנתונים בארגון .
ניתוח ומציאת תבניות – בשלב שליפת המידע המהירה. זוהי סוגיה מכרעת בנוגע ליעילות המערכת ולאופן השימוש בה. בזמן העבודה, על המערכת לזהות דפוסים המעידים או מקושרים לתהליכי עבודה או נתונים דומים או קרובים בדאטה. הדפוס מוצג למשתמש כמידע חדש, שמאפשר לו להתקדם בתהליך החקירה שלו ולהגיע לתובנות. האתגר עולה כאשר מעוניינים במידע ספציפי מאוד .כך למשל רוצים לדעת מדוע יש מוצר שנמכר רק על ידי איש מכירות אחד. כלומר השאלה מכוונת מאוד ועל המערכת לעבור על סדרות של נתונים ופיסות מידע כדי לאתר את הדפוס הנחבא בדאטה. הפתרון במקרה זה הוא בהגדרת אלגוריתם, שידע לזהות דפוס ולהתחקות אחר תבניות, להיעזר בבינה המלאכותית כדי ללמוד את העדפות המשתמשים ולהציג להם את המידע הקרוב לעולמות התוכן שלהם במהירות, להשתמש באלגוריתמים המבוססים על אופטימיזציה ובאלגוריתמים המבוססים על הסתברויות.
שליפת נתונים – במערכות ה-BI המתקדמות ניתן לבצע חקירה חופשית של הדאטה, כלומר המשתמש שואל כל שאלה, שעולה מתוך צורך עסקי ומעוניין לקבל עליה תשובה, שתקדם אותו ומהר. אם המשתמש יקבל מידע לא רלוונטי או לחילופין, אם המערכת לא תמצא תשובה לשאלתו, הוא יאבד אמון. שליפת הנתונים צריכה להיות מדויקת, נוגעת לעניין השאלה אך גם חושפת ערכים קרובים ומקושרים לשאלה. גם כאן בדומה לסוגיות הקודמות המערכת נדרשת "לרוץ" על פני אינספור רשומות, שלעיתים אין שום קשר ביניהן ולעמוד בעומס. הפתרונות במקרים אלו באים לידי ביטוי בבניית מודל עסקי, מבוסס על אלגוריתמים, שמלמד את המערכת לשלוף את המידע הנכון במהירות ולהציג אותו בתצורה מנותחת.
אבטחת מידע – עידן הענן וחיבור לטאבלטים, מכשירים ניידים ויישומונים הרחיב את גבולות הארגון. אם בעבר כולנו התחברנו למחשבי הארגון מתוך הארגון ובאמצעות סיסמה מוצפנת, חומות אש והקפדה על סדרה של נהלי אבטחה מחמירים, היום בזכות עידן האינטרנט – הארגון נמצא בכל מקום. הן במסכי הטאבלט והמכשירים הסלולאריים והן במחשב הביתי. סוגיית הפרטיות באה לידי ביטוי בהיבט נוסף – הצורך לשתף גורמים שונים, פנים וחוץ ארגוניים, במידע, שלא בהכרח משמעותי להגדרות התפקיד שלהם. אחת הדרכים להתגבר על כך היא באמצעות מערכות להפקת דוחות, שמראש ממדרות את המידע המוצג בהתאם להגדרות התפקיד, כך שבלחיצת כפתור אחת אפשר לשלוח דו"ח רגיש גם לעשרות משתמשים – אך כל אחד מהם יהיה חשוף לחלק המידע המהותי הרלוונטי לתפקיד שלו. כך גם נכון הדבר לדיוור חיצוני ללקוחות ולספקי הארגון.
פרטיות – סוגיית פרטיות המידע וזליגת מידע ממאגרים גדולים היא נושא רווח, שעולה לכותרות באופן תכוף, נהלי הגנת הפרטיות הקיימים כיום נוגעים למאגרי מידע מקומיים, קטנים או מוכווני מטרה. ולאו דווקא למאגרי נתוני עתק. הפתרון במקרה זה הוא בניסוח נהלים, ביצוע גיבויים תכופים והפעלת ה Big Data עצמה לאיתור פערים, פרצות לבעיות הקיימות. כמו כן התקשרות לספקי אחסון אמינים והתבססות על אחסון היברידי, הגדרת נהלי אבטחה, ואכיפתם.

איך מפיקים נתונים ממאגרי מידע של Big Data

הגוף המארח של ה-"ביג דאטה" הוא מערכת הבינה העסקית כלומר מערכת BI ארגונית. אם בעבר מערכת ה-BI שימשה בעיקר להפקת דוחות הרי שבשנים האחרונות מדובר על מערכת המאפשרת תחקור חופש על בסיס מודל עסקי ו"לוח מחוונים" (דשבורד) מובנה, המותאם לתחום הפעילות העסקית וניתן להתאמה פרטנית לכל משתמש ומשתמש. במערכת ה-BI הנתונים מרוכזים בטבלאות, גרפים ותרשימי זרימה. זוהי פלטפורמת חיפוש, בדומה לכל חיפוש שמבצעים במנועי חיפוש אינטרנטיים. בהקלדת ביטוי לחיפוש, המערכת שולפת את המידע המקושר לאותו ביטוי חיפוש – הן באופן ישיר והן באופן עקיף – כך שהמשתמש מקבל "תמונה רחבה ומלאה" על תחום החקירה שלו ויכול להמשיך לחקור בהקלה על ערך נוסף במסך.

במערכות ה-BI מהסוג החדש, כל משתמש, גם אם אינו מנוסה בתחקור מידע, יוכל להפוך לדאטה אנליסט. כאשר הוא לומד מיומנות חדשה, המסייעת לו להתקדם במחקר המקצועי שלו, להעמיק ולאתר מגמות, דפוסים ושינויים, שלא בהכרח נראים ממבט ראשון. לצורך כך הוא יידרש להדרכה ראשונית, שתלמד אותו כיצד לחקור את המידע וכיצד להיעזר במגוון הרחב של הכלים העומדים לרשותו, כדי שיוכל בהמשך לייצא מידע זה ואף להמחיש את התובנות, שהגיע אליהן באמצעות תרשים עסקי. במערכות ה-BI החדשות משתמשים הופכים לחוקרי מידע באופן עצמאי לחלוטין, ללא כל תלות בצוותי פיתוח או צורך ביצירת שאילתות חדשות, ויכולים להתחיל לחקור את הדאטה מכל כיוון שמעניין אותם.

אילו מערכות נפוצות קיימות לניהול מאגרי Big Data

בתחום ישנם מספר כלים ופלטפורמות לעיבוד מידע המאפשרות לנהל את מאגרי הנתונים בארגונים. בחרנו לסקור את המרכזים ביניהם:

Hadoop – פרויקט קוד פתוח, המעבד היקפים נרחבים של מידע בהיקף של פטה-בתים. העבודה נעשית בעיקר על קבצי מידע גדולים (אקסלים למשל) תוך שימוש במודל תכנות על פני אשכולות מחשבים מנוהלים.
Couchbase – שרת המשמש כמאגר מסמכי קוד פתוח התומך במסמכי JSON. בעל מטמון מנוהל המאפשר להפעיל נתונים באלפית השנייה. בנוסף בשרת ישנם מפרטים מובנים לשאילתות דמויות SQL.
Cassandra – בסיס נתונים מסוג NoSQL שנכתב על ידי פייסבוק ומ- 2010 מופץ כתוכנה חופשית המפותחת באפצ'י. השימוש העיקרי בו נעשה בעולמות ה-Big Data והוא נועד לעבד נתונים בהיקף טרה-בית, המגיעים ממגוון רחב של מקורות מידע.
MongoDB – אחד מבסיסי הנתונים המובילים את קטגוריית NoSQL. זהו דאטה בייס לא רלאציוני, העובד עם טבלאות מקושרות, כיוון שהוא נשען על מסמך. ניתן לתכנת אתו בשלוש שפות תכנות והוא פועל תחת רישיון אפצ'י. נעזרים בו בעיקר כאשר מעוניינים לבצע חיפושי שדה, ביטויים רגולריים ושאילתות טווח וכן שאילתות המציגות מדגם תוצאות אקראי.

מדוע כדאי להשתמש ב Qlik?

המנוע האסוציאטיבי של Qlik הוא לב העניין בעיבוד נתוני Big Data . מנוע זה סורק במקביל ובזמן קצר אינספור נתונים ומגוון רחב של מקורות ומציג אותם על בסיס דשבורד מובנה ומותאם משתמש. אופן הצגת הנתונים במקרה זה שונה לחלוטין, שכן המנוע לומד את מאפייני השימוש של המשתמש ומשפר את הצגת התוצאות לאורך הזמן. בנוסף, התוצאות המוצגות למשתמש רחבות יותר מהשאלה העסקית שהוקלדה, שכן מנוע החיפוש העוצמתי, סורק את הדאטה המקושרת לערך שעליו המשתמש ביצע חיפוש, וזו מוצגת בגוון אפור למשתמש, כך שהוא יכול למעשה לקבל תמונה מלאה, שלא היה יכול להיחשף אליה בשום צורה אחרת. את החקירה יוכל המשתמש להמשיך באופן חופשי על בסיס כל ערך שיבחר, באופן אסוציאטיבי לחלוטין. ל-Qlik יש מספר פתרונות לניהול Big Data הכוללים את המנוע האסוציאטיבי, ארכיטקטורה מתקדמת ו-AI כלי בינה רבודה מתוחכם.