לפניכם תוכנית הלימודים בעברית שנוצרה באופן אוטומטי. לקריאת הגרסה המקורית באנגלית
תיאור
קורס זה, המונה ארבעה ימים, מספק למשתתפים היכרות מעמיקה עם תכנון ובניית מערכות לעיבוד נתונים ב- Google Cloud Platform. באמצעות שילוב של מצגות, הדגמות ומעבדות יד, המשתתפים ילמדו כיצד לעצב מערכות לעיבוד נתונים, לבנות קווי נתונים מקצה לקצה, לנתח נתונים ולבצע למידה ממוחשבת. הקורס כולל נתונים מובנים, בלתי מובנים וזרמים.
קהל יעד
חלוקה, טעינה, שינוי, ניקוי ואימות נתונים תכנון צנרת וארכיטקטורה לעיבוד נתונים יצירה ושמירה על למידה ממוחשבת ומודלים סטטיסטיים שאילתת מערכי נתונים, הדמיה של תוצאות שאילתות ויצירת דוחות
לימודי Data Engineering on Google Cloud Platform
סילבוס תוכנית הלימודים - מבנה ונושאים
מודול 1: סקירה של Google Cloud Dataproc
יצירת וניהול אשכולות.
מינוף סוגי מכונות מותאמים אישית וצמתים של עובדים.
שינוי קנה מידה ומחיקת אשכולות.
מעבדה: יצירת אשכולות Hadoop עם Google Cloud Dataproc.
מודול 2: הפעלת Dataproc משרות
פועל חזיר כוורת משרות.
הפרדת אחסון ומחשוב.
מעבדה: הפעלת Hadoop ו Spark משרות עם Dataproc.
מעבדה: שלח ועקוב אחר עבודות.
מודול 3: שילוב Dataproc עם פלטפורמת Google Cloud
התאמה אישית של אשכול עם פעולות אתחול.
תמיכה ב - BigQuery.
מעבדה: מינוף שירותי Google Cloud Platform.
מודול 4: יצירת תחושה של נתונים לא מובנים באמצעות ממשקי API של Google למידת מחשב
ממשק API של Google לזיהוי מכונה.
נפוץ ML שימוש במקרים.
הפעלת API API.
מעבדה: הוספת מכונות למידה יכולות ניתוח נתונים גדולים.
מודול 5: ניתוח נתונים ללא שרת עם BigQuery
מה זה BigQuery.
שאילתות ופונקציות.
מעבדה: כתיבת שאילתות ב- BigQuery.
טוען נתונים לתוך BigQuery.
ייצוא נתונים מ- BigQuery.
מעבדה: טוען ומייצא נתונים.
שדות מקוננים וחוזרים.
שאילתה של טבלאות מרובות.
מעבדה: שאילתות מורכבות.
ביצועים ומחירים.
מודול 6: צינורות נתונים חסרי שרת, autoscaling עם Dataflow
מודל התכנות של Beam.
צינורות נתונים ב Beam Python.
צינורות נתונים ב- Beam Java.
מעבדה: כתיבת צינור Dataflow.
עיבוד נתונים גדולים מדרגיים באמצעות Beam.
מעבדה: MapReduce ב Dataflow.
שילוב נתונים נוספים.
מעבדה: קלט צד.
טיפול בנתוני זרם.
ארכיטקטורת הפניה של GCP.
מודול 7: תחילת העבודה עם מחשב למידה
מהו לימוד מכונה (ML).
אפקטיבי ML: מושגים, סוגים.
מערך הנתונים של ML: הכללה.
מעבדה: חקור וליצור מערכי נתונים של ML.
מודול 8: בניית מודלים ML עם Tensorflow
תחילת העבודה עם TensorFlow.
מעבדה: שימוש ב- tf.learn.
TensorFlow גרפים ו לולאות + מעבדה.
מעבדה: שימוש ברמה נמוכה TensorFlow + עצירה מוקדמת.
פיקוח הכשרה ML.
מעבדה: תרשימים וגרפים של אימון TensorFlow
מודול 9: שינוי מודלים ML עם CloudML
למה ענן ML?
אריזה עד מודל TensorFlow.
אימון מקצה לקצה.
Lab: הפעל מודל ML מקומי ובענן.
מודול 10: הנדסת תכונות
יצירת תכונות טובות.
שינוי תשומות.
תכונות סינתטיות.
עיבוד מוקדם עם ML Cloud.
מעבדה: הנדסת תכונות.
מודול 11: ארכיטקטורה של זרמי ניתוח צינורות
עיבוד נתוני זרם: אתגרים.
טיפול בנפח נתונים משתנה.
התמודדות עם נתונים לא מסודרים / מאוחרים.
מעבדה: תכנון הזרמת צינור.
מודול 12: הגדלת כרכים משתנים
מהו Cloud Pub / Sub?
איך זה עובד: נושאים ומנויים.
מעבדה: סימולטור.
מודול 13: יישום צינורות הזרמה
אתגרים בעיבוד זרם.
טיפול בנתונים מאוחרים: סימני מים, טריגרים, הצטברות.
מעבדה: זרם נתונים לעיבוד צינור נתוני תנועה חי.
מודול 14: ניתוחי זרימה ומרכזי שליטה
ניתוחי זרימה: מנתונים להחלטות.
שאילתה של נתונים זורמים עם BigQuery.
מהו Google Data Studio?
מעבדה: צור מרכז שליטה בזמן אמת כדי להציג נתונים מעובדים.
מודול 15: תפוקה גבוהה וחביון נמוך עם Bigtable
מה זה קלאוד ספאנר?
עיצוב סכימה Bigtable.
בליעה לתוך Bigtable.
מעבדה: לזרום לתוך Bigtable.
דרישות קדם
השלמות של יסודות הענן של Google: קורס 'נתונים גדולים' ו'מדעי מחשב 'או שיש להם ניסיון שווה
מיומנות בסיסית עם שפת השאילתה הנפוצה כגון SQL
ניסיון עם נתונים דוגמנות, לחלץ, להפוך, לטעון פעילויות
פיתוח יישומים באמצעות שפת תכנות נפוצה כגון Python
היכרות עם למידה ו / או סטטיסטיקה
מטרות הקורס - מה תיידעו לעשות בסיום הלימודים
עיצוב ובניית מערכות לעיבוד נתונים בפלטפורמת Google Cloud
עיבוד אצווה ונתונים זרימה על ידי יישום צינורות נתונים autoscaling על ענן Dataflow
קבל תובנות עסקיות ממאגרי נתונים גדולים במיוחד באמצעות Google BigQuery
הרכבת, להעריך ולחזות באמצעות מודלים למידה מכונה באמצעות Tensorflow ו- Cloud ML
מינוף נתונים לא מובנים באמצעות Spark ו- API API ב- Cloud Dataproc
הפעל תובנות מיידיות מנתוני זרימה