097-113-5975
admin@datalentteam.co

Blog

Data Quality practice with Apache airflow

วันที่อบรม: วันที่ 25 กรกฎาคม 2569   | เวลา 9:00-16:00 น.

ราคา 8,900 บาท ลงทะเบียนก่อน 14 วันลด 10 % เหลือเพียง  8,010  บาท

📍 : Avani Ratchada Bangkok Hotel (MRT พระราม9)

วิทยากร : ว่าที่ร้อยตรี ธีรพัฒน์ กันสดับ

หน่วยพัฒนาปัญญาประดิษฐ์ กองเทคโนโลยีสารสนเทศ มหาวิทยาลัยมหิดล

หลักการและเหตุผล

ในยุคปัจจุบันที่ทุกองค์กรขับเคลื่อนด้วยข้อมูล (Data-Driven Organization) การสร้าง Data Pipeline ที่มีประสิทธิภาพไม่ได้จำกัดอยู่เพียงแค่การย้ายข้อมูลจากต้นทางไปยังปลายทางเท่านั้น แต่หัวใจสำคัญที่กำหนดความสำเร็จของโครงการ Data Analytics และ AI คือ “คุณภาพของข้อมูล” (Data Quality) หากข้อมูลที่ไหลเข้าสู่ระบบไม่มีการตรวจสอบ หรือมีข้อผิดพลาด (Garbage In, Garbage Out) จะส่งผลกระทบโดยตรงต่อการตัดสินใจทางธุรกิจและการทำงานของโมเดลต่าง ๆ ดังนั้นการนำเครื่องมือด้าน Workflow Orchestration ระดับโลกอย่าง Apache Airflow มาใช้ร่วมกับการวางระบบตรวจสอบคุณภาพข้อมูล จึงเป็นทักษะที่สำคัญอย่างยิ่งสำหรับ Data Engineer และ Data Architect

วัตถุประสงค์

  • เพื่อให้เข้าใจพื้นฐานและสถาปัตยกรรม: ผู้เรียนเข้าใจหลักการทำงานของ Apache Airflow และการติดตั้งใช้งาน (Deploy)
  • เพื่อสร้างทักษะการเขียนโปรแกรมที่จำเป็น: ปรับพื้นฐาน Python และการใช้เครื่องมือ VSCode สำหรับงาน Data Pipeline
  • เพื่อฝึกปฏิบัติการตรวจสอบคุณภาพข้อมูล (Workshop): ผู้เรียนจะได้ลงมือทำ Workshop จริง ตั้งแต่การตรวจสอบความถูกต้องของไฟล์, การตรวจสอบรหัสลูกค้า (ID Validation) ไปจนถึงการตรวจจับความผิดปกติของข้อมูลในเชิงสถิติ (Statistical Anomaly Detection)
  • เพื่อป้องกันปัญหาในระยะยาว: เรียนรู้วิธีรับมือกับ Schema Drift (การเปลี่ยนแปลงของโครงสร้างข้อมูล) เพื่อให้ Pipeline มีความยืดหยุ่นและเสถียร

ความรู้พื้นฐาน

ผู้เรียนควรมีพื้นฐานความเข้าใจเรื่อง Data Quality เช่น ความสำคัญของคุณภาพข้อมูล มิติของ Data Quality รวมถึงปัญหาคุณภาพข้อมูลที่พบบ่อย และควรใช้ SQL พื้นฐานในการตรวจสอบข้อมูลได้

ลงทะเบียนได้ทันทีคลิก  [https://forms.gle/bGkYV7PeeHqaeFSA7]

กำหนดการ

เวลาหัวข้อเนื้อหา
9.00 – 10.30Data Pipeline Apache Airflowปัญหาที่ Airflow แก้ไขได้Apache Airflow คืออะไร?สถาปัตยกรรมหลักของ Airflow
10.30-10.45Break
10.45 – 11.00Data Pipeline Apache Airflowฟีเจอร์เด่นของ Apache Airflowการ Deploy Apache Airflowการกำหนดค่า Default Arguments ใน Apache Airflow DAG
11.00-12.00Tool & Python Introductionพื้นฐาน Pythonแนะนำเครื่องมือ VSCode
12.00 – 13.00Lunch
13.00 – 14.30WorkshopHello from AirflowCheck file errorProject code validationpersonal data validation
14.30-14.45Break
13.00 – 16.00WorkshopCheck files in the ZIP.Check customer_ID in Order tableSchema Drift DetectionStatistical Anomaly Detection

*กำหนดการอาจมีการเปลี่ยนแปลงตามความเหมาะสม

Post a comment