
อย่าให้ Pipeline แค่ “รันได้” แต่ต้อง “มั่นใจได้ว่าข้อมูลถูกต้อง” ด้วย! สร้างระบบตรวจสอบคุณภาพข้อมูลอัตโนมัติด้วย Airflow พร้อม Alert ทันทีเมื่อข้อมูลผิดปกติ
แนวคิดพื้นฐาน: Data Quality Checks คืออะไร
Data Quality Checks คือกระบวนการตรวจสอบว่าข้อมูลในระบบของเรามี “คุณภาพ” ตามที่กำหนดไว้หรือไม่ เช่น
- มีค่าที่ขาดหาย (missing values) หรือไม่
- ข้อมูลซ้ำ (duplicates) หรือเปล่า
- อยู่ในช่วงค่าที่ถูกต้องหรือไม่ (valid range)
- ความสัมพันธ์ระหว่างตารางยังคงถูกต้อง (referential integrity)
ทำไมต้องใช้ Airflow มาช่วย
Apache Airflow ถูกออกแบบมาสำหรับ การจัดการ workflow ของข้อมูล (Data Pipelines)
จุดเด่นคือ:
- สามารถตั้งเวลา (schedule) ให้เช็กข้อมูลอัตโนมัติ
- เขียน workflow เป็น DAG (Directed Acyclic Graph) เพื่อควบคุมลำดับการทำงาน
- ใช้ซ้ำได้หลาย pipeline
- มี log และการแจ้งเตือนเมื่อข้อมูลไม่ผ่านการตรวจสอบ





Post a comment