097-113-5975
admin@datalentteam.co

Blog

Building Data Quality Checks with Airflow

อย่าให้ Pipeline แค่ “รันได้” แต่ต้อง “มั่นใจได้ว่าข้อมูลถูกต้อง” ด้วย! สร้างระบบตรวจสอบคุณภาพข้อมูลอัตโนมัติด้วย Airflow พร้อม Alert ทันทีเมื่อข้อมูลผิดปกติ

แนวคิดพื้นฐาน: Data Quality Checks คืออะไร

Data Quality Checks คือกระบวนการตรวจสอบว่าข้อมูลในระบบของเรามี “คุณภาพ” ตามที่กำหนดไว้หรือไม่ เช่น

  • มีค่าที่ขาดหาย (missing values) หรือไม่
  • ข้อมูลซ้ำ (duplicates) หรือเปล่า
  • อยู่ในช่วงค่าที่ถูกต้องหรือไม่ (valid range)
  • ความสัมพันธ์ระหว่างตารางยังคงถูกต้อง (referential integrity)

ทำไมต้องใช้ Airflow มาช่วย

Apache Airflow ถูกออกแบบมาสำหรับ การจัดการ workflow ของข้อมูล (Data Pipelines)
จุดเด่นคือ:

  • สามารถตั้งเวลา (schedule) ให้เช็กข้อมูลอัตโนมัติ
  • เขียน workflow เป็น DAG (Directed Acyclic Graph) เพื่อควบคุมลำดับการทำงาน
  • ใช้ซ้ำได้หลาย pipeline
  • มี log และการแจ้งเตือนเมื่อข้อมูลไม่ผ่านการตรวจสอบ

Post a comment