
Apache Airflow คือ?
พลตฟอร์มสำหรับจัดการและทำให้งาน Data Pipeline ทำงานแบบอัตโนมัติ (Workflow Orchestration Tool)
จุดเด่นของ Apache Airflow
- เขียน Workflow ด้วยโค้ด (Python-based)
ทุกขั้นตอนของ pipeline เขียนด้วย Python ทำให้ยืดหยุ่นสูง และควบคุมได้ละเอียด เช่น ดึงข้อมูล → แปลงข้อมูล → โหลดเข้าฐาน - มี UI สวย ใช้งานง่าย
มีหน้า Dashboard ให้ดูว่า pipeline ไหนรันสำเร็จ ล้มเหลว หรือใช้เวลานานแค่ไหน - ตั้งเวลาอัตโนมัติได้ (Scheduling)
เหมือน cron job ที่ฉลาดกว่า สามารถตั้งให้รันรายวัน รายชั่วโมง หรือเมื่อเกิดเหตุการณ์บางอย่างได้ - รองรับการขยาย (Scalable)
ทำงานได้ทั้งบนเครื่องเดียว หรือกระจายงานไปหลายเครื่องในระบบขนาดใหญ่ - เชื่อมต่อกับเครื่องมืออื่น ๆ ได้ง่าย
เช่น BigQuery, Spark, AWS, PostgreSQL, Slack และอื่น ๆ ผ่าน Operator สำเร็จรูป
ใช้ทำอะไรได้บ้าง
- สร้าง ETL Pipeline (Extract – Transform – Load)
- ตรวจสอบคุณภาพข้อมูล (Data Quality Check)
- จัดการ Workflow ของ Machine Learning
- ประสานงานระหว่างระบบหลายส่วน (เช่น API, Database, Storage)





Post a comment