Tag: Data Engineering
-

สอบ Google Cloud Certification: Data Engineer ปี 2024 (ข้อสอบใหม่ Nov 2023)
แชร์การเตรียมตัวและคำแนะนำในการสอบ Google Cloud Certification: Data Engineer ปี 2024 (อัพเดทข้อสอบใหม่ Nov 2023)
-

Journey of TILDI Data Engineer in 2023 — การพัฒนา Data Platform อย่างต่อเนื่อง
ในปีที่แล้วเราได้อธิบายว่า Data Engineer ในทีม TILDI ทำอะไรบ้าง ทั้งด้าน tech stack, เครื่องมือที่เราใช้, security และอธิบายถึงคอนเซปต่างๆใน Data Platform ไม่ว่าจะเป็น Data Observability, Data Validation/ Data Quality, Data Monitoring, Data Lineage และ Data Discovery/ Catalog ที่ช่วยให้คนดึงข้อมูลและคนใช้ข้อมูลเองมั่นใจในตัวเนื้อข้อมูลและใช้งานอย่างมีประสิทธิภาพ
-

What is Apache Iceberg: Iceberg คืออะไร ทำอะไรได้บ้าง ?
บทความนี้เราจะมาเล่าถึง Apache Iceberg กัน
-

Protect sensitive data in pipeline with Tink and Cloud KMS
IWD 2023: Protect sensitive data in pipeline with Tink and Cloud KMS as Envelope Encryption
-

Securing Kafka with TLS/SSL encryption
Kafka secure มากขึ้นได้อย่างไรบ้าง ทำไมต้องคิดเรื่อง security, มี security protocol แบบไหนบ้าง และปรับ Kafka cluster เราให้เป็นแบบ TLS จนไปถึงการทดสอบว่าสามารถ authen และ authorized ผ่านจริงๆ
-

Setting up Kafka with Kafka connect from SQL server to Cloud storage (GCS)
setup Kafka cluster โดยใช้ Strimzi รวมถึง setup Kafka connect เพื่อต่อไปยัง external source ต่างๆเพื่อดึงจาก SQL server เป็น source data ต้นทางโดยเก็บ event จาก Change Data Capture (CDC) แล้วนำไปเก็บที่ sink ปลายทางที่ Google Cloud Storage
-

Data Engineer ที่ TILDI ทำอะไรบ้าง เราจะเล่าให้ฟัง
ใน TILDI ของเรา ทีม Data Engineer ของเราไม่ได้มีหน้าที่แค่เป็นคนขนข้อมูลให้, transform ข้อมูลให้ หรือวาง pipelineให้ data user เพียงอย่างเดียว นั่นเป็นแค่เพียงส่วนหนึ่งของงานเราเท่านั้น
-

Spark คืออะไร เกิดขึ้นมาได้ยังไง หัวข้อที่ Data Engineer ต้องรู้
บทความนี้เราจะมาเล่าหัวข้อหนึ่งที่สำคัญในสาย Data Engineer มากๆ คือ Spark นั่นเอง
-

ลองสร้าง SFTP server ให้ Airflow ไปวางไฟล์ให้หน่อย
จำลองสร้าง SFTP server กัน โดย use case ของเราคือเราอยากดึงข้อมูลจาก BigQuery ไปวางไว้ที่ Google Cloud Storage
-

Building Data Lakehouse: Apache Hudi คืออะไร ทำความเข้าใจ Hudi กัน
Apache Hudi คืออะไร ทำอะไรได้บ้าง
-

ACID ใน database คืออะไร
ACID ใน database คืออะไร คือกรดรึเปล่า เย้ยย
-

Distributed data EP. 1: Replication
ทำไมเราถึงอยาก distributed data และเรื่องอะไรที่เราจำเป็นต้อง concern บ้าง ?
-

ตามหาว่า program ไหนแย่ง port ไป ด้วยคำสั่ง ps
เมื่อหลายวันก่อน เรากำลังอัพ Airflow เพื่อจะเล่นบนเครื่อง local ของเรา ในขณะที่เรากำลังเข้า localhost:8080 ซึ่งเป็นทางเข้าและ port ปกติของ webserver ของ Airflow ปรากฏว่าเราหน้าตาของ Airflow เราเปลี่ยนไป อ้าก
-

สรุป PostgreSQL จากหนังสือ Seven Databases in Seven weeks
หนังสือ Seven Databases in Seven weeks เป็นหนังสือที่เล่าถึง modern databases ที่ถูกหยิบมา 7 ตัว โดยจะเล่า database ทีละ chapter นั่นคือ PostgreSQL, Apache HBase, MongoDB, Apache CouchDB, Neo4J, DynamoDB, และ Redis โดยผู้เขียนจะแบ่ง chapter นั้นเป็นการอ่านแบบ 3 วัน เพื่อที่ว่า 1 week นั้นผู้อ่านจะได้มีเวลาอ่านและทำแบบฝึกหัดไปด้วย เราจึงเห็นว่าเป็นหนังสือที่ทำการเล่าเรื่องได้น่าสนใจ เลยลองสรุปเนื้อหาที่อ่านภายใน week แรกดู นั่นก็คือ PostgreSQL