Introduction
- บทแรกแค่เกริ่นถึง “ทำไมต้อง Hadoop” เพราะปัจจุบันมี Data ที่ไหลเวียนผ่านเข้ามาบน Internet เป็นจำนวนมาก
- พอมีข้อมูลเยอะแล้ว สิ่งที่ต้องคำนึงถึงคือ Capacity ของ Storage ที่เพิ่มมากขึ้นทุกวันๆ (และดู Techonology ของ Storage ว่า 1 TB จะใช้เวลาอ่านมากน้อยแค่ไหน)
- ปัญหาที่ 1 Hardware Fail ล่ะ ? เพราะมีอุปกรณ์เป็นจำนวนมาก โอกาสที่ Hardware Fail มีสูง
- ปัญหาที่ 2 การวิเคราะห์งาน ใน 1 งานอาจต้องอ่าน/เขียน ข้อมูล 1 Set ลงใน Harddisk หลายก้อน ทีนี้จะสามารถคำนวณเรื่อง Set ของ Key และ Value ยังไง
- Hadoop สามารถตอบโจทย์ข้อ 1 โดย HDFS และข้อ 2 โดย MapReduce
- Data Locality เป็นหัวใจของ MapReduce ช่วย Recognizing network bandwidth
- MPI เป็นเครื่องมือช่วยให้ Programmer จัดการกลไลของ Data Flow


