Big Data


Big Data คือการที่มีข้อมูลปริมาณมากๆ มากแค่ไหน อย่างน้อย ก็จะคุยกันในระดับ Tera Byte (TB) หรือ ระดับ Peta Byte (PB) ซึ่งก็คือ 1000 TB นั่นเอง


คุณสมบัติของ Big Data จะมีด้วยกัน 3 มุมมอง คือ
  • Volume : ข้อมูลมีปริมาณมาก อยู่ในระดับ Terabytes ขึ้นไป  เช่น 1000TB
  • Variety : ข้อมูลมีรูปแบบที่หลากหลาย format ไม่ว่าจะเป็น ข้อความ รูปภาพ วีดิโอ มัลติมีเดีย แล้วแต่ละ format ต้องใช้วิธีวิเคราะห์ที่แตกต่างกันด้วย อะไรทำนองนี้ฮะ
  • Velocity : ข้อมูลจะมีการเปลี่ยนแปลงตลอดเวลาและรวดเร็ว อาจจะโตเร็วมีขนาดใหญ่ขึ้น 1TB ต่อวัน เลยทีเดียว

ความลำบากในการวิเคราะห์ Big Data

จากลักษณะของ Big Data ทั้ง 3 ข้อ ข้างต้น ถ้าจะใช้วิธีวิเคราะห์ข้อมูลแบบเดิมๆ เราจะต้องเจอกับปัญหาอะไรบ้าง ?
  1. ที่เก็บข้อมูล ถ้าเราจะต้องหาที่มาเก็บข้อมูลที่มันมาวันละ 1TB เราจะต้องเตรียม HDD เอาไว้เยอะแค่ไหน ?
  2. ประสิทธิภาพ แล้วต่อให้เราไปซื้อ HDD มาเพิ่ม เพื่อที่จะเก็บข้อมูลให้ได้ทั้งหมด เราก็จะเจอปัญหาเกี่ยวกับ access time ของ HDD ที่ค่อนข้างสูง ทำให้การประมวลผลใช้เวลานานมากเลยกว่าจะได้ผลลัพธ์ออกมา แล้วบางทีเราก็อยากวิเคราะห์ข้อมูลแบบ real-time ซะด้วยสิ ถ้าเรายังใช้วิธีวิเคราะห์แบบเดิมๆ ที่เราเคยทำกับ RDBMS อยู่ หรือต่อให้ทำได้ ก็คงจะต้องใช้ต้นทุนที่สูงมากๆ เลยล่ะครับ
  3. เครื่องคอมพิวเตอร์ สมมติว่าเรามีเงินมากพอที่จะใช้ SSD แทน HDD แล้วเตรียมความจุไว้มากพอที่จะเก็บข้อมูล Big Data ได้  ปัญหาต่อมาที่จะต้องเจอก็คือเราจะต้องเตรียมเครื่องคอมพิวเตอร์ที่จะเอาไว้ใช้ในการวิเคราะห์ข้อมูลเหล่านั้นครับ หากใช้แค่เครื่องเดียวมาคำนวณข้อมูลปริมาณมหาศาล กว่าจะเสร็จก็คงเป็นวันๆ ฮะ แล้วผลลัพธ์ที่เราได้มาก็จะกลายเป็นข้อมูลในอดีตไปซะแล้ว ดังนั้นเราจะต้องเตรียมเครื่องคอมพิวเตอร์เอาไว้เยอะพอสมควร เพื่อที่จะทำให้เราได้ผลลัพธ์เร็วเท่าที่เราต้องการครับ
  4. ต้นทุน สุดท้ายแล้ว เราก็จะเห็นว่าเม็ดเงินที่จะต้องลงไปกับ Big Data นั้นไม่ใช่น้อยๆ เลยล่ะครับ
  5. ความปลอดภัยของข้อมูล อย่าลืมนะครับว่าเราจะต้องคิดเผื่อเหตุการณ์ที่ข้อมูลใน SSD มันเสียด้วย การเก็บข้อมูลเอาไว้ที่เดียวนั้น ถือว่ามีความเสี่ยงสูงครับ ดังนั้นเราจะต้องมีระบบสำรองข้อมูลอัตโนมัติ แล้วการประเมินพื้นที่จัดเก็บข้อมูลนั้นก็จะต้องคิดเผื่อพื้นที่ที่จะต้องใช้ในการสำรองข้อมูลเอาไว้ด้วยนะครับ T__T
เครื่องมือที่มักใช้ใน Big Data คือ Apache Hadoop
Previous
Next Post »