ใหญ่แค่ไหนถึงเรียกว่า “Big Data”
เพราะคำว่า Big เป็นคำคุณศัพท์ที่หมายถึงขนาดใหญ่ ทำให้คำแปลของ Big Data ในภาษาไทย จึงแปลว่า “อภิมหาข้อมูล” เมื่อคำนิยามบ่งบอกว่า “ใหญ่” จึงมีคำถามว่า แล้วต้องใหญ่ขนาดไหนที่เรียกว่า “Big” คำตอบคือ “ไม่มีความชัดเจน” บางคนใช้ตัวโปรแกรมมาใช้จำกัด เช่น ต้องเป็นข้อมูลที่เก็บใน Hadoop เป็นต้น การใช้โปรแกรมเป็นตัววัดนั้นไม่ผิดค่ะ เพราะ Big Data คือ ข้อมูลขนาดใหญ่ และซับซ้อน ระดับที่โปรแกรมทั่วไปไม่สามารถจัดการได้ ตัวอย่างของโปรแกรมทั่วไปคือ Microsoft Excel ที่สามารถจัดการข้อมูลได้ทั้งหมด 1,048,576 rows และ 16,384 columns แต่โปรแกรมที่นำมาใช้กับ Big Data มีหลากหลาย ไม่ใช่แค่ Hadoop อย่างเดียวเท่านั้น ขึ้นอยู่กับความเหมาะสมของงานแต่ละงานมากกว่า ทั้งนี้ จะมองแค่ขนาดอย่างเดียวไม่ใช่ Big Data ตัวอย่างเช่น การมีชื่อประชากรทั้งหมด 70 ล้านคน การมี “ชื่อ” อย่างเดียว ต่อให้มีมากกว่า 1 ล้าน Row แบบนี้ก็ไม่เรียกว่า Big Data เพราะข้อมูลไม่มีความหลากหลายมากพอ ความสำคัญของ Big Data คือ การนำ Data ไปใช้ประโยชน์ต่อให้ได้มากที่สุด ดังนั้นส่วนประกอบของคำจำกัดความคำว่า Big Data จึงประกอบไปด้วย 1. Volume หมายถึง ขนาดของข้อมูล จะมีปริมาณเท่าใด อยู่ที่ว่าข้อมูลนั้นเพียงพอต่อการใช้ประโยชน์หรือไม่ เช่น ข้อมูลประวัติการขายย้อนหลัง 5 ปี เป็นต้น อย่างไรก็ตาม ปริมาณข้อมูลที่มากเกินไป อาจไม่เกิดประโยชน์ใด เช่น ข้อมูลยอดขายย้อนหลัง 30 ปี อาจพบว่า มีการเปลี่ยนพฤติกรรมการซื้อไปแล้ว ใช้ข้อมูลได้เพียง 3 ปีย้อนหลังก็เป็นได้ 2. Velocity หมายถึง ความเร็ว ทั้งในมุมของการสร้างข้อมูล และการประมวลผล Big Data ต้องถูกใช้งานโดยเร็ว เนื่องจากข้อมูลเกิดขึ้นอยู่ตลอดเวลา เช่น การทำ Fault Detection ในระบบการธนาคาร ที่ต้องดึงข้อมูลมาจากหลายแหล่ง และต้องมีการกระทำอย่างต่อเนื่องแบบ Real-Time 3. Variety หมายถึง ความหลากหลาย ในที่นี้คือความหลากหลายของตัวข้อมูล และชนิดของข้อมูล ตัวอย่างเช่น เมื่อเราป่วย ไปโรงพยาบาล สิ่งที่คุณหมอถามเราคือ “มีอาการอย่างไร” นั้นก็ถือว่าเป็นข้อมูลรูปแบบหนึ่งที่เป็นข้อความ ต่อมานางพยาบาลจะเข้ามาวัดความดัน ส่วนสูง น้ำหนัก ทั้งหมดนี้เป็นข้อมูลรูปแบบตัวเลข หากต้องมีการ X-Ray ก็จะได้ข้อมูลประเภทรูปภาพอีกด้วย เหล่านี้เป็นข้อมูลเพื่อประกอบการวินิจฉัยของแพทย์ทั้งสิ้น 4. Veracity หมายถึง ความแม่นยำ เพราะข้อมูลประเภท Big Data มีขนาดใหญ่ ที่ต้องการความเร็วในการใช้งาน และมีความหลากหลายสูง ดังนั้นในตัวข้อมูลเองจะมีความไม่แน่นอนรวมอยู่ด้วย ซึ่งอาจจะเกิดจาก Error ต่างๆ ระหว่างการสร้างข้อมูล หรือเป็นข้อมูลที่อยู่นอกกรอบก็เป็นได้ การทำให้ข้อมูลสะอาด ไม่มีการซ้ำซ้อนของชุดข้อมูล เป็นเรื่องที่ยากลำบากที่สุด และเป็นขั้นตอนที่ใช้เวลานานที่สุด แต่ถือว่าเป็นส่วนที่สำคัญที่สุดของการทำ Big Data Project Size หรือ ใหญ่อย่างเดียวจึงไม่ตอบโจทย์ทั้งหมดของ Big Data หากอยากทราบว่า ข้อมูลต้องใหญ่ขนาดไหน ต้องนำ Data นั้นไปใช้ประโยชน์ หรือ สร้าง Model เสียก่อน เพื่อให้ผลลัพธ์ของ Model เป็นตัวบ่งบอกว่าพอหรือไม่ แต่ทั้งนี้ ไม่ต้องกังวลกับขนาดของข้อมูล หากข้อมูลยังไม่พอ อย่างน้อยก็ผลลัพธ์จาก Model จะบอกได้ต่อว่ายังขาดอะไรแค่ไหน สุดท้ายนี้ ที่สำคัญ คือ การต้องนำ Data ไปใช้ให้เกิดประโยชน์สูงสุด ไม่ใช่การต้องมี Data ที่ใหญ่ที่สุด ใหญ่แล้วเก็บเอาไว้ไม่นำไปสร้างประโยชน์ ก็ไม่มีผลลัพธ์ใดเกิดขึ้นได้ มาถึงปัจจุบันนี้ ยุค Digital ปัญหา คงไม่ใช่เรื่องการไม่มีข้อมูลอีกเสียแล้ว แต่คงเป็น “การไม่สามารถตั้งโจทย์ ตั้งเป้าหมายของการทำโครงการได้” ต่างหาก
เพราะคำว่า Big เป็นคำคุณศัพท์ที่หมายถึงขนาดใหญ่ ทำให้คำแปลของ Big Data ในภาษาไทย จึงแปลว่า “อภิมหาข้อมูล” เมื่อคำนิยามบ่งบอกว่า “ใหญ่”...