สำหรับนักเขียนโปรแกรมหลายคน คงจะเริ่มรู้จักคำว่า data science หรือวิทยาศาสตร์ข้อมูลกันมา 2-3 ปีแล้ว ในวงการนักเขียนโปรแกรม นอกจากการเขียน web programming แล้ว เช่นภาษาด้าน java, Microsoft dotnet ฯลฯ
เรื่องโปรแกรมที่จัดการฐานข้อมูลก็เป็นเรื่องที่สำคัญมาก
เพราะว่าฐานข้อมูล ก็คือแหล่งที่จัดเก็บข้อมูลภายในระบบที่เราสนใจ ฐานข้อมูลมีหลายค่าย หลายบริษัททั้ง oracle,ms sql server, my sql, db2, netteza
และด้วยความที่โลกยุคปัจจุบัน เกี่ยวข้องกับเรื่องของเว็บ หรือข้อมูลที่เป็นข้อมูลออนไลน์มากขึ้น จึงจำเป็นต้องมีการจัดการเกี่ยวกับข้อมูลจำนวนมหาศาลเหล่านี้ให้ได้ เช่นข้อมูลการล็อกอิน,ล็อกเอาต์ออกจาก facebook, ประวัติการแชท การพูดคุย
ทำให้เทคโนโลยีเรื่อง big data หรือการจัดการข้อมูลขนาดมหึมา เป็นเรื่องที่น่าสนใจมาก ทั้งนี้ อาชีพที่เกี่ยวข้องกับศาสตร์ด้านการจัดการข้อมูลขนาดใหญ่ จะมีอยู่สามสาขาอาชีพคือ data scientist นักวิทยาศาสตร์ข้อมูล, data engineer นักวิศวกรรมข้อมูล, data analyst นักวิเคราะห์ข้อมูล
ซึ่งทั้งสามสาขาอาชีพนี้จะมีความแตกต่างกัน ตาม บทบาทและการนำ data ไปใช้งาน
หลักของการนำ data ขนาดใหญ่มาใช้งานคือ data นั้นต้องมีความน่าเชื่อถือ และไม่เป็น data ที่มีความซับซ้อนกัน กระบวนการทำให้ data มีความเป็นระเบียบ คือการทำ data cleansing
การทำ data cleansing มีกระบวนการหลักๆอยู่สี่ขั้นตอนคือ 1.จัดกลุ่มข้อมูลให้เป็นประเภทเดียวกัน 2.ตรวจสอบความถูกต้องของข้อมูล 3.การลดความซับซ้อนกันของข้อมูล 4.วิเคราะห์คุณภาพของข้อมูล-การนำข้อมูลไปใช้
การจัดการข้อมูลขนาดใหญ่ สิ่งไหนที่เป็นหลักของข้อมูลขนาดใหญ่คือ
1.ขนาดของข้อมูล หรือ Volume big data เป็นข้อมูลขนาดใหญ่ที่มาจากหลายแหล่ง เช่นมาจาก facebook, email,line เรียกง่ายๆ ว่าเป็นการเก็บข้อมูลจากสื่อโซเชียลทั้งหมด
2.การแข่งขันกันในเชิงธุรกิจ แน่นอนว่าความเร็วเป็นเรื่องที่สำคัญมาก เพราะหากบริษัทสามารถวิเคราะห์พฤติกรรมและความน่าจะเป็นของผู้บริโภคได้เร็ว บริษัทนั้นก็จะได้เปรียบเพราะว่าจะออกแบบสินค้าหรือผลิตภัณฑ์ให้ตรงตามความต้องการของลูกค้าได้
3.ด้วยความที่บางครั้งข้อเสนอแนะจากลูกค้า อาจจะมาจากหลายแหล่ง และเป็นข้อมูลที่ไม่มีรูปแบบ เช่นการให้ความเห็นของการใช้งานสินค้า ทางองค์กรจะต้องพยาพยามเก็บรวบรวมข้อมูลทั้งหมดเหล่านี้ให้ได้ เช่น ข้อมูลประเภทเสียงมาจากโทรศัพท์, วิดีโอคอล, ข้อมูลจากอีเมล์, facebook, line
สำหรับรายได้ของผู้ประกอบวิชาชีพคอมพิวเตอร์ ทั้งสามอาชีพที่กล่าวมา หากว่ามีความเชี่ยวชาญตั้งแต่ระดับกลางขึ้นไป (intermediate) อาจจะมีเงินรายได้มากกว่า 5-6 หลัก ดังนั้นในยุคของโลกที่เปลี่ยนแปลงไป การจัดการด้านข้อมูลขนาดใหญ่จะเป็นเทรนด์ที่สามารถนำมาประยุกต์ใช้ และเปลี่ยนแปลงโลกในทุกวันนี้
เราอาจสรุปถึงความสำคัญของ การจัดการข้อมูลจขนาดใหญ่คือ 1.ช่วยลดค่าใช้จ่าย,2.ลดเวลา,3.เกิดการคิดค้นสินค้าใหม่ๆ,4.ช่วยให้เข้าพฤติกรรมของลูกค้า