Taking too long? Close loading screen.

ดาต้าแคตตาล็อก (Data Catalog) จะช่วยเตรียมความพร้อมรับมือ COVID-19 ได้อย่างไร

May 5, 2020

จากสถานการณ์โควิด 2019 ที่ส่งผลกระทบเป็นวงกว้างในระดับประเทศและระดับโลกนั้น ถือเป็นความท้าทายสำคัญที่รัฐบาลของแต่ละชาติเผชิญรวมทั้งรัฐบาลของประเทศไทยเรา หลายภาคส่วนทั้งหน่วยงานในภาครัฐ ภาคเอกชน และประชาชน มีคำถามหลากมิติที่ต้องการคำตอบจากรัฐบาล ไม่ว่าจะเป็น คำถามเชิงเศรษฐกิจ เช่น ภาวะไข่ขาดตลาด คำถามเชิงความพร้อมด้านสาธารณสุข เช่น การเตรียมสถานที่กักกันตัว การเตรียมบุคลากรเพื่อรับมือต่อสถานการณ์ที่เป็นอยู่และที่จะเกิดขึ้น


คำถามเหล่านี้จำเป็นต้องใช้ข้อมูลมากมายมหาศาล จากหลากหลายภาคส่วน ซึ่งถึงแม้ข้อมูลเหล่านี้จะเป็นข้อมูลที่แต่ละหน่วยงานภาครัฐทั้งระดับกรม หรือกระทรวงถือครอง ตามพันธกิจของแต่ละหน่วยงานอยู่แล้ว ทว่าในมุมมองของเอกชนหรือภาคเอกชนที่อาจต้องการใช้ข้อมูลที่รัฐมีอยู่นั้น หรือแม้แต่ในมุมมองของคนทำงาน ไม่ว่าจะเป็นข้าราชการ พนักงานของรัฐ หรือเจ้าหน้าที่ลักษณะอื่นใดที่ทำงานให้กับภาครัฐเอง การจะตระหนักรู้ และเข้าใจถึงอำนาจหน้าที่ของล้านแปดหน่วยงานของรัฐที่ทำงานภายใต้รัฐบาลเพื่อรับใช้ประชาชนนั้นเป็นสิ่งที่ต้องอาศัยประสบการณ์และความเชี่ยวชาญ

ความรู้ในส่วนนี้เป็นสิ่งที่จำเป็นต้องอาศัยเวลาเพื่อศึกษา ค้นคว้า ค้นหา ทดลองติดต่อ โทรผิดโทรถูก

เมื่อเกิดคำถามว่าจะทราบได้อย่างไรว่าข้อมูลส่วนไหนถูกเก็บ ถือครอง หรือเป็นความรับผิดชอบของกระทรวง กรม กองอะไร ที่ผ่านมานั้นความรู้ในส่วนนี้เป็นสิ่งที่จำเป็นต้องอาศัยเวลาเพื่อศึกษา ค้นคว้า ค้นหา ทดลองติดต่อ โทรผิดโทรถูก กูเกิลเจอบ้างไม่เจอบ้าง ทำให้ความสามารถในการล่วงรู้ประเภท ลักษณะของข้อมูล และแม้แต่ความสามารถที่จะรู้ว่าข้อมูลเหล่านี้ถูกรับผิดชอบโดยหน่วยงานกรมไหนกองใดนั้น กลายเป็นสิ่งที่จำเป็นต้องอาศัยประสบการณ์ กึ๋น และความเก๋าของแต่ละปัจเจกเป็นปัจจัยสำคัญ

จะมีวิธีการใดที่จะสามารถช่วยให้เราสามารถเข้าใจถึงแหล่งข้อมูลและลักษณะของข้อมูลเหล่านี้ได้ง่ายขึ้นบ้างหรือไม่ จากคำถามนี้สถาบันส่งเสริมการวิเคราะห์และบริหารข้อมูลขนาดใหญ่ภาครัฐ (Government Big Data Institute: GBDi) จึงได้มีส่วนเข้าไปช่วยศูนย์บริหารสถานการณ์การแพร่ระบาดของโรคติดเชื้อไวรัสโคโรนา 2019 (ศบค.) จัดทำแคตตาล็อกข้อมูล (Data Catalog) เพื่อให้เจ้าหน้าที่ บุคลากร หรือผู้ที่เกี่ยวข้องได้สามารถรับรู้ เข้าใจถึงแหล่งข้อมูลเหล่านี้ได้สะดวกรวดเร็วมากขึ้น

ตัวอย่างแคตตาล็อกแหวนแต่งงาน (ภาพจาก Wiki Commons)

ถ้าถามว่าอะไรคือแคตตาล็อก (Catalog) ครั้งแรก ๆ ที่หลายคนได้ยินคำนี้อาจจะมาจากเวลาที่จะไปซื้อสินค้า อาจเป็นห้างสรรพสินค้า ซูเปอร์มาร์เก็ต ร้านขายสินค้าตกแต่งบ้าน ร้านขายเสื้อผ้า ฯลฯ ซึ่งแคตตาล็อกจะเป็นเสมือนแหล่งรวบรวมลิสต์รายการสินค้าที่ห้างร้านนั้น ๆ มีขายให้แก่ลูกค้า ผู้ที่ต้องการซื้อสินค้าสามารถเช็กตรวจสอบจากแคตตาล็อก (ซึ่งส่วนใหญ่มีลักษณะเป็นสิ่งพิมพ์บนกระดาษ อาจเย็บเข้าเล่ม) ได้ โดยที่ไม่จำเป็นต้องไปเดินไล่ดูในโกดังสินค้า ซึ่งแคตตาล็อกเหล่านี้จะมีข้อมูลสินค้าชิ้นนั้น ๆ โดยสังเขปให้ผู้ที่สนใจสามารถเลือกได้ว่าตรงกับความสนใจของตนมากน้อยแค่ไหน ยกตัวอย่างหากเป็นเฟอร์นิเจอร์ ก็อาจบอกราคา สี ขนาด ความกว้างยาวสูง วัสดุที่ใช้ เป็นต้น ข้อมูลเหล่านี้เป็นสิ่งที่จะช่วยให้ข้อมูลสินค้าชิ้นนั้น ๆ ให้แก่ลูกค้าโดยที่ไม่จำเป็นต้องเห็นตัวสินค้าจริง

รายการสินค้าที่จะลิสต์ออกมาคือลิสต์ชุดข้อมูลเป็นสำคัญ แทนที่จะเป็นเฟอร์นิเจอร์ อุปกรณ์แต่งบ้าน เสื้อผ้า ฯลฯ อย่างที่เราคุ้นเคยกัน

Data Catalog ก็เช่นเดียวกันกับแคตตาล็อกสินค้าที่ได้ยกตัวอย่างมาในข้างต้น เพียงแต่ในคราวนี้รายการสินค้าที่จะลิสต์ออกมาให้เราได้เลือกสรรคือลิสต์ชุดข้อมูลเป็นสำคัญ แทนที่จะเป็นเฟอร์นิเจอร์ อุปกรณ์แต่งบ้าน เสื้อผ้า ฯลฯ อย่างที่เราคุ้นเคยกัน แน่นอนว่านอกจากลิสต์รายการชุดข้อมูลทั้งหมดที่มีบริการหรือที่องค์กรหนึ่ง ๆ รับผิดชอบอยู่แล้ว เพื่อให้เห็นว่าชุดข้อมูลหนึ่ง ๆ มีหน้าตาเป็นอย่างไร สิ่งจำเป็นที่ขาดไม่ได้ก็คือรายละเอียดที่อธิบายลักษณะของชุดข้อมูลชิ้นนั้น ๆ รายละเอียดของข้อมูลเหล่านี้เราเรียกว่า เมทาดาต้า (Metadata) ซึ่งหลายคนอาจเรียกกันให้เข้าใจง่าย ๆ ว่าก็คือ “ข้อมูลของข้อมูล” นั่นเอง หากเมทาดาต้าของสินค้าเฟอร์นิเจอร์จะช่วยให้เราเห็นรายละเอียดว่าเฟอร์นิเจอร์ชิ้นนั้น มีราคา สี ขนาด ความกว้างยาวสูง วัสดุที่ใช้ ฯลฯ เป็นอย่างไร เมทาดาต้าของชุดข้อมูลก็จะเป็นส่วนที่จะช่วยให้เราเห็นรายละเอียดว่าชุดข้อมูลนั้น ๆ ใครเป็นเจ้าของ มีที่มาความสำคัญ ความถี่ในการอัพเดต วิธีการติดต่อขอเข้าถึง หรือมีชั้นความลับ ฯลฯ เป็นอย่างไร

นอกจากเมทาดาต้าของข้อมูลแล้ว เพื่อให้ลูกค้าหรือผู้สนใจได้เห็นลักษณะหน้าตาของชุดข้อมูลได้ชัดเจนขึ้น อีกสิ่งหนึ่งที่มักมาคู่กันสำหรับชุดข้อมูลที่มีลักษณะเป็นโครงสร้างที่แน่นอน (Structured Data) ก็คือพจนานุกรมข้อมูล (Data Dictionary) พจนานุกรมเหล่านี้คือการลิสต์รายการหัวตาราง (Data Fields) ของชุดข้อมูลหนึ่ง ๆ เพื่อให้ลูกค้าเห็นว่าชุดข้อมูลที่ตนกำลังพิจารณาอยู่นั้นประกอบด้วยฟีลด์ชื่ออะไรบ้าง และฟีลด์นั้น ๆ เก็บข้อมูลอะไร มีลักษณะรูปแบบหรือฟอร์แม็ตเป็นแบบไหน เป็นต้น ยกตัวอย่างเช่นหากมีฟีลด์ที่ชื่อ dob บางคนที่ไม่คุ้นก็อาจไม่ทราบว่าฟีลด์นี้เก็บข้อมูลวันเกิด หรือหากรู้ก็อาจต้องการเห็นคร่าว ๆ ว่า เก็บเป็นปี พ.ศ. หรือ ค.ศ. กันแน่ หรือในกรณีที่หากเป็นฟีลด์ที่เก็บข้อมูลที่จัดกลุ่มลงประเภทไว้ (Categorical Data) ผู้สนใจก็อาจต้องการทราบว่ามีหมวดหมู่อะไรที่เป็นไปได้สำหรับฟีลด์นั้นบ้าง การมีพจนานุกรมข้อมูลจะช่วยเพิ่มความชัดเจนในข้อมูลแต่ละชิ้นได้ดีขึ้น

เว็บแอปพลิเคชั่นดาต้าแคตตาล็อก รวบรวมชุดข้อมูลเผยแพร่สาธารณะของรัฐบาลไทย

เมื่อทราบเช่นนี้แล้ว ขั้นตอนแรกของการจัดทำดาต้าแคตตาล็อกจึงอาจเริ่มจากการสืบสาวไล่เรียงลิสต์รายการชุดข้อมูลที่จะเป็นประโยชน์ในการนำไปใช้แก้ปัญหาหรือตอบคำถามในหัวข้อที่ต้องการตามด้วยการตรวจสอบให้แน่ชัดว่าชุดข้อมูลเหล่านั้นมีเก็บรักษาอยู่จริงในโกดังที่ใดที่หนึ่ง ก่อนจะสืบเสาะค้นหาเมทาดาต้าสำหรับชุดเหล่านั้น และเรียบเรียงรวบรวมเมทาดาต้า (และพจนานุกรมข้อมูล หากเป็นไปได้) ของชุดข้อมูลเหล่านี้ให้อยู่ในที่ทางเดียวกัน อาจเป็นในรูปแบบตารางรายชื่อ เป็นรายงาน หรือหากจะให้ค้นหาได้ง่ายเหมือนตอนเสิร์ชหาข่าวซุบซิบดาราจากหน้ากูเกิล ก็อาจทำเป็นแอปพลิเคชันสำหรับให้ผู้สนใจเข้ามาค้นหาจากระบบผ่านคอมพิวเตอร์ได้ (ดูเพิ่มเติมเกี่ยวกับ Data Catalog)

สามารถเข้ามาสืบค้นจากแคตตาล็อกเพื่อตรวจสอบว่าข้อมูลลักษณะดังกล่าวถูกดูแลโดยหน่วยงานใดบ้าง

เมื่อรวบรวมรายการชุดข้อมูลได้แล้ว การจะค้นหาข้อมูลที่ต้องการก็สามารถทำได้สะดวกง่ายดายมากขึ้น เมื่อผู้ใช้ข้อมูลได้เห็นว่าจะตามหาข้อมูลที่ตนต้องการได้จากที่ไหนผ่านรายละเอียดชุดข้อมูลที่ระบุไว้ในเมทาดาต้าของชุดข้อมูลชิ้นนั้น ๆ ก็จะช่วยให้ผู้ใช้ข้อมูลเหล่านั้นสามารถเข้าถึงข้อมูลและนำไปใช้จัดทำพัฒนาระบบต่าง ๆ ได้อย่างรวดเร็วมากขึ้น ยกตัวอย่างเช่น หากรัฐบาลต้องการสร้างแผนที่แสดงข้อมูลปริมาณการซื้อขายไข่ไก่ในแต่ละวันตามแต่ละท้องที่ ทางหน่วยงานก็สามารถเข้ามาสืบค้นจากแคตตาล็อกที่จัดทำไว้เพื่อตรวจสอบว่าข้อมูลลักษณะดังกล่าวถูกดูแลโดยหน่วยงานใดบ้าง ข้อมูลจากกระทรวงพาณิชย์สามารถให้คำตอบได้ครบถ้วนตามความต้องการแล้วหรือไม่อย่างไร

หนึ่งในปัญหาปากท้องสำคัญในยุคโควิดได้แก่ปัญหาราคาไข่ไก่ (ภาพจาก pixabay)

อีกตัวอย่างหนึ่งคือในกรณีที่มีหน่วยงานที่รับผิดชอบต้องการพัฒนาระบบจัดเตรียมสถานที่กักตัวรับมือสถานการณ์โควิดที่ระบาดอยู่ในปัจจุบัน ผู้พัฒนาระบบก็สามารถสืบค้นจากดาต้าแคตตาล็อกเพื่อจัดเตรียมระบบให้รองรับการบูรณาการข้อมูลจากกระทรวงการต่างประเทศที่ดูแลข้อมูลผู้แสดงความจำนงกลับเข้าประเทศ เชื่อมโยงเข้ากับข้อมูลการบินจากบริษัท ท่าอากาศยานไทย จำกัด ประกอบร่วมกับข้อมูลผู้เดินทางเข้าออกประเทศซึ่งดูแลโดยสำนักงานตรวจคนเข้าเมือง ก่อนจะนำข้อมูลที่ได้ประกอบเข้ากับข้อมูลสถานที่กักตัวซึ่งบริหารจัดการผ่านกระทรวงกลาโหม

จะเห็นได้ว่าบริการดาต้าแคตตาล็อกที่จัดทำขึ้นสามารถใช้เป็นเครื่องมือหนึ่งเพื่อช่วยในการศึกษาพิจารณาข้อมูลสำหรับพัฒนาระบบอื่น ๆ ได้รวดเร็วขึ้น แทนที่ผู้พัฒนาระบบแต่ละรายจะต้องเข้าติดต่อหน่วยงานเจ้าของข้อมูลเหล่านี้เป็นรายเป็นครั้งไป


ดาต้าแคตตาล็อกช่วยให้การทำงานด้านข้อมูลง่ายขึ้นทั้งในระดับผู้บริหาร และเจ้าหน้าที่ระดับปฏิบัติงาน

ในองค์กรที่มีหลากหลายแผนกนั้น เป็นไปไม่ได้เลยที่การบริหารจัดเก็บข้อมูลจะเกิดจากส่วนกลางเพียงหน่วยเดียว โดยทั่วไปข้อมูลอาจถูกเก็บกระจัดกระจายขึ้นกับพันธกิจของแต่ละแผนก เมื่อเป็นเช่นนี้แล้วจึงเป็นเรื่องยากที่ผู้บริหารสูงสุดจากส่วนกลางจะสามารถเข้าใจหรือมองเห็นลักษณะข้อมูลที่แต่ละหน่วยแต่ละภาคส่วนดูแลรับผิดชอบ การจัดทำดาต้าแคตตาล็อกจึงเป็นส่วนสำคัญที่จะช่วยให้ผู้บริหารระดับสูงได้เห็นภาพรวมของลักษณะข้อมูลที่จัดเก็บอยู่ในแต่ละฝ่ายว่ามีความครบถ้วนครอบคลุมแล้วหรือไม่อย่างไร นอกจากนี้ยังช่วยให้พนักงานได้เข้าใจลักษณะข้อมูลที่อยู่ในความรับผิดชอบของอีกฝ่ายที่ตนไม่ได้สังกัดอยู่ได้ดีขึ้น เมื่อมีความต้องการใช้ข้อมูลชิ้นใด ๆ ก็อาจสามารถติดต่อขอข้อมูลจากอีกแผนกได้โดยตรง ซึ่งจะช่วยลดการเก็บข้อมูลซ้ำซ้อนโดยไม่จำเป็นได้อีกด้วย

Peeradon Samasiri, PhD

Project Manager and Senior Data Scientist at Government Big Data Institute (GBDi)

Sign up to join Big Data Community Thailand

Make comments, write articles, and contribute to our community.