Big Data และทางเเก้ไข

เป็นเวลาเกือบหนึ่งทศวรรษหรือมากกว่านั้นแล้วที่เวนเดอร์ ผู้ให้คำปรึกษา ตลอดไปจนถึงลูกค้าของพวกเขาได้พูดคุยกันในแง่ของโครงสร้างข้อมูลหรือ Data Fabric ถ้าหาก “Big Data (ข้อมูลขนาดใหญ่)” เป็นปัญหาที่ต้องแก้ไข Data Fabric ก็แนะนำทางแก้ไว้เสร็จสรรพแล้ว John Mashey (จอห์น แมชีย์) หัวหน้านักวิทยาศาสตร์ที่ Silicon Graphics ใช้ศัพท์คำว่า “Big Data” เพื่อบรรยายถึงชุดข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้างและผลกระทบที่ของมันมีต่อโครงสร้างพื้นฐานในสไลด์นำเสนอในปี 1998 อีกทั้ง Apache Hadoop ได้รับความนิยมขึ้นมาหลังจากวิศวกรคนหนึ่งที่ New York Times ได้เขียนบล็อกในปี 2009 เกี่ยวกับการผสมผสาน PDF แบบอัตโนมัติโดยใช้ Hadoop ( Big Data และทางเเก้ไข )

ศัพท์คำว่า “Data Lake” เริ่มมาเป็นที่นิยมในต้นทศวรรษ 2010 เพื่อบรรยายถึงวิธีที่ไม่เป็นทางการในการทำให้ทีมวิเคราะห์สามารถเข้าถึงข้อมูลหลายประเภทได้ Data Lake ช่วงแรก ๆ เกี่ยวข้องกับคลังแบบกระจายตามแนวทางของ Hadoop สำหรับการวิเคราะห์ที่เรียบง่าย (10000 โหนดคลัสเตอร์ของ Yahoo ซึ่งได้แรงบันดาลใจจากการเก็บข้อมูลแบบกระจายภายในช่วงแรก ๆ ของ Google )

แต่เมื่อองค์กรเพิกเฉยต่อ Data Lake ของพวกเขา นักวิจารณ์จึงรีบเรียกมันว่า “Data Swamp” แต่การใช้ Data Lake ยังคงมีต่อไปไม่น้อยลงเลย อาจเพราะว่า Data warehouse ก็มักไม่ได้รับการดูแลอย่างดีเช่นกัน

Data Fabric

ในปี 2014 SAP ใช้ “In-memory Data Fabric” เพื่ออธิบายถึงคลังข้อมูลออนไลน์ ซึ่งเป็นองค์ประกอบหลักของสายผลิตภัณฑ์ “360-degree Customer View ” จาก HANA ทุกวันนี้ Gartner ก็ใช้ศัพท์คำว่า “Data Fabric” เพื่อหมายถึงวิธีครบวงจรของการผสมผสานข้อมูลที่ต่างชนิดกัน  เมื่ออ้างอิงจากโพสต์ในปี 2021 เรื่องสถาปัตยกรรม Data Fabric:

“[Data Fabric] คือแนวความคิดซึ่งทำหน้าที่เป็นข้อมูลหลายระดับชั้น (Fabric) ซึ่งผสมผสานกันและเป็นกระบวนการที่เชื่อมโยงกัน Data Fabric ใช้ประโยชน์จากการวิเคราะห์ Metadata Asset ที่มีอยู่ ค้นพบได้ อนุมานได้ อย่างต่อเนื่อง เพื่อสนับสนุนการออกแบบ การจัดสรร และการใช้ข้อมูลที่ผสมผสานและใช้ซ้ำใหม่ในเงื่อนไขต่าง ๆ ได้ ซึ่งรวมไปถึงแพลตฟอร์มไฮบริดและ Multi-cloud อีกด้วย

“Data Fabric ใช้ประโยชน์จากศักยภาพของทั้งมนุษย์และเครื่องจักรเพื่อเข้าถึงข้อมูลที่มีอยู่ อีกทั้งยังระบุและเชื่อมโยงข้อมูลจากการใช้งานที่แตกต่างกันเพื่อค้นพบความสัมพันธ์เชิงธุรกิจใหม่ ๆ ระหว่าง  Data Point ที่มีอยู่”

Gartner เผยแพร่รายงานเรื่องการบริหารข้อมูลของ “AI-enabled” และทิศทางการเปลี่ยนแปลงของการบริหารข้อมูล “Data Fabric” จึงกลายมาเป็นวิธีลัดสำหรับเทคนิคการบริหารข้อมูลที่สมัยใหม่ที่มีศักยภาพมากกว่า

Data Mesh

Zhamak Dehghani (ซามัค เดคานี) ผู้อำนวยการฝ่ายเทคโนโลยีอุบัติใหม่ที่ Thoughtworks กับทีมงานของเธอ คิดค้นแนวคิดของ “Data Mesh” ขึ้นมาว่าเป็นอีกทางเลือกหนึ่งของคลังข้อมูลและ Data Lake ซึ่งเชื่อมกับโดเมนและเป็นแบบกระจาย ี่ Thoughtworks เปรียบเปรยว่าการใช้งานนั้นเป็นเหมือน Data Plane สองอัน-อันหนึ่งเป็นฝ่ายปฏิบัติการและอีกอันเป็นฝ่ายวิเคราะห์

แนวคิดเรื่อง Data Mesh ของ Thoughtworks มุ่งเน้นที่วิธีที่ใช้โดเมนมากกว่าวิธี Monolithic ของสถาปัตยกรรมเชิงวิเคราะห์ เจ้าของ Domain Data ต้องรับผิดชอบต่อการมอบข้อมูลที่กลายเป็นผลิตภัณฑ์ให้กับผู้ใช้งาน  “ข้อมูลในฐานะผลิตภัณฑ์” หมายความว่าข้อมูลที่ให้นั้นต้องมีคุณภาพ สมบูรณ์ สภาพพร้อมใช้งานและอื่น ๆ ที่จำเป็นสำหรับผู้ใช้ที่จะสามารถพึ่งพามันได้

ตามมุมมองนี้ ผลิตภัณฑ์ข้อมูลคือ “Architectural Quantum หรือควอนตัมคอมพิวเตอร์เชิงสถาปัตยกรรม” ผลิตภัณฑ์นี้เป็นหน่วยสถาปัตยกรรมที่เล็กที่สุดที่สามารถทำงานด้วยกันได้ดีด้วยตัวมันเอง ด้วยเหตุผลนี้แต่ละผลิตภัณฑ์จึงมีรหัส ข้อมูล Metadata และโครงสร้างพื้นฐานรวมอยู่ด้วย

เป้าหมายที่ครอบคลุมของแพลตฟอร์ม Data Mesh ซึ่งประกอบด้วยควอนตัมคอมพิวเตอร์เฉพาะโดเมนเหล่านี้คือการวิเคราะห์ตนเองแบบที่สามารถวัดได้ แต่ละแพลตฟอร์มจะมี 3 เพลน (Plane) ได้แก่ เพลนสำหรับการจัดสรรโครงสร้างพื้นฐาน เพลนสำหรับประสบการณ์ของผู้พัฒนา และเพลนสำหรับการดูแลงาน นอกจากนี้ Thoughtworks ยังมีวิสัยทัศน์ถึงระบบการกำกับดูแลแบบศูนย์รวมที่ซับซ้อนในการบริหารนโยบายต่าง ๆ ตลอดทั่วแพลตฟอร์ม

แนวคิดเรื่อง Data Mesh ยังอยู่ในระยะเริ่มต้น วิสาหกิจผู้ทำความเข้าใจเรื่อง Data Mesh บอกว่า Data Mesh ไม่ใช่จุดหมายปลายทางแต่เป็นการเดินทางมากกว่า ความพยายามในช่วงแรกมักใช้ไปกับการค้นคว้า หาวิธีที่จะนำไปใช้ให้เกิดประโยชน์ที่สุด และจัดสรรทรัพยากรที่ Data Mesh จำเป็นต้องใช้ Tareq Abedrabbo (ทาเรค อะเบดรับโบ) หัวหน้าวิศวกรข้อมูลหลักของผู้ให้บริการแพลตฟอร์มแลกเปลี่ยน CMC Markets อธิบายในการสัมภาษณ์กับ InfoQ ถึงความท้าทายของการค้นหาข้อมูลที่ CMC ต้องเผชิญเมื่อใช้ Data Mesh ตัวอย่างเช่น ตามหลักการแล้วข้อมูลต้องกระจายออกจากศูนย์กลาง แต่วิธีการอย่างเช่น SQL กลับจำเป็นต้องมีการรวมข้อมูลสู่ศูนย์กลาง

Knowledge Graph

ศัพท์คำว่า Knowledge Graph เริ่มได้รับความนิยมตั้งแต่เมื่อ Google บัญญัติขึ้นมาในปี 2012 ตลอดทศวรรษที่ผ่านมา มากกว่า 90 เปอร์เซ็นต์ของบริษัททางเทคโนโลยียักษ์ใหญ่ของโลกได้สร้างและใช้ Knowledge Graph ตั้งแต่ผู้นำในวงการเภสัช รัฐบาล บริการการเงิน การผลิต และร้านค้าออนไลน์ต่างก็ใช้ Knowledge Graph

การใช้ Knowledge Graph ที่พบบ่อยและโดนเด่นที่สุดคือการใช้วิวัฒนาการของเทคโนโลยี Semantic Web Stack (การซ้อนกันของเว็บความหมาย) ซึ่งถูกพัฒนาและปรับปรุงมามากกว่าสองทศวรรษ แรงบันดาลใจดั้งเดิมของ Tim Berners-Lee สำหรับ Semantic Web คือให้เป็น “Web of Data (เครือข่ายข้อมูล)” โดยมีเนื้อหา, การนิยามความหมาย (ontologies) และข้อมูลเชิงสัมพันธ์รวมไว้อยู่ใน Entity เดียวกัน + ความสัมพันธ์หรือลักษณะที่มีภาคประธาน ภาคแสดง ภาคกรรมพ่วงมา 

นอกจากนี้ยังมีการวางกรอบความคิดอื่น ๆ มากมายเกี่ยวกับ Knowledge Graph ซึ่งมากเกินกว่าจะกล่าวถึงทั้งหมดในโพสต์บล็อกสั้น ๆ นี้ ทางเลือกอื่น ๆ หลายอันมีวิสัยทัศน์ถึงการอัตโนมัติเต็มรูปแบบโดยทาง NLP เชิงสถิติแบบสแตนด์อโลนและวิธีการที่เกี่ยวข้องที่ยังไม่ได้มีการพิสูจน์ว่าสามารถทำงานได้ด้วยตัวมันเอง ความแตกต่างหลักระหว่างวิธีการทั้งสามที่อธิบายไว้ด้านล่างขึ้นอยู่กับที่มาและวัตถุประสงค์ของแต่ละวิธี:

วิธีการที่มาและวัตถุประสงค์สถานภาพปัจจุบัน
Data Fabricขยายขนาดและเปลี่ยนคลังข้อมูลให้เป็นระบบคอมพิวเตอร์และการบริหารข้อมูลแบบ RDBMSมีการใช้งานที่เพิ่มขึ้นถึงแม้จะมีข้อจำกัดอยู่หลายอย่างและอยู่ภายในขอบเขตงานของตนเอง
Data Meshแบ่งแยกและควบคุมตามโดเมน; ใช้หลักการออกแบบและบังคับควบคุมในหลาย ๆ ระดับเพื่อให้แน่ใจว่าข้อมูลในฐานะผลิตภัณฑ์นั้นมีคุณภาพบริการตนเองและมีความสามารถในการปรับระดับได้เป็นวิสัยทัศน์ยิ่งใหญ่พร้อมความเข้าใจลึกซึ้งเชิงสถาปัตยกรรมบางอย่างที่เป็นประโยชน์ แต่ดูเหมือนจะก่อปัญหาที่ไม่จำเป็นขึ้นมาเมื่อบางเรื่องได้ถูก้แก้ไขไว้นานแล้ว
ณ ปัจจุบันนี้ส่วนใหญ่เป็นเรื่องความทะเยอทะยานในการทำให้สำเร็จ
Knowledge Graph (W3C)ช่วยให้แน่ใจว่ามีความหมายที่สอดคล้องกันในข้อมูลทั้งหมดและในภววิทยาเฉพาะโดเมนหรือโมเดลข้อมูล

เนื้อหา ความรู้ และแผนกที่บริหารข้อมูลทั้งหมดต่างทำงานร่วมกันโดยใช้วิธีการที่ผสมผสานและการทำงานแบบเดียวกัน
ผู้ที่ใช้วิธีการ W3C แบบคลาสสิคก็พัฒนาขึ้น ถึงแม้ว่าจะวิจารณ์และบ่นแต่ก็พยายามแยกไปตามทางของตน โดยปัจจุบันมีความสำเร็จใหญ่ ๆ ให้เห็นบ้าง

อย่างไรก็ตามกลุ่มที่เชื่อในการนำไปใช้แบบเชิงสัญลักษณ์ (การแทนความรู้/W3C) และเชิงสถิติ (การเรียนรู้เชิงลึก/NLP) ส่งผลให้เกิดการยับยั้งในการยอมรับ

การวิเคราะห์ของ Google Trends เรื่องความนิยมในการค้นหาคำศัพท์สามคำนั้นในปีที่ผ่านมายกให้ Knowledge Graph เป็นอันดับหนึ่ง Data Mesh เป็นอันดับสองและ Data Fabric เป็นอันดับสาม

ไม่มีวิธีไหนในสามวิธีนี้ที่ง่ายและสามารถนำมาใช้งานได้เลย แม้ว่า Data Fabric จะใช้การลงทุนด้านองค์กรน้อยทีสุด แต่ก็ให้ผลลัพธ์ที่คุ้มค่าน้อยที่สุดเช่นกัน ขณะที่ Data Mesh ก็ถูกพูดถึงโดยผู้พัฒนาและหลักการทำงานของมันมากกว่า ส่วน Knowledge Graph มีพื้นฐานมาจากการใช้นำเสนอข้อมูลและ Logic Programming จึงไม่ใช่หัวข้อที่เจ้าหน้าที่ไอทีทั่วไปจะคุ้นเคยนัก

KM Shop ในองค์กรแห่งหนึ่งจะสามารถมีทักษะภายในเทียบเท่าเจ้าหน้าที่วิศวกรไอทีได้ ก็ต่อเมื่อมีพรสวรรค์เท่านั้น กราฟต้องอาศัยความสามารถในการจูงใจมากกว่า และต้องพึ่งความสามารถในการหาผู้ฟังที่เปิดรับ พร้อมกับงบประมาณให้เสี่ยง แต่ประโยชน์จากการนำไปใช้งานได้จริงอาจมีมากกว่าที่คิด และส่วนมากขึ้นอยู่กับเห็นคุณค่าในประโยชน์ที่ตามมาเหล่านี้และทำความเข้าใจให้มากขึ้น

บทความโดย Alan Morrison
เนื้อหาจากบทความของ TechTarget
แปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะ
ตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์

Recommended Posts