Taking too long? Close loading screen.

เปรียบเทียบ Data Fabric, Data Mesh และ Knowledge Graph

Jul 30, 2022
Big Data และทางเเก้ไข

เป็นเวลาเกือบหนึ่งทศวรรษหรือมากกว่านั้นแล้วที่เวนเดอร์ ผู้ให้คำปรึกษา ตลอดไปจนถึงลูกค้าของพวกเขาได้พูดคุยกันในแง่ของโครงสร้างข้อมูลหรือ Data Fabric ถ้าหาก “Big Data (ข้อมูลขนาดใหญ่)” เป็นปัญหาที่ต้องแก้ไข Data Fabric ก็แนะนำทางแก้ไว้เสร็จสรรพแล้ว John Mashey (จอห์น แมชีย์) หัวหน้านักวิทยาศาสตร์ที่ Silicon Graphics ใช้ศัพท์คำว่า “Big Data” เพื่อบรรยายถึงชุดข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้างและผลกระทบที่ของมันมีต่อโครงสร้างพื้นฐานในสไลด์นำเสนอในปี 1998 อีกทั้ง Apache Hadoop ได้รับความนิยมขึ้นมาหลังจากวิศวกรคนหนึ่งที่ New York Times ได้เขียนบล็อกในปี 2009 เกี่ยวกับการผสมผสาน PDF แบบอัตโนมัติโดยใช้ Hadoop ( Big Data และทางเเก้ไข )

ศัพท์คำว่า “Data Lake” เริ่มมาเป็นที่นิยมในต้นทศวรรษ 2010 เพื่อบรรยายถึงวิธีที่ไม่เป็นทางการในการทำให้ทีมวิเคราะห์สามารถเข้าถึงข้อมูลหลายประเภทได้ Data Lake ช่วงแรก ๆ เกี่ยวข้องกับคลังแบบกระจายตามแนวทางของ Hadoop สำหรับการวิเคราะห์ที่เรียบง่าย (10000 โหนดคลัสเตอร์ของ Yahoo ซึ่งได้แรงบันดาลใจจากการเก็บข้อมูลแบบกระจายภายในช่วงแรก ๆ ของ Google )

แต่เมื่อองค์กรเพิกเฉยต่อ Data Lake ของพวกเขา นักวิจารณ์จึงรีบเรียกมันว่า “Data Swamp” แต่การใช้ Data Lake ยังคงมีต่อไปไม่น้อยลงเลย อาจเพราะว่า Data warehouse ก็มักไม่ได้รับการดูแลอย่างดีเช่นกัน

Data Fabric

ในปี 2014 SAP ใช้ “In-memory Data Fabric” เพื่ออธิบายถึงคลังข้อมูลออนไลน์ ซึ่งเป็นองค์ประกอบหลักของสายผลิตภัณฑ์ “360-degree Customer View ” จาก HANA ทุกวันนี้ Gartner ก็ใช้ศัพท์คำว่า “Data Fabric” เพื่อหมายถึงวิธีครบวงจรของการผสมผสานข้อมูลที่ต่างชนิดกัน  เมื่ออ้างอิงจากโพสต์ในปี 2021 เรื่องสถาปัตยกรรม Data Fabric:

“[Data Fabric] คือแนวความคิดซึ่งทำหน้าที่เป็นข้อมูลหลายระดับชั้น (Fabric) ซึ่งผสมผสานกันและเป็นกระบวนการที่เชื่อมโยงกัน Data Fabric ใช้ประโยชน์จากการวิเคราะห์ Metadata Asset ที่มีอยู่ ค้นพบได้ อนุมานได้ อย่างต่อเนื่อง เพื่อสนับสนุนการออกแบบ การจัดสรร และการใช้ข้อมูลที่ผสมผสานและใช้ซ้ำใหม่ในเงื่อนไขต่าง ๆ ได้ ซึ่งรวมไปถึงแพลตฟอร์มไฮบริดและ Multi-cloud อีกด้วย

“Data Fabric ใช้ประโยชน์จากศักยภาพของทั้งมนุษย์และเครื่องจักรเพื่อเข้าถึงข้อมูลที่มีอยู่ อีกทั้งยังระบุและเชื่อมโยงข้อมูลจากการใช้งานที่แตกต่างกันเพื่อค้นพบความสัมพันธ์เชิงธุรกิจใหม่ ๆ ระหว่าง  Data Point ที่มีอยู่”

Gartner เผยแพร่รายงานเรื่องการบริหารข้อมูลของ “AI-enabled” และทิศทางการเปลี่ยนแปลงของการบริหารข้อมูล “Data Fabric” จึงกลายมาเป็นวิธีลัดสำหรับเทคนิคการบริหารข้อมูลที่สมัยใหม่ที่มีศักยภาพมากกว่า

Data Mesh

Zhamak Dehghani (ซามัค เดคานี) ผู้อำนวยการฝ่ายเทคโนโลยีอุบัติใหม่ที่ Thoughtworks กับทีมงานของเธอ คิดค้นแนวคิดของ “Data Mesh” ขึ้นมาว่าเป็นอีกทางเลือกหนึ่งของคลังข้อมูลและ Data Lake ซึ่งเชื่อมกับโดเมนและเป็นแบบกระจาย ี่ Thoughtworks เปรียบเปรยว่าการใช้งานนั้นเป็นเหมือน Data Plane สองอัน-อันหนึ่งเป็นฝ่ายปฏิบัติการและอีกอันเป็นฝ่ายวิเคราะห์

แนวคิดเรื่อง Data Mesh ของ Thoughtworks มุ่งเน้นที่วิธีที่ใช้โดเมนมากกว่าวิธี Monolithic ของสถาปัตยกรรมเชิงวิเคราะห์ เจ้าของ Domain Data ต้องรับผิดชอบต่อการมอบข้อมูลที่กลายเป็นผลิตภัณฑ์ให้กับผู้ใช้งาน  “ข้อมูลในฐานะผลิตภัณฑ์” หมายความว่าข้อมูลที่ให้นั้นต้องมีคุณภาพ สมบูรณ์ สภาพพร้อมใช้งานและอื่น ๆ ที่จำเป็นสำหรับผู้ใช้ที่จะสามารถพึ่งพามันได้

ตามมุมมองนี้ ผลิตภัณฑ์ข้อมูลคือ “Architectural Quantum หรือควอนตัมคอมพิวเตอร์เชิงสถาปัตยกรรม” ผลิตภัณฑ์นี้เป็นหน่วยสถาปัตยกรรมที่เล็กที่สุดที่สามารถทำงานด้วยกันได้ดีด้วยตัวมันเอง ด้วยเหตุผลนี้แต่ละผลิตภัณฑ์จึงมีรหัส ข้อมูล Metadata และโครงสร้างพื้นฐานรวมอยู่ด้วย

เป้าหมายที่ครอบคลุมของแพลตฟอร์ม Data Mesh ซึ่งประกอบด้วยควอนตัมคอมพิวเตอร์เฉพาะโดเมนเหล่านี้คือการวิเคราะห์ตนเองแบบที่สามารถวัดได้ แต่ละแพลตฟอร์มจะมี 3 เพลน (Plane) ได้แก่ เพลนสำหรับการจัดสรรโครงสร้างพื้นฐาน เพลนสำหรับประสบการณ์ของผู้พัฒนา และเพลนสำหรับการดูแลงาน นอกจากนี้ Thoughtworks ยังมีวิสัยทัศน์ถึงระบบการกำกับดูแลแบบศูนย์รวมที่ซับซ้อนในการบริหารนโยบายต่าง ๆ ตลอดทั่วแพลตฟอร์ม

แนวคิดเรื่อง Data Mesh ยังอยู่ในระยะเริ่มต้น วิสาหกิจผู้ทำความเข้าใจเรื่อง Data Mesh บอกว่า Data Mesh ไม่ใช่จุดหมายปลายทางแต่เป็นการเดินทางมากกว่า ความพยายามในช่วงแรกมักใช้ไปกับการค้นคว้า หาวิธีที่จะนำไปใช้ให้เกิดประโยชน์ที่สุด และจัดสรรทรัพยากรที่ Data Mesh จำเป็นต้องใช้ Tareq Abedrabbo (ทาเรค อะเบดรับโบ) หัวหน้าวิศวกรข้อมูลหลักของผู้ให้บริการแพลตฟอร์มแลกเปลี่ยน CMC Markets อธิบายในการสัมภาษณ์กับ InfoQ ถึงความท้าทายของการค้นหาข้อมูลที่ CMC ต้องเผชิญเมื่อใช้ Data Mesh ตัวอย่างเช่น ตามหลักการแล้วข้อมูลต้องกระจายออกจากศูนย์กลาง แต่วิธีการอย่างเช่น SQL กลับจำเป็นต้องมีการรวมข้อมูลสู่ศูนย์กลาง

Knowledge Graph

ศัพท์คำว่า Knowledge Graph เริ่มได้รับความนิยมตั้งแต่เมื่อ Google บัญญัติขึ้นมาในปี 2012 ตลอดทศวรรษที่ผ่านมา มากกว่า 90 เปอร์เซ็นต์ของบริษัททางเทคโนโลยียักษ์ใหญ่ของโลกได้สร้างและใช้ Knowledge Graph ตั้งแต่ผู้นำในวงการเภสัช รัฐบาล บริการการเงิน การผลิต และร้านค้าออนไลน์ต่างก็ใช้ Knowledge Graph

การใช้ Knowledge Graph ที่พบบ่อยและโดนเด่นที่สุดคือการใช้วิวัฒนาการของเทคโนโลยี Semantic Web Stack (การซ้อนกันของเว็บความหมาย) ซึ่งถูกพัฒนาและปรับปรุงมามากกว่าสองทศวรรษ แรงบันดาลใจดั้งเดิมของ Tim Berners-Lee สำหรับ Semantic Web คือให้เป็น “Web of Data (เครือข่ายข้อมูล)” โดยมีเนื้อหา, การนิยามความหมาย (ontologies) และข้อมูลเชิงสัมพันธ์รวมไว้อยู่ใน Entity เดียวกัน + ความสัมพันธ์หรือลักษณะที่มีภาคประธาน ภาคแสดง ภาคกรรมพ่วงมา 

นอกจากนี้ยังมีการวางกรอบความคิดอื่น ๆ มากมายเกี่ยวกับ Knowledge Graph ซึ่งมากเกินกว่าจะกล่าวถึงทั้งหมดในโพสต์บล็อกสั้น ๆ นี้ ทางเลือกอื่น ๆ หลายอันมีวิสัยทัศน์ถึงการอัตโนมัติเต็มรูปแบบโดยทาง NLP เชิงสถิติแบบสแตนด์อโลนและวิธีการที่เกี่ยวข้องที่ยังไม่ได้มีการพิสูจน์ว่าสามารถทำงานได้ด้วยตัวมันเอง ความแตกต่างหลักระหว่างวิธีการทั้งสามที่อธิบายไว้ด้านล่างขึ้นอยู่กับที่มาและวัตถุประสงค์ของแต่ละวิธี:

วิธีการที่มาและวัตถุประสงค์สถานภาพปัจจุบัน
Data Fabricขยายขนาดและเปลี่ยนคลังข้อมูลให้เป็นระบบคอมพิวเตอร์และการบริหารข้อมูลแบบ RDBMSมีการใช้งานที่เพิ่มขึ้นถึงแม้จะมีข้อจำกัดอยู่หลายอย่างและอยู่ภายในขอบเขตงานของตนเอง
Data Meshแบ่งแยกและควบคุมตามโดเมน; ใช้หลักการออกแบบและบังคับควบคุมในหลาย ๆ ระดับเพื่อให้แน่ใจว่าข้อมูลในฐานะผลิตภัณฑ์นั้นมีคุณภาพบริการตนเองและมีความสามารถในการปรับระดับได้เป็นวิสัยทัศน์ยิ่งใหญ่พร้อมความเข้าใจลึกซึ้งเชิงสถาปัตยกรรมบางอย่างที่เป็นประโยชน์ แต่ดูเหมือนจะก่อปัญหาที่ไม่จำเป็นขึ้นมาเมื่อบางเรื่องได้ถูก้แก้ไขไว้นานแล้ว
ณ ปัจจุบันนี้ส่วนใหญ่เป็นเรื่องความทะเยอทะยานในการทำให้สำเร็จ
Knowledge Graph (W3C)ช่วยให้แน่ใจว่ามีความหมายที่สอดคล้องกันในข้อมูลทั้งหมดและในภววิทยาเฉพาะโดเมนหรือโมเดลข้อมูล

เนื้อหา ความรู้ และแผนกที่บริหารข้อมูลทั้งหมดต่างทำงานร่วมกันโดยใช้วิธีการที่ผสมผสานและการทำงานแบบเดียวกัน
ผู้ที่ใช้วิธีการ W3C แบบคลาสสิคก็พัฒนาขึ้น ถึงแม้ว่าจะวิจารณ์และบ่นแต่ก็พยายามแยกไปตามทางของตน โดยปัจจุบันมีความสำเร็จใหญ่ ๆ ให้เห็นบ้าง

อย่างไรก็ตามกลุ่มที่เชื่อในการนำไปใช้แบบเชิงสัญลักษณ์ (การแทนความรู้/W3C) และเชิงสถิติ (การเรียนรู้เชิงลึก/NLP) ส่งผลให้เกิดการยับยั้งในการยอมรับ

การวิเคราะห์ของ Google Trends เรื่องความนิยมในการค้นหาคำศัพท์สามคำนั้นในปีที่ผ่านมายกให้ Knowledge Graph เป็นอันดับหนึ่ง Data Mesh เป็นอันดับสองและ Data Fabric เป็นอันดับสาม

ไม่มีวิธีไหนในสามวิธีนี้ที่ง่ายและสามารถนำมาใช้งานได้เลย แม้ว่า Data Fabric จะใช้การลงทุนด้านองค์กรน้อยทีสุด แต่ก็ให้ผลลัพธ์ที่คุ้มค่าน้อยที่สุดเช่นกัน ขณะที่ Data Mesh ก็ถูกพูดถึงโดยผู้พัฒนาและหลักการทำงานของมันมากกว่า ส่วน Knowledge Graph มีพื้นฐานมาจากการใช้นำเสนอข้อมูลและ Logic Programming จึงไม่ใช่หัวข้อที่เจ้าหน้าที่ไอทีทั่วไปจะคุ้นเคยนัก

KM Shop ในองค์กรแห่งหนึ่งจะสามารถมีทักษะภายในเทียบเท่าเจ้าหน้าที่วิศวกรไอทีได้ ก็ต่อเมื่อมีพรสวรรค์เท่านั้น กราฟต้องอาศัยความสามารถในการจูงใจมากกว่า และต้องพึ่งความสามารถในการหาผู้ฟังที่เปิดรับ พร้อมกับงบประมาณให้เสี่ยง แต่ประโยชน์จากการนำไปใช้งานได้จริงอาจมีมากกว่าที่คิด และส่วนมากขึ้นอยู่กับเห็นคุณค่าในประโยชน์ที่ตามมาเหล่านี้และทำความเข้าใจให้มากขึ้น

บทความโดย Alan Morrison
เนื้อหาจากบทความของ TechTarget
แปลและเรียบเรียงโดย ไอสวรรค์ ไชยชะนะ
ตรวจทานและปรับปรุงโดย นววิทย์ พงศ์อนันต์

Isawan Chaichana

Translator

Navavit Ponganan

Senior Data Scientist Government Big Data Institute (GBDi)

Sign up to join Big Data Community Thailand

Make comments, write articles, and contribute to our community.