كيف تتعامل مع البيانات الضخمة للذكاء الاصطناعي؟

نهج معماري لإدارة البيانات الضخمة

الصورة مجاملة من pixabay
كمحرك رئيسي للذكاء الاصطناعي والحوسبة المعرفية والمجموعات الفرعية للذكاء الاصطناعي مثل التعلم الآلي والتعلم العميق والأنظمة الخبيرة والشبكات العصبية ، تعتبر حلول البيانات الكبيرة مجالًا بالغ الأهمية يركز على الأعمال التجارية على المستوى العالمي. لذلك ، فإن فهم دورة حياة البيانات الضخمة وتصميم حلول البيانات الضخمة باستخدام الدقة العملية هو قدرة مقنعة لمحترفي الذكاء الاصطناعي وأصحاب الأعمال في مجال الذكاء الاصطناعي.

في هذه المقالة ، أقدم نظرة عامة معمارية عملية على دورة حياة إدارة البيانات الضخمة التي تغطي المراحل المتميزة والتعريفات الأساسية مع اعتبارات الحل الحرجة بناءً على خبرتي المعمارية المكتسبة من العديد من المشاريع الناجحة والفاشلة.

تعلمت أن تصميم حلول البيانات الضخمة بشكل عملي باستخدام الدقة يمكن أن يساهم بشكل كبير في تقديم حلول الذكاء الاصطناعي والحلول المعرفية عالية الجودة خاصة في تحديث المؤسسات وبرامج التحول الرقمي. يتم تمكين هذه البرامج التحويلية من قبل Big Data و AI ، مدمجة مع مجالات التكنولوجيا الناشئة الأخرى مثل تقنيات Cloud و Edge و IoT و Blockchain و Mobile.
دعونا نضع في اعتبارنا أن السياق في هذه المقالة هو مهندسو البيانات الضخمة ، وليس علماء البيانات. ومن ثم ، أريد مسبقًا أن يقوم القراء بمراجعة المحتوى وفهم الرسائل الرئيسية من منظور مهندس الحلول ، وليس من عالم البيانات. دور مهندس البيانات الضخمة وعالم البيانات في نمط حياة البيانات الكبيرة مختلف تمامًا ويتطلب مشاركة مختلفة. ومع ذلك ، أرحب بآراء عالم البيانات لتوسيع الموضوع وإبراز توقعاتهم من مهندسي حلول البيانات الضخمة لأن هذا العرض الموسع يمكن أن يكون متآزرًا.

للحفاظ على الوضوح ، أود أن أبدأ بتحديد بنية البيانات على مستوى عال. يمكنك العثور على تعريفات مختلفة لهندسة البيانات في مجموعة إدارة البيانات للمعرفة والكتب المدرسية والمحتوى الذي ينشئه المستخدم.

هندسة البيانات هي مجال ثابت في تخصص علوم البيانات. في هذه المقالة ، سأقدم تفسيري الذي يناسب سياق ومحتوى وغرض رسالتي المقصودة. على أعلى مستوى ، هندسة البيانات هي عملية جمع البيانات القادمة من مصادر بيانات متعددة ومعالجة مجموعات البيانات والممارسات والمنصات من الحالة الحالية إلى الحالة المستقبلية باستخدام الأطر والنماذج القائمة.

يتضمن الإطار المعماري لإدارة البيانات وصف هيكل البيانات المصدر ، وعملية معالجتها ، وهيكل البيانات المستهدفة للاستخدام المستقبلي من أجل خلق رؤى تجارية من حلول البيانات. المصطلح المعماري "الوصف" هو الكلمة الرئيسية في هذا التعريف ؛ ومن ثم يجب فهم حلول هندسة البيانات.

يشير الوصف المعماري إلى وصف دورة الحياة لكيفية جمع البيانات ومعالجتها وتخزينها واستخدامها وأرشفتها. يمكن لمهندس حلول البيانات الضخمة أن يتحمل مسؤولية إنشاء الوصف المعماري من الحالة الحالية إلى الحالة المستهدفة.

إن مصطلح "التلاعب" مهم أيضًا. يشير إلى عملية نقل البيانات وتغيير هياكل البيانات وعناصر البيانات ومجموعات البيانات ومخازن البيانات. تتضمن عملية المعالجة أيضًا الأنشطة المعمارية الرئيسية مثل دمج البيانات الفنية في مشهد التطبيق ، والاتصالات ، والتفاعلات ، وتدفق البيانات ، والتحليل ، ومواقع المصدر والهدف ، وملفات تعريف استهلاك البيانات.

دعونا نفهم ما هي البيانات الضخمة

تصوير دنيس كومر على Unsplash

حقيقة واحدة مهمة هي أن البيانات الضخمة موجودة في كل مكان. البيانات الضخمة تختلف عن البيانات التقليدية. تأتي الاختلافات الرئيسية من خصائص مثل الحجم والسرعة والتنوع والصدق والقيمة والتعقيد الشامل لمجموعات البيانات في نظام البيانات البيئي. يوفر فهم كلمات V هذه رؤى مفيدة لطبيعة البيانات الضخمة.

هناك العديد من التعريفات في الصناعة والأوساط الأكاديمية للبيانات الضخمة ؛ ومع ذلك ، فإن التعريف الأكثر دقة وشمولية الذي أوافق عليه يأتي من غارتنر: "البيانات الضخمة هي أصول معلومات كبيرة الحجم وسريعة وعالية التنوع تتطلب أشكالًا مبتكرة وفعالة من حيث التكلفة لمعالجة المعلومات لتحسين الرؤية واتخاذ القرار. ". الكلمة المفتاحية الوحيدة المفقودة في هذا التعريف هي "الصدق". أود أيضًا أن أضيف إلى هذا التعريف أن هذه الخصائص مترابطة ومترابطة.

اسمحوا لي أن أقدم تعريفات مختصرة لهذه الكلمات V الجديدة على نطاقات البيانات الضخمة.

الصورة عن طريق evsplash

يشير الحجم إلى حجم أو كمية مجموعات البيانات بالتيرابايت أو البيتابايت أو الإكسابايت. ومع ذلك ، لا توجد تعريفات محددة لتحديد عتبة أحجام البيانات الكبيرة.

تشير السرعة إلى سرعة إنتاج البيانات. تولد مصادر البيانات الضخمة تدفقات بيانات عالية السرعة قادمة من أجهزة الوقت الحقيقي مثل الهواتف المحمولة ووسائل التواصل الاجتماعي وأجهزة استشعار إنترنت الأشياء ومداخل الحافة والبنية التحتية السحابية.

يشير التنوع إلى مصادر بيانات متعددة. تتضمن مصادر البيانات بيانات المعاملات المنظمة ، وشبه المنظمة مثل موقع الويب أو سجلات النظام ، وغير المهيكلة مثل الفيديو والصوت والرسوم المتحركة والصور.

الصدق يعني جودة البيانات. نظرًا لأن الحجم والسرعة هائلين في البيانات الضخمة ، فقد يكون الحفاظ على الصدقية أمرًا صعبًا للغاية. من الضروري الحصول على مخرجات عالية الجودة لفهم البيانات من أجل رؤى الأعمال.

القيمة من الصدق كهدف أساسي للبيانات الضخمة. الهدف من حلول Big Data هو إنشاء رؤى تجارية واكتساب قيمة تجارية. يمكن إنشاء القيمة من خلال نهج معماري مبتكر وخلاق مع مدخلات من جميع أصحاب المصلحة في حل البيانات الكبيرة.

يشير التعقيد العام للبيانات الضخمة إلى المزيد من سمات البيانات وصعوبة استخراج القيمة المطلوبة بسبب الحجم الكبير والتنوع الواسع والسرعة الهائلة والصدق المطلوب لإنشاء القيمة التجارية المطلوبة.
على الرغم من التشابه المعماري للبيانات التقليدية ، تتطلب البيانات الضخمة أساليب وأدوات أحدث للتعامل مع هذه الخصائص الخاصة. من المهم تسليط الضوء على أن الأساليب والأدوات التقليدية ليست كافية لمعالجة البيانات الضخمة.

تشير العملية ، في هذا السياق ، إلى التقاط كمية كبيرة من البيانات من مصادر متعددة ، وتخزين ، وتحليل ، والبحث ، ونقل ، ومشاركة ، وتحديث ، وتصور ، وتنظيم البيانات الضخمة التي تظهر في بيتابايت أو حتى إكسابايت في منظمات تجارية كبيرة.

ومن المفارقات ، أن الشاغل أو الهدف الرئيسي للبيانات الضخمة ليس حجم البيانات ولكن تقنيات التحليلات الأكثر تقدمًا لإنتاج قيمة تجارية من هذه الكميات المعقدة والكبيرة من البيانات. تشير التحليلات المتقدمة ، في هذا السياق ، إلى مناهج مثل التحليلات الوصفية والتنبؤية والوصفية والتشخيصية.

على أعلى مستوى ، تتعامل التحليلات الوصفية مع حالات مثل ما يحدث الآن استنادًا إلى البيانات الواردة. تشير التحليلات التنبؤية إلى ما قد يحدث في المستقبل. تتناول التحليلات الإلزامية الإجراءات الواجب اتخاذها. تطرح التحليلات التشخيصية السؤال عن سبب حدوث شيء ما. يقدم كل نوع من التحليلات سيناريوهات الاختلاف وحالات الاستخدام.

يتم أرشفة البيانات وإدارتها طبقة تلو الأخرى

صورة بواسطة AN AN DANIST على Unsplash

كمهندسين معماريين للبيانات الضخمة ، نستخدم نهجًا تنازليًا لبدء وصف الحل على أساس طبقة تلو الأخرى. هناك ثلاث طبقات نحتاج إلى النظر فيها من وجهة نظر معمارية: المفاهيمية والمنطقية والمادية.

الطبقة الأولى للوصف هي المفاهيمية التي تمثل الكيانات التجارية للبيانات.

الطبقة الثانية منطقية ، تصف العلاقة بين الكائنات.

الطبقة الثالثة طبيعية ، وتمثل آليات البيانات ووظيفتها.

الآن ، دعونا نلقي نظرة على إدارة دورة الحياة التي تغطي هذه الطبقات.

نظرة عامة على إدارة دورة حياة البيانات الضخمة

تصوير جوشوا إيرل على Unsplash

كمهندسين لحلول البيانات الضخمة ، يجب أن نفهم دورة الحياة ، حيث أننا منخرطون في جميع مراحل دورة الحياة كقائد تقني. قد تختلف أدوارنا ومسؤولياتنا في مراحل مختلفة ؛ ومع ذلك ، نحن بحاجة إلى أن نكون على رأس إدارة دورة الحياة من منظور شامل.

من منظور الحلول المعمارية ، استنادًا إلى خبرتي ومدخلاتي التي تم الحصول عليها من منشورات الصناعة ، يمكن أن يتضمن حل البيانات الضخمة النموذجي ، على غرار دورة حياة البيانات التقليدية ، عشرات المراحل المميزة في حل دورة حياة البيانات الإجمالية.

يشارك المهندسون المعماريون لحلول البيانات الضخمة في جميع مراحل دورة الحياة ، ويقدمون مدخلات مختلفة وينتجون مخرجات مختلفة لكل مرحلة. يمكن تنفيذ هذه المراحل تحت أسماء مختلفة في فرق حل البيانات المختلفة. لا يوجد نهج نظامي شامل صارم لدورة حياة البيانات الكبيرة حيث أن المجال لا يزال يتطور. يتم نقل وتعزيز التعلم من إدارة البيانات التقليدية لحالات استخدام حل معين.

لأغراض التوعية والتوجيه لمهندسي البيانات الضخمة الطموحين ، أقترح المراحل المميزة التالية:

المرحلة الأولى: الأسس
المرحلة 2: الاستحواذ
المرحلة 3: التحضير
المرحلة 4: الإدخال والوصول
المرحلة 5: المعالجة
المرحلة 6: الإخراج والتفسير
المرحلة 7: التخزين
المرحلة 8: التكامل
المرحلة 9: التحليلات والتأشيرات
المرحلة 10: الاستهلاك
المرحلة 11: الاحتفاظ والنسخ الاحتياطي والأرشفة
المرحلة 12: التدمير

اسمحوا لي أن أقدم لكم لمحة عامة عن كل مرحلة مع بعض النقاط التوجيهية. يمكنك تخصيص أسماء هذه المراحل بناءً على المتطلبات وممارسة البيانات التنظيمية لحلول البيانات الضخمة. النقطة الأساسية هي أنها ليست ثابتة في الحجر.

المرحلة الأولى: الأسس

تصوير رامين خطيبي على Unsplash

في عملية إدارة البيانات ، تتضمن مرحلة الأساس جوانب مختلفة مثل فهم متطلبات البيانات والتحقق منها ، ونطاق الحل ، والأدوار والمسؤوليات ، وإعداد البنية التحتية للبيانات ، والاعتبارات الفنية وغير التقنية ، وفهم قواعد البيانات في المؤسسة.

تتطلب هذه المرحلة خطة تفصيلية يتم تسهيلها بشكل مثالي من قبل مدير مشروع حل البيانات مع مدخلات كبيرة من مهندس حلول البيانات الضخمة وبعض المتخصصين في مجال البيانات.

يتضمن مشروع حل البيانات الضخمة تفاصيل مثل الخطط ، والتمويل ، والإعلانات التجارية ، والموارد ، والمخاطر ، والافتراضات ، والقضايا ، والتبعيات في تقرير تعريف المشروع (PDR). يقوم مديرو المشروع بتجميع وتأليف PDR ؛ ومع ذلك ، يتم توفير نظرة عامة على الحل في هذه الأداة الهامة من قبل مهندس البيانات الكبيرة.

المرحلة 2: الحصول على البيانات

تصوير جيس أستون على Unsplash

يشير الحصول على البيانات إلى جمع البيانات. يمكن الحصول على مجموعات البيانات من مصادر مختلفة. يمكن أن تكون هذه المصادر داخلية وخارجية لمنظمات الأعمال. يمكن أن تكون مصادر البيانات في أشكال منظمة مثل نقلها من مستودع بيانات أو سوق بيانات أو أنظمة معاملات مختلفة أو مصادر شبه منظمة مثل مدونات الويب أو سجلات النظام أو مصادر غير منظمة مثل القادمة من ملفات الوسائط تتكون من مقاطع فيديو أو صوتيات أو والصور.

على الرغم من أن جمع البيانات يتم من قبل العديد من متخصصي البيانات ومسؤولي قواعد البيانات ، فإن مهندس البيانات الضخمة له دور كبير في تسهيل هذه المرحلة على النحو الأمثل. على سبيل المثال ، تبدأ إدارة البيانات والأمان والخصوصية وضوابط الجودة بمرحلة جمع البيانات. لذلك ، يأخذ مهندسو البيانات الضخمة القيادة التقنية والمعمارية لهذه المرحلة.

يتولى مهندس حلول البيانات الضخمة الرائد ، بالتنسيق مع مهندسي الأعمال والمؤسسات ، قيادة وتوثيق استراتيجية جمع البيانات ومتطلبات المستخدم والقرارات المعمارية وحالات الاستخدام والمواصفات الفنية في هذه المرحلة. للحصول على حلول شاملة لمنظمات الأعمال الكبيرة ، يمكن لمهندس البيانات الضخمة الرائد تفويض بعض هذه الأنشطة إلى مختلف مهندسي المجال ومتخصصي البيانات.

المرحلة 3: إعداد البيانات

صورة لان فام على Unsplash

في مرحلة إعداد البيانات ، يتم تنظيف البيانات التي تم جمعها - في شكل خام - أو تنظيفها - يتم استخدام هذين المصطلحين بالتبادل في ممارسات البيانات المختلفة لمنظمات الأعمال المختلفة.

في مرحلة إعداد البيانات ، يتم فحص البيانات بدقة للتأكد من عدم التناسق والأخطاء والتكرارات. تتم إزالة البيانات الزائدة والمكررة وغير المكتملة وغير الصحيحة. الهدف هو الحصول على مجموعات بيانات نظيفة وقابلة للاستخدام.

يقوم مهندس حلول البيانات الضخمة بتسهيل هذه المرحلة. ومع ذلك ، يمكن تنفيذ معظم مهام تنظيف البيانات ، بسبب دقة الأنشطة ، بواسطة متخصصي البيانات المدربين على تقنيات إعداد البيانات والتنظيف.

المرحلة 4: إدخال البيانات والوصول إليها

صورة من moritz320 من Pixabay

يشير إدخال البيانات إلى إرسال البيانات إلى مستودعات البيانات أو الأنظمة أو التطبيقات المستهدفة. على سبيل المثال ، يمكننا إرسال البيانات النظيفة إلى وجهات محددة مثل تطبيق CRM (إدارة علاقات العملاء) أو بحيرة بيانات لعلماء البيانات أو مستودع بيانات للاستخدام من قبل أقسام محددة. في هذه المرحلة ، يقوم متخصصو البيانات بتحويل البيانات الخام إلى تنسيق قابل للاستخدام.

يشير الوصول إلى البيانات إلى الوصول إلى البيانات باستخدام طرق مختلفة. يمكن أن تتضمن هذه الطرق استخدام قواعد البيانات العلائقية أو الملفات المسطحة أو NoSQL. تعد NoSQL أكثر صلة وتستخدم على نطاق واسع لحلول البيانات الضخمة في منظمات الأعمال المختلفة.

على الرغم من أن مهندس حلول البيانات الضخمة يقود هذه المرحلة ؛ وعادة ما يقومون بتفويض الأنشطة التفصيلية لمتخصصي البيانات ومسؤولي قواعد البيانات الذين يمكنهم تنفيذ متطلبات الإدخال والوصول في هذه المرحلة.

المرحلة 5: معالجة البيانات

الصورة من Mihály Köles على Unsplash

تبدأ مرحلة معالجة البيانات بمعالجة الشكل الأولي للبيانات. ثم نقوم بتحويل البيانات إلى تنسيق قابل للقراءة مما يمنحها الشكل والسياق. بعد الانتهاء من هذا النشاط ، يمكننا تفسير البيانات باستخدام أدوات تحليل البيانات المحددة في مؤسسة أعمالنا.

يمكننا استخدام أدوات معالجة البيانات الضخمة الشائعة مثل Hadoop MapReduce و Impala و Hive و Pig و Spark SQL. كانت الأداة الأكثر شيوعًا لمعالجة البيانات في الوقت الفعلي في معظم حلولي هي HBase ، وكانت أداة معالجة البيانات في الوقت الفعلي تقريبًا هي Spark Streaming. هناك العديد من الأدوات المفتوحة المصدر والملكية في السوق.

تتضمن معالجة البيانات أيضًا أنشطة مثل التعليق التوضيحي للبيانات وتكامل البيانات وتجميع البيانات وتمثيل البيانات. دعني ألخصهم لوعيكم.

يشير التعليق التوضيحي للبيانات إلى تسمية البيانات. على سبيل المثال ، بمجرد تصنيف مجموعات البيانات ، يمكن أن تكون جاهزة لأنشطة التعلم الآلي.

يهدف تكامل البيانات إلى الجمع بين البيانات الموجودة في مصادر مختلفة ، ويهدف إلى توفير نظرة موحدة للبيانات إلى مستهلكي البيانات.

يشير تمثيل البيانات إلى طريقة معالجة البيانات ونقلها وتخزينها. تصور هذه الوظائف الأساسية الثلاث تمثيل البيانات في دورة الحياة.

يهدف تجميع البيانات إلى تجميع البيانات من قواعد البيانات إلى مجموعات البيانات المدمجة لاستخدامها في معالجة البيانات.

في مرحلة معالجة البيانات ، قد تغير البيانات تنسيقها بناءً على متطلبات المستهلك. يمكن استخدام البيانات التي تمت معالجتها في مخرجات البيانات المختلفة في بحيرات البيانات وفي شبكات المؤسسة والأجهزة المتصلة.

يمكننا أيضًا تحليل مجموعات البيانات لتقنيات المعالجة المتقدمة باستخدام أدوات متنوعة مثل Spark MLib و Spark GraphX ​​والعديد من أدوات التعلم الآلي الأخرى.

تتطلب معالجة البيانات الضخمة إشراك أعضاء الفريق بمجموعات مهارات مختلفة. بينما يقود مهندس حلول البيانات الضخمة الرئيسي مرحلة المعالجة ، يتم تنفيذ معظم المهام من قبل متخصصي البيانات ومشرفي البيانات ومهندسي البيانات وعلماء البيانات. يقوم مهندس حلول البيانات الضخمة بتسهيل عملية النهاية إلى النهاية لهذه المرحلة.

المرحلة 6: إخراج البيانات وتفسيرها

الصورة بواسطة timJ على Unsplash

في مرحلة إخراج البيانات ، تكون البيانات بتنسيق جاهز للاستهلاك من قبل مستخدمي الأعمال. يمكننا تحويل البيانات إلى تنسيقات قابلة للاستخدام مثل النص العادي أو الرسوم البيانية أو الصور المعالجة أو ملفات الفيديو.

تعلن مرحلة الإخراج أن البيانات جاهزة للاستخدام وترسل البيانات إلى المرحلة التالية للتخزين. وتسمى هذه المرحلة أيضًا ، في بعض ممارسات البيانات وتنظيم الأعمال ، استيعاب البيانات. على سبيل المثال ، تهدف عملية استيعاب البيانات إلى استيراد البيانات للاستخدام الفوري أو الاستخدام المستقبلي أو الاحتفاظ بها بتنسيق قاعدة بيانات.

يمكن أن تكون عملية نقل البيانات في الوقت الفعلي أو بتنسيق دفعي. كانت بعض أدوات عرض البيانات الضخمة القياسية التي كانت شائعة الاستخدام في حلولي هي التدفق عبر Sqoop و Flume و Spark. هذه أدوات شعبية مفتوحة المصدر.

أحد الأنشطة هو تفسير البيانات المبتلعة. يتطلب هذا النشاط تحليل البيانات المستخرجة واستخراج المعلومات أو المعنى منها للإجابة على الأسئلة المتعلقة بحلول أعمال البيانات الضخمة.

المرحلة 7: تخزين البيانات

تصوير روشيندرا جوناسكارا على Unsplash

بمجرد الانتهاء من مرحلة إخراج البيانات ، نقوم بتخزين البيانات في وحدات تخزين مصممة ومخصصة. تعد هذه الوحدات جزءًا من منصة البيانات وتصميم البنية التحتية مع مراعاة جميع الجوانب المعمارية غير الوظيفية مثل السعة وقابلية التوسع والأمان والامتثال والأداء والتوافر.

يمكن أن تتكون البنية التحتية من شبكات منطقة التخزين (SAN) أو التخزين المرفق بالشبكة (NAS) أو تنسيقات تخزين الوصول المباشر (DAS). يمكن لمسؤولي البيانات وقواعد البيانات إدارة البيانات المخزنة والسماح بالوصول إلى مجموعات المستخدمين المحددة.

يمكن أن يتضمن تخزين البيانات الكبيرة تقنيات أساسية مثل مجموعات قواعد البيانات أو تخزين البيانات العلائقية أو تخزين البيانات الممتد ، مثل HDFS و HBASE ، وهي أنظمة مفتوحة المصدر.

بالإضافة إلى ذلك ، يجب مراعاة تنسيقات الملفات مثل النصوص أو الثنائية أو أنواع أخرى من التنسيقات المتخصصة مثل Sequence و Avro و Parquet في مرحلة تصميم تخزين البيانات.

المرحلة 8: تكامل البيانات

تصوير ريكاردو غوميز انجل على Unsplash

في النماذج التقليدية ، بمجرد تخزين البيانات ، تنتهي عملية إدارة البيانات. ومع ذلك ، بالنسبة للبيانات الضخمة ، قد تكون هناك حاجة لتكامل البيانات المخزنة مع أنظمة مختلفة لأغراض مختلفة.

تكامل البيانات هو اعتبار معماري معقد وأساسي في عملية حل البيانات الضخمة. يشارك مهندسو البيانات الضخمة في هندسة وتصميم استخدام موصلات البيانات المختلفة لدمج حلول البيانات الضخمة. قد تكون هناك حالات استخدام ومتطلبات للعديد من الموصلات مثل ODBC و JDBC و Kafka و DB2 و Amazon S3 و Netezza و Teradata و Oracle وغيرها الكثير بناءً على مصادر البيانات المستخدمة في الحل.

قد تتطلب بعض نماذج البيانات تكامل بحيرات البيانات مع مستودع البيانات أو بيانات البيانات. قد تكون هناك أيضًا متطلبات تكامل التطبيقات لحلول البيانات الضخمة.

على سبيل المثال ، قد تشتمل بعض أنشطة التكامل على دمج البيانات الكبيرة مع لوحات المعلومات أو اللوحات أو مواقع الويب أو التطبيقات المختلفة لتصور البيانات. قد يتداخل هذا النشاط مع المرحلة التالية ، وهي تحليلات البيانات.

المرحلة 9: تحليلات البيانات والتصور

صورة بواسطة أوستن ديسل على Unsplash

يمكن أن تكون البيانات المتكاملة مفيدة ومنتجة لتحليل البيانات والتصور.

تعد تحليلات البيانات مكونًا مهمًا في عملية إدارة البيانات الضخمة. هذه المرحلة حاسمة لأن هذا هو المكان الذي تكتسب فيه قيمة الأعمال من حلول البيانات الكبيرة. تصور البيانات هي إحدى الوظائف الرئيسية لهذه المرحلة.

يمكننا استخدام العديد من أدوات الإنتاجية للتحليلات والتصور بناءً على متطلبات الحل. في حلول البيانات الكبيرة الخاصة بي ، كانت الأدوات الأكثر استخدامًا هي أجهزة كمبيوتر Scala و Phyton و R. تم اختيار Phyton باعتباره الأداة الأكثر إنتاجية التي تلامس جميع جوانب تحليلات البيانات تقريبًا خاصةً لتمكين مبادرات التعلم الآلي.

في مؤسستك ، يمكن أن يكون هناك فريق مسؤول عن تحليلات البيانات بقيادة كبير علماء البيانات. يلعب مهندسو حلول البيانات الضخمة دورًا محدودًا في هذه المرحلة ، لكنهم يعملون بشكل وثيق مع علماء البيانات لضمان توافق ممارسات التحليلات والمنصات مع أهداف العمل. يحتاج مهندسو حلول البيانات الضخمة إلى ضمان اكتمال مراحل دورة الحياة بصرامة معمارية.

المرحلة 10: استهلاك البيانات

تصوير Pop & Zebra على Unsplash

بمجرد إجراء تحليلات البيانات ، يتم تحويل البيانات إلى معلومات جاهزة للاستهلاك من قبل المستخدمين الداخليين أو الخارجيين ، بما في ذلك عملاء مؤسسة الأعمال.

يتطلب استهلاك البيانات مدخلات معمارية للسياسات والقواعد واللوائح والمبادئ والمبادئ التوجيهية. على سبيل المثال ، يمكن أن يعتمد استهلاك البيانات على عملية تقديم الخدمة. تضع هيئات إدارة البيانات أنظمة لتقديم الخدمة.

يقود مهندس حلول البيانات الضخمة الرائد ويسهل إنشاء هذه السياسات والقواعد والمبادئ والتوجيهات باستخدام إطار معماري يتم اختياره في منظمات الأعمال.

المرحلة 11: الاحتفاظ والنسخ الاحتياطي والأرشفة

تصوير هيرميس ريفيرا على Unsplash

نحن نعلم أنه يجب نسخ البيانات الهامة احتياطيًا لحماية وتلبية متطلبات الامتثال للصناعة. نحن بحاجة إلى استخدام استراتيجيات وتقنيات وأساليب وأدوات النسخ الاحتياطي للبيانات. يجب على مهندس حلول البيانات الضخمة تحديد وتوثيق والحصول على الموافقة على قرارات الاحتفاظ والنسخ الاحتياطي والأرشفة.

يمكن لمهندس حلول البيانات الضخمة تفويض التصميم التفصيلي لهذه المرحلة لمهندس البنية التحتية بمساعدة العديد من المتخصصين في البيانات وقواعد البيانات والتخزين والاسترداد.

قد يلزم أرشفة بعض البيانات لأسباب تنظيمية أو لأسباب تجارية أخرى لفترة زمنية محددة. يجب توثيق استراتيجية الاحتفاظ بالبيانات والموافقة عليها من قبل الهيئة الحاكمة ، خاصة من قبل مهندسي المشاريع ، وتنفيذها من قبل مهندسي البنية التحتية ومتخصصي التخزين.

المرحلة 12: تدمير البيانات

الصورة من المكتبة الوطنية النمساوية على Unsplash

قد تكون هناك متطلبات تنظيمية لتدمير نوع معين من البيانات بعد عدد معين من المرات. قد تتغير المتطلبات بناءً على الصناعات التي تنتمي إليها منظمات الأعمال.

على الرغم من وجود ترتيب زمني لإدارة دورة الحياة ، لإنتاج حلول البيانات الضخمة ، إلا أن بعض المراحل قد تتداخل قليلاً ويمكن القيام بها بالتوازي.

دورة الحياة المقترحة في هذه المقالة ليست سوى إرشادات للتوعية بالعملية الشاملة. يمكنك تخصيص العملية بناءً على هيكل فريق حل البيانات ، ومنصات البيانات الفريدة ، ومتطلبات حل البيانات ، وحالات الاستخدام ، وديناميكيات المؤسسة المالكة ، أو أقسامها ، أو النظام البيئي الشامل للمؤسسة.

الآن بعد أن قمنا بتغطية نظرة عامة على مراحل دورة الحياة ، دعني أتطرق لأوفر مستوى عالٍ من مكونات حلول البيانات الضخمة وأقدم فهمًا عاليًا لها.

مكونات حلول البيانات الضخمة

تصوير روبن جلاوزر على Unsplash

تبدأ بنية حلول البيانات الضخمة بفهم عملية البيانات الضخمة من البداية إلى النهاية. يمكن أن يساعدنا فهم مكونات الحلول ، ويمكن لأصحاب المصلحة الآخرين رؤية الصورة الكبيرة لعملية البيانات الضخمة. يمكننا تصنيف عملية البيانات الضخمة تحت فئتين عريضتين. الأول هو إدارة البيانات ، والثاني هو Data Analytics.

تتضمن إدارة البيانات أنشطة متعددة كما هو موضح في دورة الحياة ، مثل الحصول على البيانات ، والاستخراج ، والتطهير ، والتعليق ، والمعالجة ، والتكامل ، والتجميع ، والتمثيل.

تتضمن تحليلات البيانات أنشطة مثل نمذجة البيانات وتحليل البيانات وتفسير البيانات وتصور البيانات.

بصفتنا مهندسين معماريين لحلول البيانات الضخمة ، نحتاج إلى فهم المكونات الأساسية في دورة الحياة مثل أنواع البيانات والمبادئ والمنصات ومواصفات الجودة والحوكمة والأمن والخصوصية والتحليلات والمعاني والأنماط وبحيرات البيانات ومستنقعات البيانات ومستودع البيانات التقليدي المفاهيم.

هذه هي الأساسيات ، وقد يكون هناك العديد من المكونات الأخرى بناءً على حالات استخدام الحلول ومتطلبات المستخدم.

دعني أذكر باختصار أنواع البيانات كاعتبارات أساسية في تصميم حلول البيانات الضخمة من أجل إدراكك.

أنواع البيانات

تصوير ناثان دوملاو على Unsplash

يمكننا تصنيف أنواع البيانات على أنها منظمة وشبه منظمة وغير منظمة. تُدار البيانات المنظمة تقليديًا بشكل جيد ، وأكثر وضوحًا نسبيًا ، وليست مصدر قلق كبير لعملية إدارة البيانات بشكل عام.

ومع ذلك ، يرتبط التحدي بشبه شبه منظم والتعامل بشكل أكثر أهمية مع البيانات غير المنظمة. هذان هما اعتبارات حاسمة لحلول البيانات الضخمة. يمكن أن يضيف هذان النوعان من البيانات قيمة عمل حقيقية في الحصول على المعلومات المطلوبة واستهلاكها للحصول على رؤى تجارية.

يتمثل الشاغل الأساسي للبيانات شبه المنظمة في أن هذا النوع من البيانات لا يتوافق مع المعايير بدقة. يمكننا تنفيذ البيانات شبه المنظمة باستخدام XML (لغة الترميز القابلة للتوسيع). XML هي لغة نصية لتبادل البيانات على شبكة الويب العالمية. يستخدم XML علامات البيانات المعرفة من قبل المستخدم والتي يمكن أن تجعلها قابلة للقراءة آليًا.

بيانات Clickstream هي مثال آخر على البيانات شبه المنظمة. على سبيل المثال ، يوفر هذا النوع من البيانات مجموعات بيانات شاملة حول سلوك المستخدمين وأنماط تصفحهم إلى المتاجر عبر الإنترنت. نوع البيانات هذا واسع الانتشار وذو صلة بتحليلات البيانات الضخمة لإنشاء رؤى الأعمال.

البيانات غير المنظمة هي مصدر قلق تحليلات النص ، والتي تهدف إلى استخراج المعلومات المطلوبة من البيانات النصية. بعض أمثلة البيانات النصية هي المدونات والمقالات ورسائل البريد الإلكتروني والمستندات والأخبار وأشكال أخرى من المحتوى في مواقع الشبكات الاجتماعية.

يمكن أن تتضمن تحليلات النص اللغويات الحاسوبية ، وتعلم الآلة ، والتحليل الإحصائي التقليدي. تركز تحليلات النص على تحويل كميات هائلة من آلة أو نص من صنع الإنسان إلى هياكل ذات مغزى لإنشاء رؤى تجارية ودعم اتخاذ القرارات التجارية.

يمكننا استخدام تقنيات تحليل النص المختلفة. على سبيل المثال ، يعد استخراج المعلومات أحد تقنيات تحليل النص التي تستخرج البيانات المنظمة من نص غير منظم.

يعد تلخيص النص أسلوبًا شائعًا يمكنه إنشاء ملخص مكثف لمستند أو مجموعات مختارة من المستندات تلقائيًا. هذه التقنية مفيدة بشكل خاص للمدونات والمقالات والأخبار ووثائق المنتجات والأوراق العلمية.

NLP (معالجة اللغات الطبيعية) هي تقنية تحليلية نصية معقدة متداخلة مثل الأسئلة والأجوبة في اللغة الطبيعية. يستخدم NLP بشكل شائع من قبل المنتجات الاستهلاكية مثل Siri من Apple و Alexa من Amazon.

يعد تحليل المشاعر أحد تقنيات تحليل النص المتزايدة مؤخرًا. ويهدف إلى تحليل آراء الناس حول الأفراد والمنشورات والمنتجات أو الخدمات. يستخدم هذا عادة لأغراض التسويق. أحد الأمثلة على تحليل المشاعر هو استخدام موقع المدونات الصغيرة تويتر. يمكننا تحليل كميات هائلة من التغريدات للحصول على مشاعر إيجابية أو سلبية أو محايدة لمنتج أو خدمة تجارية.

بالإضافة إلى تحليلات النص ، يتم أيضًا تحليل البيانات غير المنظمة في الكلام البشري. ويشار إلى هذا باسم تحليل الكلام أو التحليل الصوتي في بعض منشورات إدارة البيانات. يتم استخدام الكلام البشري بشكل شائع في مراكز الاتصال لتحسين رضا العملاء وتلبية المتطلبات التنظيمية المحددة.

تحليل بيانات غير منظم آخر هو تحليل محتوى الصور والفيديو. لا تزال هذه في مرحلة الطفولة ، ولكن هناك اتجاه لإنشاء تقنيات جديدة لتحليل الصور ومحتوى الفيديو للحصول على رؤى المعلومات. يركز التعلم الآلي ومجالات التعلم العميق بشكل كبير على هذا النوع من التحليلات.

نظرًا لحجم مقاطع الفيديو الكبير نسبيًا ، فإن هذا ليس سهلاً مثل تحليلات النصوص. يوجد أحد تطبيقات الأعمال الهامة لتحليل محتوى الفيديو في مجال الأمان المستخدم بشكل شائع في البيانات التي يتم إنشاؤها بواسطة كاميرات الدوائر التلفزيونية المغلقة ، والأمن الآلي ، وأنظمة المراقبة.

اسمحوا لي أن أذكر بإيجاز مبادئ البيانات من وجهة نظر معمارية.

مبادئ البيانات

صورة لجرد التمان من Pixabay

تتطلب عملية إدارة البيانات مراعاة المبادئ المعمول بها. هناك مبادئ على مستوى الدولة أو الجغرافيا تنتجها الهيئات الرئاسية. على سبيل المثال ، الأكثر شيوعًا هي اللائحة العامة لحماية البيانات (GDPR) (اللائحة العامة لحماية البيانات) و CCPA (قانون خصوصية المستهلك في كاليفورنيا).

في السنوات الأخيرة ، أصبحت اللائحة العامة لحماية البيانات تحظى بشعبية أكبر في وسائل الإعلام. اللائحة العامة لحماية البيانات هي لائحة في قانون الاتحاد الأوروبي بشأن حماية البيانات والخصوصية لجميع مواطني الاتحاد الأوروبي والمنطقة الاقتصادية الأوروبية.

لإعطائك فكرة عن مبادئ إدارة البيانات ، تقدم اللائحة العامة لحماية البيانات المبادئ السبعة التالية. تبدو هذه المبادئ عالمية لأنها تتكرر على نطاق واسع في منشورات إدارة البيانات.

1. الشرعية والإنصاف والشفافية
2. حدود الغرض
3. تقليل البيانات
4. الدقة
5. قيود التخزين
6. النزاهة والسرية
7. المساءلة

لا نحتاج إلى الخوض في التفاصيل لكل مبدأ هنا حيث يمكن مراجعتها من موقع اللائحة العامة لحماية البيانات. هذه المبادئ هي الحس السليم ومباشرة لفهم محترفي البيانات.

تغطي هذه المبادئ جوانب مهمة من إدارة البيانات في المنظمة. كمهندسين معماريين للبيانات الضخمة ، نحتاج إلى النظر في هذه المبادئ وتطبيقها على نموذج إدارة حلول البيانات الضخمة.

قد تكون هناك أيضًا مبادئ طورتها الهيئات الحاكمة لمنظماتنا بالإضافة إلى سياسات إدارة البيانات والعمليات والإجراءات والمبادئ التوجيهية. يجب أن يتضمن نموذج إدارة حلول البيانات الضخمة لدينا هذه المبادئ.

مواصفات جودة البيانات

صورة لجرد التمان من Pixabay

تعد جودة البيانات أمرًا حيويًا لتحقيق الهدف النهائي لاستخدام البيانات للأغراض المعمارية والتقنية والحوكمة والأمان والامتثال واستهلاك المستخدم. يمكن أن تؤدي الجودة الأعلى في مواصفات البيانات إلى النتائج المرجوة بشكل أفضل لحلول البيانات الضخمة.

كمهندسين معماريين للبيانات الضخمة ، يجب أن نأخذ في الاعتبار عوامل جودة البيانات الهامة مثل عناصر البيانات كاملة وفريدة وحديثة ومتوافقة. يمكن تطوير مواصفات جودة البيانات باستخدام التقارير التي ينشئها النظام والتدقيق والقضايا التي يثيرها المستخدمون.

يشير الاستيفاء من حيث جودة البيانات إلى التأكد من توفر العناصر الضرورية للبيانات في دورة حياة عملية إدارة البيانات.
يشير تفرد البيانات إلى عدم وجود نسخ مكررة من عناصر البيانات.
تشير عملة البيانات إلى أنها محدثة. البيانات المتقادمة لا معنى لها ولا جدوى منها.

إلى جانب ذلك ، نحتاج إلى التأكد من أن عناصر البيانات خاصة بنطاقاتها.

يمكن قياس جودة البيانات الضخمة باستخدام مصادر البيانات ذات الصلة ، والنماذج التحليلية المثلى ، والحصول على نتائج مواتية تترجم إلى تجربة المستهلك البيانات والربحية للمشروع. هذه النتائج يمكن أن تكون ملموسة أو غير ملموسة.

جانب آخر مهم من حلول Big Data هو فهم منصات البيانات.

منصات البيانات الضخمة

صورة من fancycrave1 من Pixabay

يتطلب كل حل للبيانات الضخمة نظامًا أساسيًا محددًا. تتكون منصة البيانات الضخمة من عدة طبقات. الطبقة الأولى من منصة البيانات الضخمة هي منطقة المعلومات التشغيلية المشتركة ، وتتكون من أنواع البيانات مثل البيانات المتحركة والبيانات الموجودة في حالة الراحة والبيانات في عدة أشكال أخرى. ويتضمن مصادر البيانات القديمة ومصادر البيانات الجديدة ومحاور البيانات الرئيسية ومحاور البيانات المرجعية ومستودعات المحتوى.

الطبقة الثانية من منصة البيانات تسمى المعالجة. تتضمن هذه الطبقة الأساسية ابتلاع البيانات ، والمعلومات التشغيلية ، ومنطقة الهبوط ، ومنطقة التحليلات ، والأرشيف ، والتحليلات في الوقت الحقيقي ، والاستكشاف ، والمخزن المتكامل ، وبحيرات البيانات ، ومناطق مارت البيانات. تحتاج هذه الطبقة إلى نموذج حوكمة لكتالوج البيانات الوصفية بما في ذلك أمان البيانات واستعادة البيانات بعد الكوارث للأنظمة والتخزين والاستضافة ومكونات البنية التحتية الأخرى مثل المعالجة المحلية والتخزين والمعالجة السحابية والتخزين.

الطبقة الثالثة من منصة البيانات هي منصة التحليلات. وتتكون من الوظائف والعمليات والأدوات مثل التحليلات في الوقت الحقيقي ، وتخطيط المعلومات ، والتنبؤ ، وصنع القرار ، والتحليلات التنبؤية ، واكتشاف البيانات ، والمرئيات ، ولوحة المعلومات ، وميزات التحليلات الأخرى كما هو مطلوب في حل البيانات الكبيرة المعين.

تتكون الطبقة الرابعة من منصة البيانات من مخرجات مثل العمليات التجارية ومخططات صنع القرار ونقاط التفاعل. هذه الطبقة من منصة البيانات تحتاج أيضًا إلى أن تكون محكومة بشكل جيد ، ويجب أن يتم توفير الوصول مع عناصر تحكم ثابتة لمحترفي منصة البيانات مثل علماء البيانات ومهندسي البيانات وخبراء التحليلات والمستخدمين التجاريين.

مستوى المخطط لمنصة البيانات هو اعتبار معماري حاسم. يمكننا تصنيف مستوى المخطط ضمن ثلاث فئات ، مثل عدم وجود مخطط ومخطط منظم جزئيًا ومخطط منظم بالكامل. يعكس المخطط بنية البيانات وقواعد البيانات. يمكننا التفكير في المخطط باعتباره مخططًا لإدارة البيانات.

بعض الأمثلة على عدم وجود مخطط هي ملفات الفيديو والصوت والصور ؛ موجز الوسائط الاجتماعية ، مخطط جزئي مثل البريد الإلكتروني ، سجلات الرسائل الفورية ، سجلات النظام ، سجلات مركز الاتصال ؛ ويمكن أن يكون المخطط المرتفع عبارة عن بيانات استشعار منظمة وبيانات المعاملات العلائقية.

مستويات معالجة البيانات هي الاعتبارات المعمارية الأخرى. يمكن أن تكون مستويات المعالجة بيانات أولية ، بيانات تم التحقق منها ، بيانات محولة وبيانات محسوبة.

ترتبط التصنيفات الهيكلية الأخرى للبيانات في منصات البيانات بأهمية الأعمال. يمكننا تصنيف مدى صلة البيانات بالأنشطة التجارية مثل البيانات الخارجية والبيانات الشخصية وبيانات الأقسام وبيانات المؤسسة.

اسمحوا لي أن أتطرق إلى إدارة البيانات الضخمة لأن هذا هو أحد أهم الاعتبارات المعمارية.

حوكمة البيانات الضخمة

صورة من قبل Couleur من Pixabay

تعد إدارة البيانات عاملاً بالغ الأهمية لحلول البيانات الضخمة. يحتاج نظام إدارة البيانات الضخمة إلى مراعاة العوامل الأساسية مثل الأمان والخصوصية والثقة وقابلية التشغيل والتوافق وسرعة الاستخدام وقابلية الاستخدام والابتكار وتحويل البيانات. قد تؤدي هذه العوامل إلى إجراءات منافسة لمهندسي حلول البيانات الضخمة. على سبيل المثال ، الابتكار والامتثال في طرفين مختلفين من الطيف وبالتالي تتطلب مقايضات معمارية حاسمة.

من الضروري أيضًا على المستوى الأساسي إنشاء بنية تحتية لإدارة البيانات وتطويرها لاعتمادها ليس فقط على مستوى حل البرنامج ولكن أيضًا على مستوى المؤسسة. نحن بحاجة إلى العمل بشكل وثيق مع Enterprise Architects لمعالجة مخاوف إدارة البيانات.

قد تأخذ إدارة البيانات بعين الاعتبار لمختلف أصحاب المصلحة في منصات البيانات المختلفة. على سبيل المثال ، مهندسو البيانات مسؤولون عن تطوير حوكمة نماذج البيانات الضخمة ؛ عالم البيانات مسؤول عن إدارة التحليلات. أصحاب المصلحة في الأعمال مسؤولون عن إدارة نماذج الأعمال لإنتاج نتائج الأعمال لمنصات البيانات المعنية.

تعد إدارة البيانات الضخمة مجالًا واسعًا وتغطي مكونات البيانات ، والنطاق ، ومعالجة المتطلبات ، والاستراتيجية ، والقرارات المعمارية ، والتصميم ، والتطوير ، والتحليل ، والاختبارات ، والمعالجة ، والتنفيذ ، وعلاقات أصحاب المصلحة ، والمدخلات ، والمخرجات ، وأهداف العمل ، ورؤى الأعمال ، والعديد من العناصر الأخرى جوانب إدارة البيانات وعملية التحليلات.

لاختتام المقال ، أود أن أتطرق إلى أهمية مفردات الأعمال لحلول البيانات الضخمة من وجهة نظر معمارية.

مفردات الأعمال

المفردات التجارية هي جانب حاسم من عملية إدارة البيانات. يجب علينا تحديد مفردات الأعمال للحفاظ على فهم مشترك للبيانات الضخمة ذات الصلة بتحليلات الأعمال. تُسمى مفردات الأعمال أيضًا مسرد مصطلحات الأعمال في بعض الطرق ويمكن تخصيصها بناءً على العوامل المختلفة على المستوى التنظيمي.

تصف مفردات الأعمال محتوى الأعمال الذي تدعمه نماذج البيانات. الأهم من ذلك ، من منظور معماري ، يمكن أن تكون هذه المفردات مساهمة حاسمة في كتالوج البيانات الوصفية.

توفر مفردات الأعمال مصطلحات متسقة لاستخدامها من قبل المؤسسة بأكملها. في العديد من المنظمات ، تمتلك وحدات الأعمال مفردات الأعمال. عادة ، في العديد من المنظمات ، يحتفظ مستخدمو الأعمال بهذه المفردات ؛ ومع ذلك ، فإن مهندسي المشاريع ومهندسي حلول البيانات الضخمة يقودون ويسهلون إدارة مفردات الأعمال.

خاتمة

صورة لجرد التمان من Pixabay

في هذه المقالة ، قدمت عرضًا عالي المستوى ومقدمة سريعة لدورة حياة حل البيانات الضخمة مع التركيز على الدقة المعمارية أثناء تطوير حلول الأعمال. تشكل حلول البيانات الضخمة عوامل نجاح حاسمة للذكاء الاصطناعي (AI). أنا واثق بما فيه الكفاية لتقديم بيان جريء أنه بدون هندسة حلول البيانات الضخمة مع الدقة المنهجية المتوازنة مع النهج العملي السريع ، لا يمكن إنتاج حلول ذكاء اصطناعي فعالة وتنافسية ومستدامة.

تعتمد حلول الذكاء الاصطناعي بشكل كبير على حجم البيانات وسرعتها وتنوعها وصحتها. تدور حلول البيانات الضخمة حول التعامل مع هذه الخصائص V الرئيسية الأربعة بالإضافة إلى توليد رؤى السوق وقيمة الأعمال.

لقد شاركت تجربتي في حل البيانات الضخمة في أحد أحدث كتبي بعنوان Big Data for Enterprise Architects ، وهو يقدم الدور الحاسم لمهندس حلول البيانات الضخمة إلى مهندسي Enterprise Enterprise بالنسبة لهم لفهم الآثار المترتبة على الموضوع وتأثيره على مؤسسة الأعمال المتغيرة بسرعة والمنعكسة. من إعدادات عملية ورشيقة بدلاً من وجهات النظر التقليدية والأساليب النظرية المقدمة في الكتب المدرسية.

أخطط لتغطية ممارسة إدارة بيانات الذكاء الاصطناعي والدروس المرتبطة بها المستفادة من برامج التحول المعرفي في إحدى مقالتي التالية عن الوسيط. في هذه الأثناء ، يمكن أن تكون مساهمتك لتوسيع النطاق الذي قدمته في هذه المقالة مفيدة وتآزرية.

لمزيد من المعلومات حول مقالاتي الأخرى التي تعكس تجربتي في هذا المجال ، يمكنك التحقق من منشوري الجديد على Medium.