مسرد المصطلحات
اكتشاف شذوذ البيانات
يُقصَد بها عملية البحث عن البيانات الشاذة أو المتطرفة في مجموعة البيانات، وتحديد أمثلة عليها. وعادةً ما يُشار إلى هذه الحالات غير المطابقة ﺑ «قيم الشذوذ» أو «القيم الشاذة». وغالبًا ما تُستخدَم هذه العملية في تحليل المعاملات المالية من أجل رصد أنشطة الاحتيال المحتملة وبدء تحقيقاتٍ بشأنها.
الاستخراج والتحويل والتحميل
يُستخدم هذا المصطلح لوصف العمليات والأدوات المستخدَمة عادةً للمساعدة في تعيين البيانات ودمجها ونقلها بين قواعد البيانات.
إنترنت الأشياء
يقصد به ربط الأجهزة وأجهزة الاستشعار بحيث يتسنَّى لهذه الأجهزة مشاركة المعلومات فيما بينها. ويشمل مجال الاتصال بين آلة وآلة، الذي يُطوِّر نظمًا تمكِّن الآلات ليس فقط من مشاركة المعلومات، وإنما تمكنها أيضًا من الاستجابة لهذه المعلومات واتخاذ الإجراءات اللازمة دون أي تدخُّل بشري.
انتشار عكسي
خوارزمية الانتشار العكسي هي إحدى خوارزميات تعلُّم الآلة وتُستخدَم في تدريب الشبكات العصبية. تحسب الخوارزمية مقدار ما تُسهم به كل خلية عصبية داخل الشبكة في الخطأ الحادث في هذه الشبكة. ومن خلال عملية حساب الخطأ هذه لكلِّ خلية عصبية يمكن تحديث أوزان الأخطاء بناءً على المدخلات التي تُمرَّر إلى كل خليةٍ عصبية، ومن ثَمَّ الحد من إجمالي الأخطاء في الشبكة. سُميت خوارزمية الانتشار العكسي بهذا الاسم لأن تنفيذها يتم من خلال عمليةٍ من مرحلتَين. في المرحلة الأولى، يُمرَّر مثيل إلى الشبكة في صورة مُدخَل، وتتدفق المعلومات تدفقًا أماميًّا عبر الشبكة حتى تولِّد الشبكة تنبؤًا خاصًا لذلك المثيل. وفي المرحلة الثانية، يُحسَب خطأ الشبكة الخاص بهذا المثيل من خلال مقارنة تنبؤ الشبكة بالمخرج الصحيح لذلك المثيل (كما هو مُحدد بموجب مجموعة البيانات التدريبية) ثم تتم مشاركة هذا الخطأ مرة أخرى (أو ينشر عكسيًّا) عبر الخلايا العصبية في الشبكة، حيث يُوزَّع على طبقة تلوَ الأخرى بدءًا من طبقة المخرجات.
انحدار خطي
عندما يُفترَض وجود علاقة خطية في تحليل الانحدار، يُطلق على التحليل الانحدار الخطي. يُستخدم نوع شائع من نماذج التنبؤ لتقدير قيمة سمةٍ مستهدفة عددية بناءً على مجموعةٍ من السمات المدخلة العددية.
بيانات
البيانات، في أبسط صورها، هي معلومة مجردة عن كيانٍ قائم في الواقع الفعلي (شخص أو شيء أو حدث).
بيانات المعاملات
معلوماتٌ عن حدثٍ ما، مثل بيع سلعة معينة أو إصدار فاتورة أو تسليم بضائع أو الدفع ببطاقة الائتمان، وهلمَّ جرًّا.
بيانات تعريف
عبارة عن بياناتٍ وصفية تصف هياكل بياناتٍ أخرى وخصائصها، ومن الأمثلة على بيانات التعريف الطابع الزمني الذي يصف وقت جمع أحد البيانات. تُعَد بيانات التعريف أحد أكثر أنواع البيانات الثانوية شيوعًا.
بيانات ثانوية
هي البيانات التي تكون ناتجًا ثانويًّا لعمليةٍ ما الهدف الرئيسي منها ليس جمع البيانات. على سبيل المثال، تُنتج مجموعة من البيانات الثانوية مع كل صورة تتم مشاركتها أو إرسالها أو إعادة إرسالها أو الإعجاب بها في تويتر؛ بياناتٍ على غرار مَن شارك الصورة، ومَن شاهدها، والجهاز المستخدَم في ذلك، وفي أي توقيت من اليوم، وهكذا. يُرجى مقارنتها بمصطلح «بيانات مستخلصة».
بيانات ضخمة
عادةً ما تتحدَّد البيانات الضخمة في ضوء ثلاثة عوامل: الحجم الهائل للبيانات، واختلاف أنواع البيانات، والسرعة اللازمة لمعالجة هذه البيانات.
بيانات غير هيكلية
نوع من البيانات يمكن أن يكون فيه لكلِّ مثيلٍ في مجموعة البيانات هيكلُه الداخلي الخاص به؛ أي ليس بالضرورة أن يكون الهيكل متماثلًا في جميع المثيلات. على سبيل المثال، غالبًا ما تكون البيانات النصية بياناتٍ غير هيكلية وتستلزِم تطبيق سلسلة من العمليات عليها حتى يتسنى استخراج تمثيلٍ هيكلي لكل مثيل.
بيانات مستخلَصة
هي البيانات التي تُستخلَص من خلال عملية قياس مباشرة مُصممة خصوصًا لجمع البيانات. يُرجى مقارنتها بتعريف «بيانات ثانوية».
بيانات هيكلية
هي البيانات التي يمكن تخزينها في جدول. وتكون لكل مثيلٍ في الجدول مجموعة السمات نفسها. يُرجى مقارنتها بمصطلح «بيانات غير هيكلية».
تجميع
تحديد مجموعات المثيلات المتشابهة في مجموعة بياناتٍ ما.
تحليل الانحدار
يقدِّر القيمة المتوقعة (أو المتوسطة) لسمةٍ عددية مستهدفة عندما تكون جميع قيم السمات المدخلة ثابتة. ويفترض تحليل الانحدار نموذجًا رياضيًّا قائمًا على المعاملات للعلاقة المفترضة بين المدخَلات والمخرَجات المعروفة باسم «دالة الانحدار». ويمكن أن تحتوي دالة الانحدار على معاملاتٍ متعددة، ويركز تحليل الانحدار على إيجاد الإعدادات الصحيحة لهذه المعاملات.
تحليل البيانات
يقصد به أي عملية لاستخلاص معلوماتٍ مفيدة من البيانات. وتشمل أنواع تحليل البيانات التمثيل المرئي للبيانات، والإحصاءات الموجزة، وتحليل الارتباط، والنمذجة باستخدام تعلُّم الآلة.
تصنيف
هي مهمة يُتنبأ من خلالها بقيمة سمةٍ مستهدفة لمثيل ما بناءً على قيم مجموعة من السمات المدخلة، حيث تكون السمة المستهدفة من نوع البيانات الاسمية أو الترتيبية.
تعلُّم الآلة
مجال في أبحاث علوم الكمبيوتر يركز على إنشاء وتقييم خوارزمياتٍ يمكنها استخراج أنماطٍ مفيدة من مجموعات البيانات. وتأخذ خوارزمية تعلم الآلة مجموعة بيانات باعتبارها مدخَلات، وتنتج نموذجًا يشفر الأنماط التي استخرجتها الخوارزمية من البيانات.
تعلُّم الآلة المدمَج في قواعد البيانات
يُقصَد به استخدام خوارزميات تعلُّم الآلة المدمَجة في حلِّ قاعدة البيانات. ويفيد تعلُّم الآلة المدمج في قواعد البيانات في تقليل الوقت المستغرَق في نقل البيانات داخل قواعد البيانات وخارجها بهدف تحليلها.
تعلُّم خاضع للإشراف
شكل من أشكال تعلُّم الآلة يكون الهدف فيه هو إنشاء دالَّة وتعليمها كيفية تقدير قيمة سمةٍ مستهدفة خاصة بمثيلٍ بالاستدلال بمجموعة من قِيَم السمات المدخَلة الخاصة بهذا المثيل نفسه.
تعلُّم عميق
نموذج التعلُّم العميق هو عبارة عن شبكةٍ عصبية تتضمَّن عدة طبقاتٍ (أكثر من طبقتَين) من الوحدات المخفية (أو الخلايا العصبية). وتُوصَف الشبكات العميقة بالعمق في ضوء عدد طبقات الخلايا العصبية داخل الشبكة. ويتألف الكثير من الشبكات العميقة حاليًّا من عشرات بل من مئات الطبقات. وتنبُع قوة نماذج التعلُّم العميق من قدرة الخلايا العصبية الموجودة في الطبقات الأخيرة على تعلُّم سماتٍ مفيدة مُشتقة من السِّمات التي تعلمَتْها الخلايا العصبية في الطبقات الأولى.
تعلُّم غير خاضع للإشراف
شكل من أشكال تعلُّم الآلة يكون الهدف فيه هو تحديد أنماطٍ مُتسقة في البيانات. وقد تتضمن هذه الأنماط مجموعاتٍ من المَثيلات المتشابهة داخل البيانات أو أنماط وعلاقات بين سماتٍ مختلفة. وعلى عكس التعلُّم الخاضع للإشراف، لا تُحدَّد سمة مُستهدَفة في مجموعة البيانات في هذا الشكل من التعلُّم.
تنبُّؤ
يُقصَد بالتنبؤ في سياق علم البيانات وتعلُّم الآلة مهمة تقدير قيمة إحدى السمات المستهدفة لمثيلٍ مُعين بناءً على قِيم سماتٍ أخرى (أو السمات المدخَلة) لذلك المثيل.
تنقيب عن قواعد الارتباط
أسلوب لتحليل البيانات غير خاضع للإشراف، ويهدف إلى البحث عن مجموعات العناصر التي كثيرًا ما يتكرَّر وجودها معًا. وتتمثل حالة الاستخدام الكلاسيكية لهذا الأسلوب في تحليل سلة التسوق، حيث تحاول متاجر البيع بالتجزئة تحديد مجموعات العناصر التي تُشترى معًا، مثل شراء النقانق والكاتشب والبيرة معًا.
تنقيب في البيانات
هي عملية استخراج أنماطٍ مفيدة من مجموعة البيانات لحل مشكلةٍ محددة جيدًا. تُحدِّد العملية القياسية المتعددة المجالات للتنقيب في البيانات المراحل القياسية لمشروع التنقيب في البيانات. وعملية التنقيب في البيانات وثيقة الصلة بعلم البيانات، ولكنها بوجهٍ عامٍّ ليست على القدر نفسه من سعة النطاق.
جدول التحليل الرئيسي
جدول يحتوي فيه كل صفٍّ على البيانات المتعلقة بمثيلٍ معين، ويصف فيه كل عمود القيم الخاصة بسمةٍ معينة لكل مثيل. وهذه البيانات هي المدخل الأساسي لخوارزميات تعلُّم الآلة والتنقيب في البيانات.
حوسبة عالية الأداء
يركز مجال الحوسبة العالية الأداء على تصميم أطُر عمل وتنفيذها لربط عددٍ كبير من أجهزة الكمبيوتر معًا بحيث يمكن لمجموعة الأجهزة المرتبطة معًا تخزين كمياتٍ مهولة من البيانات ومعالجتها بكفاءة.
خلية عصبية
تستقبل الخلية العصبية عددًا من قِيَم الإدخال في صورة مُدخلات، ثم تعين من خلالها قيمة إخراج واحدة في صورة مُخرجات. وتتم هذه العملية عادةً من خلال تنفيذ دالة انحدارٍ خطي متعددة المدخلات على قِيم الإدخال هذه ثم تمرير ناتج دالَّة الانحدار عبر دالَّة تنشيط غير خطية، مثل الدالة اللوجستية أو دالة ظلِّ الزاوية الزائدي.
سمة
يُوصَف كل مثيلٍ في مجموعة البيانات بعددٍ من السمات (المعروفة أيضًا ﺑ «الميزات» أو «المتغيرات»). تُسجِّل السمة معلومةً مُعينة عن المثيل. وقد تكون السمة خامًا أو مشتقة.
سمة خام
معلومة مجردة عن كيانٍ ما؛ أي قياس مباشر لهذا الكيان؛ على سبيل المثال، طول شخص مُعين. يُرجى مقارنتها بمصطلح «سمة مشتقة».
سمة مستهدفة
يُقصَد بها في مهامِّ التنبؤ السمة التي تم تدريب نموذج التنبؤ من أجل تقدير قيمتها.
سمة مُشتقة
هي سمة توجَد قيمتها بتطبيق دالَّة على بياناتٍ أخرى بدلًا من استخدام أداة قياس مباشر مأخوذة من الكيان نفسه. ومن أمثلة السمات المشتقة السمة التي تصف قيمةً متوسطة في مجتمع إحصائي. يُرجى مقارنتها بمصطلح «سمة خام».
شبكة عصبية
هي أحد أنواع نماذج تعلُّم الآلة، يُطبَّق على هيئة شبكة مكوَّنة من وحدات معالجة بسيطة تُسمى الخلايا العصبية. ويمكن إنشاء مجموعة متنوعة من أنواع الشبكات العصبية المختلفة من خلال تعديل طوبولوجيا الخلايا العصبية في الشبكة. تُعد الشبكة العصبية المتصلة بالكامل ذات التغذية الأمامية أحد الأنواع الشائعة للغاية من الشبكات التي يمكن تدريبها باستخدام الانتشار العكسي.
علاقة ارتباطية
يقصد بها قوة الارتباط بين سِمتَين.
علم البيانات
مجال ناشئ يدمج مجموعة من تعريفات المشكلات والخوارزميات والعمليات التي يمكن الاستعانة بها في تحليل البيانات من أجل استخراج رؤًى عملية قابلةٍ للتنفيذ من مجموعات البيانات (الكبيرة). وعلم البيانات وثيق الصلة بمجال التنقيب في البيانات، إلا أنه يفوقه من حيث سعة النطاق ومجالات التركيز والاهتمام. يتعامل هذا العلم مع كلٍّ من البيانات (الضخمة) الهيكلية وغير الهيكلية، ويشمل مبادئ مُستقاة من عدة مجالاتٍ، من بينها تعلُّم الآلة وعلم الإحصاء وأخلاقيات البيانات والقواعد التنظيمية للبيانات والحوسبة العالية الأداء.
عملية قياسية متعددة المجالات للتنقيب في البيانات
تُحدد هذه العملية المراحل القياسية لأيِّ مشروعٍ من مشروعات التنقيب في البيانات. وعادةً ما تمر مشروعات علم البيانات بنفس المراحل.
قاعدة البيانات
هي مستودع مركزي لتخزين البيانات. ويتمثل هيكل قاعدة البيانات الأكثر شيوعًا في قاعدة البيانات الارتباطية، التي تخزَّن من خلالها البيانات على هيئة جداول تتألف من صفٍّ واحد لكل مثيلٍ وعمود واحد لكلِّ سمة. ويُعد هذا التمثيل تمثيلًا نموذجيًّا لتخزين البيانات بهيكلٍ واضح يمكن تفكيكه إلى سماتٍ أساسية.
قاعدة بيانات المعالجة المتوازية الواسعة النطاق
في هذا النوع من قواعد البيانات، تُقسَّم البيانات عبر عدة وحدات خدمة، ويمكن لكل وحدةِ خدمة معالجة البيانات الموجودة عليها محليًّا على نحوٍ مستقل.
لغة الاستعلام الهيكلية
لغة قياسية دولية لتحديد استعلامات قاعدة البيانات.
مثيل
يحتوي كل صفٍّ في مجموعة البيانات على معلوماتٍ عن مثيلٍ واحد (يُعرف أيضًا ﺑ «مثال»، أو «كيان»، أو «حالة»، أو «سجل»).
مجموعة البيانات
مخزن البيانات التشغيلية
يدمج نظام مخزن البيانات التشغيلية البيانات التشغيلية أو الخاصة بالمعاملات من عدة أنظمة للمساعدة في إنشاء تقارير حول العمليات التشغيلية المختلفة.
مستودع البيانات
عبارة عن مخزنٍ مركزي يتضمن بياناتٍ مُستقاة من مجموعة من المصادر عبر مؤسسةٍ ما. تتم هيكلة البيانات بأسلوب يسهل معه إنشاء تقارير موجزة من البيانات المجمَّعة. ويُستخدم مصطلح «المعالجة التحليلية عبر الإنترنت» لوصف العمليات النموذجية التي تتم على مستودع البيانات.
مدينة ذكية
تحاول مشروعات المدن الذكية بوجهٍ عام دمج البيانات الفورية القادمة من العديد من مصادر البيانات المختلفة في مركز بياناتٍ واحد، حيث تُحلَّل وتُستخدَم للاسترشاد بها في قرارات إدارة المدن وتخطيطها.
معالجة المعاملات عبر الإنترنت
هذه المعالجة مُصممة للمعاملات القصيرة على البيانات عبر الإنترنت (مثل الإدراج والحذف والتحديث وغيرها) مع التأكيد على سرعة معالجة الاستعلامات وضمان صحة البيانات في البيئات التي يمكن الوصول إليها من جهاتٍ متعددة. قارن بينها وبين «المعالجة التحليلية عبر الإنترنت»، المصممة من أجل عملياتٍ أكثر تعقيدًا على البيانات القديمة.
معالجة تحليلية عبر الإنترنت
تُنشئ عمليات المعالجة التحليلية عبر الإنترنت ملخَّصاتٍ للبيانات القديمة وتجمع البيانات من مصادر متعددة. هذه العمليات مُصمَّمة لإنشاء ملخصاتٍ شبيهة بالتقارير، وهي تُتيح للمستخدِمين تقسيم البيانات في مستودع البيانات وتجزئتها وإعادة تنظيمها في جداول محورية باستخدام مجموعةٍ من الأبعاد المحددة مسبقًا، مثل المبيعات حسب المتجر والمبيعات حسب الفترة ربع السنوية وهكذا. يُرجى مقارنتها بمصطلح «معالجة المعاملات عبر الإنترنت».
نظام إدارة قواعد البيانات الارتباطية
هو نظام إدارة قواعد بيانات يستند إلى نموذج البيانات الارتباطية الذي طوَّره إدجار فرانك كود. تُخزِّن قواعدُ البيانات الارتباطية البيانات في مجموعةٍ من الجداول، حيث يكون لكلِّ جدولٍ منها هيكل مكوَّن من صفٍّ واحد لكل مثيل وعمود واحد لكل سمة. ويمكن إنشاء روابط بين الجداول من خلال تضمين سماتٍ أساسية في الجداول المتعددة. يتناسب هذا الهيكل مع استعلامات لغة الاستعلام الهيكلية التي من شأنها تحديد العمليات التي ستُجرى على البيانات الموجودة في الجداول.
نموذج
في سياق تعلُّم الآلة، يُعَدُّ النموذج هو تمثيل أحد الأنماط المستخرجة من مجموعة بياناتٍ ما باستخدام تعلُّم الآلة. ومن ثَمَّ، يتم تدريب النماذج، أو جعلها ملائمة لمجموعة البيانات، أو إنشاؤها عن طريق تطبيق خوارزمية تعلُّم آلة على مجموعة البيانات. وتشمل التمثيلات الشائعة للنماذج الهيكل الشجري لاتخاذ القرار والشبكات العصبية. يُحدِّد نموذج التنبؤ علاقة (أو دالَّة) يُوجِد بموجبها قيمة سمةٍ مستهدفة بناءً على قيم مجموعة من السمات المدخلة. وبمجرد إنشاء النموذج، يمكن تطبيقه على أي حالاتٍ جديدة مشابهة من نفس المجال. على سبيل المثال، من أجل تدريب نموذجٍ لتصفية البريد العشوائي، نقوم بتطبيق خوارزمية تعلُّم آلة على مجموعة بياناتٍ خاصة برسائل بريد إلكتروني قديمة مُصنفة على أنها عشوائية أو غير عشوائية. وبمجرد أن يتم تدريب النموذج، يُمكن استخدامه لتصنيف (أو لتصفية) رسائل البريد الجديدة التي لم تكن موجودةً في مجموعة البيانات الأصلية.
هادوب
منصة مفتوحة المصدر طوَّرتها مؤسسة أباتشي للبرمجيات، وهي مصمَّمة خصوصًا لمعالجة البيانات الضخمة. وتستخدِم التخزين والمعالجة الموزعة عبر مجموعاتٍ من الأجهزة.
هرم البيانات والمعلومات والمعرفة والحكمة
نموذج للعلاقات الهيكلية بين البيانات، والمعلومات، والمعرفة، والحكمة. في هذا الهرم، تأتي البيانات أولًا عند سفح الهرم، تليها المعلومات، ثم المعرفة، ثم الحكمة عند قمة الهرم.