النظام الجديد ينظيف جداول البيانات الفوضوية تلقائيًا

تنظيف تلقائيب لجداول البيانات

النظام الجديد ينظيف جداول البيانات الفوضوية تلقائيًا
كتب :ايهاب محمد زايد-مصر
أنشأ باحثو معهد ماساتشوستس للتكنولوجيا نظامًا جديدًا ينظف تلقائيًا “البيانات القذرة” – الأخطاء المطبعية والتكرارات والقيم المفقودة والأخطاء الإملائية والتناقضات التي يخافها محللو البيانات ومهندسو البيانات وعلماء البيانات.
النظام ، المسمى PClean ، هو الأحدث في سلسلة من لغات البرمجة الاحتمالية الخاصة بالمجال والتي كتبها باحثون في مشروع الحوسبة الاحتمالية التي تهدف إلى تبسيط وأتمتة تطوير تطبيقات الذكاء الاصطناعي (يتضمن البعض الآخر واحدًا للإدراك ثلاثي الأبعاد عبر الرسومات العكسية والآخر لنمذجة السلاسل الزمنية وقواعد البيانات).
وفقًا للمسوحات التي أجراها Anaconda و Figure Eight ، يمكن أن يستغرق تنظيف البيانات ربع وقت عالم البيانات. تعد أتمتة المهمة أمرًا صعبًا لأن مجموعات البيانات المختلفة تتطلب أنواعًا مختلفة من التنظيف ، وغالبًا ما تكون هناك حاجة إلى استدعاءات منطقية للحكم على الأشياء في العالم (على سبيل المثال ، أي من عدة مدن تسمى “بيفرلي هيلز” يعيش فيها شخص ما).
يوفر PClean نماذج عامة للفطرة السليمة لهذه الأنواع من استدعاءات الحكم التي يمكن تخصيصها لقواعد بيانات وأنواع أخطاء محددة. يستخدم PClean نهجًا قائمًا على المعرفة لأتمتة عملية تنظيف البيانات: يقوم المستخدمون بترميز المعرفة الخلفية حول قاعدة البيانات وأنواع المشكلات التي قد تظهر.
خذ على سبيل المثال مشكلة تنظيف أسماء الدول في قاعدة بيانات قوائم الشقق. ماذا لو قال أحدهم إنه يعيش في بيفرلي هيلز لكنه ترك عمود الولاية فارغًا؟ على الرغم من وجود بيفرلي هيلز الشهيرة في كاليفورنيا ، إلا أن هناك أيضًا واحدة في فلوريدا وميسوري وتكساس … وهناك حي في بالتيمور يُعرف باسم بيفرلي هيلز.
كيف تعرف في أي شخص يعيش؟ هذا هو المكان الذي تأتي فيه لغة البرمجة النصية التعبيرية لـ PClean. يمكن للمستخدمين إعطاء معلومات أساسية لـ PClean حول المجال وكيفية تلف البيانات. يجمع PClean بين هذه المعرفة من خلال المنطق الاحتمالي المنطقي للتوصل إلى الإجابة. على سبيل المثال ، بالنظر إلى معرفة إضافية حول الإيجارات النموذجية ، تستنتج شركة PClean أن بيفرلي هيلز الصحيحة تقع في كاليفورنيا بسبب ارتفاع تكلفة الإيجار حيث يعيش المستفتى.
يقول Alex Lew ، المؤلف الرئيسي للورقة البحثية وطالب الدكتوراه في قسم الهندسة الكهربائية وعلوم الكمبيوتر (EECS) ، إنه متحمس جدًا لأن PClean توفر طريقة للحصول على المساعدة من أجهزة الكمبيوتر بنفس الطريقة التي يطلب فيها الأشخاص المساعدة من أحدهم.
اخر. “عندما أطلب من أحد الأصدقاء المساعدة في شيء ما ، غالبًا ما يكون ذلك أسهل من طلب جهاز كمبيوتر. هذا لأنه في لغات البرمجة السائدة اليوم ، يجب أن أعطي إرشادات خطوة بخطوة ، والتي لا يمكن أن تفترض أن الكمبيوتر لديه أي سياق حول العالم أو المهمة – أو حتى مجرد قدرات التفكير المنطقي.
مع الإنسان ، يمكنني أن أفترض كل هذه الأشياء ، “كما يقول. “PClean هي خطوة نحو سد هذه الفجوة. يتيح لي إخبار الكمبيوتر بما أعرفه عن مشكلة ما ، وترميز نفس النوع من المعرفة الخلفية التي أشرحها لشخص يساعدني في تنظيف بياناتي. يمكنني أيضًا تقديم تلميحات ونصائح وحيل لـ PClean اكتشفتها بالفعل لحل المهمة بشكل أسرع “.
المؤلفون المشاركون هم مونيكا أغراوال ، طالبة دكتوراه في EECS. ديفيد سونتاج ، أستاذ مشارك في EECS ؛ و Vikash K. Mansinghka ، عالم أبحاث رئيسي في قسم علوم الدماغ والمعرفة.
ما هي الابتكارات التي تسمح لهذا العمل؟
فكرة أن التنظيف الاحتمالي المستند إلى المعرفة التوضيحية والتوليدية يمكن أن يوفر دقة أكبر بكثير من التعلم الآلي التي تم اقتراحها سابقًا في ورقة عام 2003 من قبل هانا باسولا وآخرين من مختبر ستيوارت راسل في جامعة كاليفورنيا في بيركلي.
يقول راسل ، أستاذ علوم الكمبيوتر في جامعة كاليفورنيا في بيركلي: “يعد ضمان جودة البيانات مشكلة كبيرة في العالم الحقيقي ، وجميع الحلول الموجودة تقريبًا مخصصة ومكلفة وعرضة للخطأ”. “PClean هو أول حل قابل للتطوير ومُصمم جيدًا ولأغراض عامة يعتمد على نمذجة البيانات التوليدية ، والتي يجب أن تكون الطريقة الصحيحة للذهاب. النتائج تتحدث عن نفسها.”
يضيف المؤلف المشارك Agrawal أن “أساليب تنظيف البيانات الحالية مقيدة بدرجة أكبر في تعبيرها ، والتي يمكن أن تكون أكثر سهولة في الاستخدام ، ولكن على حساب كونها مقيدة تمامًا. علاوة على ذلك ، وجدنا أنه يمكن لـ PClean التوسع في مجموعات البيانات الكبيرة جدًا التي لها أوقات تشغيل غير واقعية في ظل الأنظمة الحالية “.
يعتمد PClean على التقدم الأخير في البرمجة الاحتمالية ، بما في ذلك نموذج برمجة جديد للذكاء الاصطناعي تم إنشاؤه في مشروع الحوسبة الاحتمالية التابع لمعهد ماساتشوستس للتكنولوجيا والذي يجعل من السهل جدًا تطبيق نماذج واقعية للمعرفة البشرية لتفسير البيانات. تستند إصلاحات PClean إلى الاستدلال البايزي ، وهو نهج يوازن التفسيرات البديلة للبيانات الغامضة من خلال تطبيق الاحتمالات بناءً على المعرفة السابقة للبيانات الموجودة. “القدرة على اتخاذ هذه الأنواع من القرارات غير المؤكدة ، حيث نريد إخبار الكمبيوتر بنوع الأشياء التي من المحتمل أن يراها ، وجعل الكمبيوتر يستخدم ذلك تلقائيًا لمعرفة الإجابة الصحيحة على الأرجح ، أمر أساسي يقول ليو: “البرمجة الاحتمالية”.
PClean هو أول نظام Bayesian لتنظيف البيانات يمكنه الجمع بين خبرة المجال والاستدلال المنطقي لتنظيف قواعد البيانات تلقائيًا لملايين السجلات. تحقق PClean هذا المقياس من خلال ثلاثة ابتكارات.
أولاً ، تتيح لغة البرمجة النصية لـ PClean للمستخدمين تشفير ما يعرفونه. ينتج عن ذلك نماذج دقيقة ، حتى بالنسبة لقواعد البيانات المعقدة. ثانيًا ، تستخدم خوارزمية الاستدلال في PClean نهجًا من مرحلتين ، استنادًا إلى معالجة السجلات واحدًا تلو الآخر لإجراء تخمينات مستنيرة حول كيفية تنظيفها ، ثم إعادة النظر في استدعاءات الحكم لإصلاح الأخطاء.
ينتج عن هذا نتائج استدلال قوية ودقيقة. ثالثًا ، يوفر PClean مترجمًا مخصصًا يقوم بإنشاء كود استدلال سريع. هذا يسمح لـ PClean بالعمل على مليون قاعدة بيانات بسرعة أكبر من الطرق المتنافسة المتعددة. “يمكن لمستخدمي PClean إعطاء تلميحات PClean حول كيفية التفكير بشكل أكثر فاعلية حول قاعدة البيانات الخاصة بهم ، وضبط أدائها – على عكس مناهج البرمجة الاحتمالية السابقة لتنظيف البيانات ، والتي اعتمدت بشكل أساسي على خوارزميات الاستدلال العامة التي غالبًا ما كانت بطيئة جدًا أو غير دقيقة” ، كما يقول مانسينجكا.
كما هو الحال مع جميع البرامج الاحتمالية ، فإن سطور التعليمات البرمجية اللازمة لتشغيل الأداة أقل بكثير من الخيارات الحديثة البديلة: تحتاج برامج PClean إلى حوالي 50 سطرًا فقط من التعليمات البرمجية لتتفوق على معايير الأداء من حيث الدقة ووقت التشغيل. للمقارنة ، تتطلب لعبة هاتف محمول بسيطة على شكل ثعبان ضعف عدد أسطر التعليمات البرمجية للتشغيل ، وتأتي Minecraft بأكثر من مليون سطر من التعليمات البرمجية.
في ورقتهم البحثية ، التي قُدمت للتو في مؤتمر 2021 للذكاء الاصطناعي والإحصاء ، أظهر المؤلفون قدرة PClean على التوسع في مجموعات البيانات التي تحتوي على ملايين السجلات باستخدام PClean لاكتشاف الأخطاء وإسناد القيم المفقودة في 2.2 مليون صف Medicare Physician مقارنة الوطنية مجموعة البيانات.
يعمل برنامج PClean لمدة سبع ساعات ونصف فقط ، وقد وجد أكثر من 8000 خطأ. بعد ذلك ، تحقق المؤلفون يدويًا (من خلال عمليات البحث على مواقع المستشفيات وصفحات الأطباء على LinkedIn) من أن الإصلاح الذي اقترحته شركة PClean كان صحيحًا بالنسبة لأكثر من 96 بالمائة منهم.
نظرًا لأن PClean يعتمد على احتمالية Bayesian ، فيمكنه أيضًا تقديم تقديرات معايرة لعدم اليقين. “يمكن أن يحتفظ بفرضيات متعددة – يمنحك أحكامًا متدرجة ، وليس مجرد إجابات بنعم / لا.
هذا يبني الثقة ويساعد المستخدمين على تجاوز PClean عند الضرورة. على سبيل المثال ، يمكنك إلقاء نظرة على حكم لم يكن فيه PClean غير مؤكد ، وإخباره بالإجابة الصحيحة. ويمكنه بعد ذلك تحديث بقية أحكامه في ضوء ملاحظاتك “، كما يقول مانسينغكا.”
نعتقد أن هناك الكثير من القيمة المحتملة في هذا النوع من العملية التفاعلية التي تشطر الحكم البشري مع حكم الآلة. نحن نرى PClean كمثال مبكر لنوع جديد من أنظمة الذكاء الاصطناعي يمكن إخباره بالمزيد مما يعرفه الناس ، والإبلاغ عنه عندما يكون غير مؤكد ، والعقل والتفاعل مع الناس بطرق أكثر فائدة ، شبيهة بالبشر. ”
أشار ديفيد بفاو ، كبير علماء الأبحاث في DeepMind ، في تغريدة إلى أن PClean تلبي احتياجات العمل: “عندما تفكر في أن الغالبية العظمى من بيانات الأعمال لا توجد صور للكلاب ، ولكن إدخالات في قواعد البيانات وجداول البيانات العلائقية ، أتساءل أن أشياء مثل هذه لم تحقق النجاح الذي حققه التعلم العميق “.
الفوائد والمخاطر والتنظيم
تجعل PClean من الأرخص والأسهل الانضمام إلى قواعد البيانات الفوضوية غير المتسقة في سجلات نظيفة ، دون الاستثمارات الضخمة في الأنظمة البشرية والبرمجية التي تعتمد عليها الشركات التي تركز على البيانات حاليًا. هذا له فوائد اجتماعية محتملة – ولكن هناك أيضًا مخاطر ، من بينها أن PClean قد تجعل من الأرخص والأسهل غزو خصوصية الأشخاص ، وربما حتى إخفاء هويتهم ، من خلال ضم معلومات غير كاملة من مصادر عامة متعددة.
يقول مانسينغكا: “نحتاج في النهاية إلى بيانات أقوى بكثير ، وذكاء اصطناعي ، وتنظيم للخصوصية ، للتخفيف من هذه الأنواع من الأضرار”. يضيف ليو: “مقارنة بأساليب التعلم الآلي لتنظيف البيانات ، قد تسمح PClean بمراقبة تنظيمية أكثر دقة. على سبيل المثال ، يمكن لـ PClean أن تخبرنا ليس فقط أنها دمجت سجلين للإشارة إلى الشخص نفسه ، ولكن أيضًا لماذا فعلت ذلك – ويمكنني أن أتوصل إلى تقديري الخاص حول ما إذا كنت أوافق أم لا. يمكنني حتى أن أخبر PClean فقط للنظر في أسباب معينة لدمج إدخالين “. لسوء الحظ ، يقول الباحثون ، تظل مخاوف الخصوصية قائمة بغض النظر عن مدى عدالة تنظيف مجموعة البيانات.
يسعد مانسينغكا وليو بمساعدة الناس على متابعة تطبيقات مفيدة اجتماعيًا. لقد تم الاتصال بهم من قبل الأشخاص الذين يرغبون في استخدام PClean لتحسين جودة البيانات للصحافة والتطبيقات الإنسانية ، مثل مراقبة مكافحة الفساد وتوحيد سجلات المانحين المقدمة إلى مجالس الانتخابات بالولاية. تقول أغراوال إنها تأمل أن توفر PClean وقت علماء البيانات ، “للتركيز على المشكلات التي يهتمون بها بدلاً من تنظيف البيانات. تشير التعليقات المبكرة والحماس حول PClean إلى أن هذا قد يكون هو الحال ، ونحن متحمسون لسماعه “.
المصدر
https://news.mit.edu/

تنبيه هام، المنشور يعبر عن رأي الكاتب ويتحمل مسؤوليته، دون ادنى مسؤولية علي الجريدة

تنبيه

احصل على تحديثات في الوقت الفعلي مباشرة على جهازك ، اشترك الآن.

معلومة تهمك

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.

%d مدونون معجبون بهذه: