آخر الأخبار

اكتشف آخر الأخبار والتحديثات حول خدماتنا ومنتجاتنا. نبقيك على اطلاع دائم بكل ما هو جديد.

استخدام البيانات الضخمة لزيادة فعالية الإعلانات (تجربة شركة فيسبوك)

ترجمة: أمل محمد

مراجعة: محمد كامل

مدخل

فيسبوك، وبشهادة شريحة لا يستهان بها، لا تزال أكبر شبكة للتواصل الاجتماعي في العالم. حيث يستخدمها الكثير الأشخاص من الأبناء وحتى الأجداد للتواصل مع أصدقائهم، ومشاركة مناسباتهم المميزة، بالإضافة إلى تنظيم الفعاليات الاجتماعية. كما يستخدمه ملايين الأشخاص يوميا لقراءة الأخبار، والتواصل مع الشركات، واتخاذ قرارات شرائية. وكما هو الحال في جميع شبكات التواصل الاجتماعي ومحركات البحث، تقدم فيسبوك خدماتها بالمجان لكافة مستخدمي البرنامج. حيث تحصل الشركة على المال من المشاريع التي يدفع أصحابها مبالغ مقابل الحصول على البيانات والمعلومات التي تجمعها حول مستخدميها، وتستخدمه في دفع أجور موظفيها، الذي يزيد عددهم عن ١٠٠٠٠ موظف، والاستمرار في تقديم خدماتها. وقد أعلنت شركة فيسبوك هذه السنة عن استقطابها لمليونين معلن فعال، أغلبهم يعمل لشركات صغيرة أو متوسطة، يدفعون المال مقابل عرض إعلاناتهم لأشخاص قد يهمهم ما يقدمونه.

ما هي التحديات التي تساعد البيانات الضخمة في حلها في هذا القطاع؟  

لكي تستمر الشركات تحتاج إلى بيع منتجاتها وخدماتها. ولفعل ذلك، لابد من إيجاد مستهلكين وزبائن لهذه المنتجات. وبناء على الطريقة التقليدية كان هذا يتم بالإعلان بطريقة “إذاعية،” مثل: الجرائد والتلفاز والراديو وعرض العمل الإعلاني، وذلك يعتمد على مبدأ أنه إن عرضت عملك في أكثر الأماكن بروزا ستضمن أن يشاهده عدد كبير من الناس وبالتالي يحتمل أن يكون بعضهم مهتم بما تقدمه. لكن هذه الطريقة بالتأكيد تعد طريقة عشوائية. وبالنسبة لشركة ضخمة ومتعددة الجنسيات، من المؤكد أن يزيد إعلان تلفزيوني يُعرض خلال المباراة الأمريكية النهائية من انتشارها وعرض اسمها أمام مستهلكين محتملين. ولكن عندما نتحدث عن شركة صغيرة ناشئة، فإنه لابد من التفكير بحكمة وحذر حول أكثر الطرق فاعلية لصرف الميزانية المخصصة للتسويق. ومثل هذه الشركات لا يمكنها الإعلان بمختلف الطرق ولجميع الفئات، لذلك تعد الأدوات التي تمكنها من معرفة هوية مستهلكيها ومكان تواجدهم في غاية الأهمية.

كيف استخدمت البيانات الضخمة؟  

زود التوسع السريع في عالم الإنترنت خلال العقدين الأخيرين المعلنين بطريقة بسيطة لعمل ذلك. ولأن المواقع تعمل على أجهزة الحاسوب، وليس في الصحف أو لوح الإعلانات، فيمكن التعرف على كل زائر مستقل باستخدام البرنامج المشغل للموقع. حيث تملك منصة فيسبوك، الذي يبلغ عدد مستخدميها المتفاعلين شهريا ١.٥ مليار، صلاحية الوصول إلى عدد كبير من المعلومات المتعلقة بالمستخدمين أكثر من أي منصة أخرى. وتعد المعلومات شخصية الأكثر أهمية، فبينما يمكن لبعض برامج التصفح مثل قوقل تعقب عدد مرات زياراتنا لصفحات معينة (والتي يمكن لمنصة فيسبوك حاليا القيام بها) واستنتاج الكثير عنا بالاعتماد على عاداتنا في التصفح، فإن برنامج فيسبوك يملك كامل الصلاحية للوصول إلى معلوماتنا الديموغرافية مثل: مكان عيشنا، وعملنا، ومتعتنا، وعدد أصدقائنا، وكيفية قضائنا لأوقات فراغنا، وكذلك كتبنا وأفلامنا المفضلة. حيث يمكن، على سبيل المثال، لناشر كتاب أن يدفع لفيسبوك مقابل وضع إعلاناته أمام ملايين الأشخاص ممن يفضلون كتب مشابهة وكذلك مطابقة الملفات التعريفية الديموغرافية لمستخدمي فيسبوك. وتُستخدم البيانات التي تخص المستخدمين خلال تصفحهم لمنصة فيسبوك لمطابقتها مع الشركات التي تقدم المنتجات والخدمات التي من المحتمل أن يكونون مهتمين بها. وبلا شك، فإن فيسبوك تملك أكبر قاعدة بيانات للمعلومات الشخصية وأكثرها وضوحا ويزيد اتساعها في كل جزء من الثانية. وبالإضافة إلى اعتبار فيسبوك منصة لتبادل الرسائل، فإنه يعد أيضا مشغل لبرامج عدة. حيث أنشئ أكثر من نصف مليون تطبيق خصيصا لبرنامج فيسبوك، وأغلبها يستفيد من الصلاحية التي يمنحها التطبيق من خلال APIs خاصة لبيانات المستخدم. حيث تجمع هذه التطبيقات بدورها معلومات عن كيفية استخدامها ومن ثم يستفيد مطوروها في عرض الإعلانات على عملائها. كما تتسع شركة فيسبوك بشرائها لشركات وخدمات أخرى وإضافة ما تزوده تلك الشركات من بيانات لمخزونها. حيث استحوذت الشركة في السنوات الأخيرة على خدمات برنامجي انستقرام وواتساب مما أضاف لها المزيد من المعلومات حول كيفية استخدامنا للصور والرسائل اللحظية. ومما يثير الاهتمام أيضا، أنهم استحوذوا كذلك على مصانع سماعات رأس الواقع الافتراضي (أوكولوس). وعلق البعض على الحاصل بأن شركة فيسبوك مهتمة بتطوير خدماتها بحث يمكننا التواصل بالواقع الافتراضي بدلا من الشاشات المسطحة. والتحكم في أفعالنا في هذه العوالم الافتراضية الجديدة والمثيرة سيكون بلا شك مصدر مهم لبيانات جديدة في المستقبل القريب.

ماهي أبرز النتائج؟  

أدت الاستراتيجية التي اتبعتها فيسبوك من استغلال ثروتها الهائلة من بيانات المستخدمين لبيع المساحات الإعلانية، لامتلاك حصة بنسبة ٢٤٪ من سوق الإعلانات المعروضة على الإنترنت في عام ٢٠١٤، والتي تدر على الشركة ما يقارب ٥،٣ مليار دولار من عائدات بيعهم للإعلانات، وقد ارتفعت كما هو متوقع في عام ٢٠١٧ لتصبح بنسبة ٢٧٪، أي ما يعادل أكثر من ١٠ مليار. 

ما هي البيانات التي تم استخدامها؟  

مستخدمي منصة فيسبوك يعتبرون هم الكنز التي تعتمد عليه الشركة لجمع بياناتها.  حيث يشارك المستخدمون للتطبيق ما يقارب ٢.٥ مليون منشور كل دقيقة. ومن ثم يُحلل هذا المحتوى لإيجاد معلومات مفتاحية عن المستخدمين تسمح بتصنيفهم إلى عدة فئات حسب اهتمامات  المعلنين. بالإضافة إلى تفاعلهم مع محتوى أشخاص آخرين والبيانات المخزنة في قواعد بيانات فيسبوك، والتي تحتوي على قوائم المشاريع وقواعد البيانات للأفلام والموسيقى والكتب والعروض التلفزيونية. وبالتالي فإنه متى ما أُعجبنا أو نشرنا أي محتوى، فإن هذا يسمح لهم أيضا بمعرفة المزيد عنا. ولعدم اختراق الخصوصية، تُشفر جميع هذه البيانات أثناء إدخالها للأنظمة التي تزاوج ما بين المشاريع والمستهلكين المحتملين. وهذا كله يعني أن اسمك يحذف أو يستبدل برمز تعريفي مميز لا يمكّنهم من التعرف عليك شخصيا. 

ما هي أبرز التقنيات المستخدمة؟ 

يعد فيسبوك أكثر المنصات زيارة في العالم بعد محرك البحث (قوقل)، كما أنه أكثر المواقع بحثا في قوقل. ويقال بأنه مسؤول عن ١٠٪ من جميع عمليات العبور عبر الإنترنت. وبالطبع، فإن خدمة إنترنت بهذا الحجم تتطلب بنية تحتية لا يستهان بها. حيث تحتوي مراكز بيانات فيسبوك على خوادم مصممة حسب الطلب، التي تبنى باستخدام شرائح إنتل وإي إم دي بالإضافة إلى أحدث تقنيات توفير الطاقة والتي تساعد في التقليل من التكلفة الهائلة لإبقاء الكثير من الخوادم في وضع التشغيل بشكل متواصل. وقد أتيحت تصاميم أنظمة الخوادم كمراجع مفتوحة المصدر. كما تعتمد فيسبوك على تقنية خاصة ببرمجياتها مكتوبة بلغة PHP وهي متاحة للعامة أيضا.  كما تشغل قواعد بيانات MySQL. وأنشأ مبرمجوه تقنية HipHop لل MySQL compiler والتي تقوم بترجمة كود PHP إلى ++C في وقت قياسي.، مما يسمح باستخدام الكود بسرعة وتقليل الضغط على المعالجات. كما يستخدم فيسبوك نظام التخزين الموزع الخاص به بناء على منصة Hadoop’s HBase للتحكم في التخزين. ويعرف أيضا بأن فيسبوك تستخدم Apache Hive للتحليل المباشر واللحظي  لبيانات المستخدمين.

ما هي أبرز التحديات التي واجهت فيسبوك؟

كما هو الحال لدى أغلب أشهر مقدمي خدمات الإنترنت، فإن أكبر تحدي تواجهه شركة فيسبوك هو كسب ثقة عملائها. ففي البداية، كان من المتوقع إيجاد أشخاص يشككون وبقوة في نشر تفاصيلهم الشخصية على الإنترنت لأنه لم يكن باستطاعتهم التأكد من الطريقة التي ستستخدم بها هذه البيانات. وحتى لو التزمت كل شركة في العالم بالشروط والسياسات التي تتعلق بالخصوصية ومشاركة البيانات، فإن أشد هذه السياسات تقف مكتوفة أمام عمليات فقدان البيانات أو سرقتها، مثل هجمات القرصنة. ومنذ البداية، حاولت شركة فيسبوك أن تفوز بثقة المستخدمين بإظهار مدى حرصها على الخصوصية. ومقارنة بما كان في الماضي من ثغرات وإشارات لطرف ثالث غامض وغير محدد، فإن ميزات الخصوصية التي قدمتها شركة فيسبوك غلبت غيرها من المزايا التي تقدمها غيرها من الشركات المعاصرة، مثل شركة Myspace. وتعد حقيقة أنه كان على الأقل هناك وهم خصوصية كافية لجذب الكثير من الأشخاص لثورة وسائل التواصل الاجتماعي. حيث، تلقائيا، كان كل ما يشاركه المستخدم لا يخرج عن إطار مشاركته مع مجموعة من الأصدقاء الموثوقين، على عكس Myspace، التي كانت تشارك فيه المنشورات تلقائيا مع العالم. كما أتاحت شركة فيسبوك خيارات تسمح للمستخدم من تحديد مدى خصوصية ما ينشرون كأن تكون عامة ومتاحة للجميع أو خاصة. غير أنه كانت هناك شكاوى دائمة تتعلق بصعوبة وتعقيد الوصول لهذه الخيارات. 

الخاتمة:  

غيّرت منصة فيسبوك طريقة تواصلنا مع بعضنا باستخدام الانترنت تغييرا جذريا، حيث سمح لنا ببناء شبكتنا الخاصة واختيار الأشخاص الذين نرغب بمشاركة معلومات تتعلق بحياتنا معهم. وتعد هذه المعلومات ذات قيمة لا يستهان بها للمعلنين، الذين بإمكانهم استخدام هذه المعلومات لاستهداف أشخاص معينين قد يكونون مهتمين أو يرغبون بمنتجاتهم وخدماتهم، وذلك بناء على التحليل للكم الهائل من البيانات التي تملكها فيسبوك. ويعد الإعلان الموجه ذو فائدة بالغة للمشاريع الصغيرة التي يصعب عليها صرف ميزانية تسويقية لعرض منتجاتها وخدماتها على الفئة الخطأ. كسب ثقة المستخدمين يعد أمرا ً بالغ الأهمية. وبعيدا عن لصوص المعلومات وغيرهم من الأنشطة غير القانونية، قد يزعج المستخدمون لرؤية إعلانات لا تهمهم وبكثرة. ولذلك، فإن من مصلحة شركة فيسبوك وكل المعلنين اختيار الفئة المستهدفة بفعالية أكبر. 

المراجع:

1. Statista (2016) Number of monthly active Facebook users worldwideas of 3rd quarter 2015 (in millions), http://www.statista.com/statistics/264810/number-of-monthly-active-facebook-users-worldwide/,accessed 5 January 2016.

2. eMarketer (2015) Facebook and Twitter will take 33% share of US digital display market by 2017, http://www.emarketer.com/Article/Facebook- Twitter-Will-Take-33-Share-of-US-Digital-Display-Market-by-2017/1012274, accessed 5 January 2016.

For more information about Facebook and Big Data, visit: http://www.wired.com/insights/2014/03/facebook-decade-big-data/

الانحدار الخطي (بايثون)

ترجمة: محمد كامل

يعتبر الانحدار الخطي أحد أشهر نماذج تعلم الآلة التي تستخدم في التحليلات التنبؤية من خلال دراسة العلاقة بين المتغير (التابع) والمتغير (المستقل). 

سنتعلم في هذا الدرس عدة نقاط:

1- كيفية بناء نموذج الانحدار الخطي بلغة بايثون. 

2- تقييم النموذج من خلال تقييم دقة التنبؤ و قيمة R-squared.

3- كيفية التحقق من النموذج عن طريق اختبار الخطية linearity ، والحالة الطبيعية normality ، والتجانس homoscedasticity ، والارتباط الذاتي autocorrelation ، والخطية المتعددة multicollinearity. 

4- طريقة الكشف عن القيم المتطرفة عن طريق اختبار مسافة كوك Cook’s distance.

هناك عدة أنواع للانحدار الخطي. الانحدار الخطي البسيط: عندما يكون هناك متغير مسقل واحد. و الانحدار الخطي المتعدد: عندما يكون هناك أكثر من متغير مستقل. وبشكل عام، فإن البيانات لا تكون بشكل خطي في أغلب الحالات الطبيعية، لذلك تحتوي معادة الانحدار الخطي على معدل الخطأ error term

نموذج الانحدار الخطي

سنقوم ببناء نموذج انحدار خطي متعدد نحلل فيه بيانات الإسكان في مدينة بوسطن في الولايات المتحدة في نهاية السبعينيات 1790s. تحتوي البيانات على 506 حالة (Cases) و 14 متغير (attributes).

دعونا نأخذ نظرة سريعة على البيانات:

names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'[

(data = pd.read_csv("./housing.csv", delim_whitespace=True, names=names

()data.head

1- نبذة عن المتغيرات الواردة في البيانات:

Crime: معدل الجريمة.

ZN: نسبة الأراضي السكنية.

INDUS: نسبة المساحة المخصصة للأعمال التجارية لغير قطاع التجزئة.

CHAS: هل المنطقة السكنية محاذية لنهر تشارليس (1 إذا كانت محاذية و 0 إذا كانت عكس ذلك).

NOX: معدل تركيز النيتروجين في المنطقة.

RM: متوسط عدد الغرف في المساكن.

AGE: نسبة السكان المالكين للمساكن التي بنيت قبل عام 1940.

DIS: المسافة بين المنطقة و أقرب 5 مراكز توظيف.

RAD: مؤشر سهولة الوصول إلى الطرق السريعة.

TAX: معدل قيمة ضريبة المساكن لكل 10000 دولار.

PTRATIO: عدد التلاميذ إلى المعلمين.

B: نسبة السكان من البشرة السوداء.

LSTAT: نسبة السكان من الطبقة الفقيرة.

MEDV: متوسط قيمة المساكن التي يقطنها ملاك وليس مستأجرين.

2- نحدد القيم المراد التنبؤ بها والمتغيرات المراد دراسة تأثيرها:

سنقوم بالتنبؤ بأسعار المنازل (“MEDV”) باستخدام بقية المتغيرات من خلال الأمر التالي:

predictors = ["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT"]

outcome = "MEDV"-> Create X and y datasets

[X = data[predictors
["y = data["MEDV

3 – بناء نموذج الانحدار:

لبناء النموذج، سنقوم باستخدام مكتبة Statsmodels. يمكن أيضا ً استخدام Scikit-learn لبناء النموذج ولكن في هذا الدرس سنستخدم Scikit-learn لتدريب واختبار النموذج. 

import statsmodels.api as sm (X = sm.add_constant(X

كما هو سائد في هذا النوع من النماذج، سنقوم بتقسيم البيانات لمجموعتين: 80% من البيانات لتدريب النموذج و 20% منها لاختبار النموذج. سيتعلم النموذج من البيانات الموجودة في مجموعة التدريب والتي تكون النتيجة فيها معروفة وبعد تدريب النموذج سنقوم بتعميمه على بقية البيانات في مجموعة الاختبار. سنقوم بالتنبؤ بقيمة y في مجموعة الاختبار ومن ثم مقارنتها مع النتائج الحقيقية التي بحوزتنا للكشف عن مدى فرط التخصيص (Overfitting) أو فرط التعميم (Underfitting). 

تقسيم بيانات الدريب#

from sklearn.model_selection import train_test_split
train_X, test_X, train_y, test_y = train_test_split(X, y, train_size = 0.8, random_state = 42)

نموذج الانحدار الخطي#

(model = sm.OLS(train_y, train_X
()model = model.fit
(()print(model.summary2

4- النتائج:

– عدد الصفوف في البيانات 404 (80% من البيانات المتاحة). 

– قيمة R-squared (والتي تشير إلى جودة النموذج والتي تتراوح قيمتها عادة من 0 إلى 1) هي 0.75 للنموذج الذي قمنا ببنائه. 

– قيمة p-value أكبر من 0.05 لبعض المتغيرات مثل: “NZ”, “INDUS”, “AGE”, “TAX”  وبالتالي سنقوم بحذف هذه المتغيرات بسبب عدم أهميتها بناء على قيمة P والتي تحدد عما إذا كانت العلاقة التي نحاول الكشف عنها في عينة البيانات تبقى موجودة في عينة أكبر. 

5- التنبؤ باستخدام مجموعة الاختبار:

سنقوم باستخدام دالة model.predict للتنبؤ باستخدام test_x ومن ثم مقارنة النتائج مع test_y. 

(predictions = model.predict(test_X ({df_results = pd.DataFrame({‘Actual’: test_y, ‘Predicted’: predictions

6- تقييم النموذج:

من أهم القيم المستخدمة لتقييم النموذج هي: root mean squared error و the square root of the average squared error لقيمة y وتسمى (y-hat) والتي نستطيع من خلالها قياس دقة النموذج.

من القيم المهمة لتقييم النموذج هي قيمة R-squared والتي تتراوح قيمتها بين 0 و 1 والتي تقيس نسبة التباين في البيانات التي يتم احتسابها في نموذج الانحدار وتشير هذه القيمة إلى مدى يكون النموذج متناسب مع البيانات التي تم تحليليها.

لذلك، سنقوم الآن بحساب قيمة كلا ً من  RMSE و R-squared من خلال الأمر التالي:

from sklearn.metrics import r2_score, mean_squared_error RMSE = np.sqrt(mean_squared_error(test_y, predictions r2 = r2_score(test_y, predictions) ((print(RMSE, r2)

RMSE=4.92

R-squared = 0.66

كما يظهر لدينا في نتائج النموذج حينما تم تطبيقه على مجموعة الاختبار، فنلاحظ أن قيمة R-squared انخفضت من 0.75 (في مجموعة التدريب) إلى 0.66 (في مجموعة الاختبار) 

7- فحص النموذج:

عادة قبل البدء ببناء نموذج الانحدار الخطي نفترض ما يلي:

– فرضية الخطية Linearity: وهي افتراض أن العلاقة بين المتغير المستقل والمتغير التابع هي علاقة خطية.

– فرضية التوزيع الطبيعي Normality: وهي أن البواقي residuals تتبع التوزيع الطبيعي Normal distribution والمتوسط المتوقع يساوي صفر. 

– فرضية تجانس التباين Homoscedasticity: وهي افتراض أن اختلاف قيمة الباقي ثابته في جميع قيم X. 

– فرضية عدم وجود الارتباط التلقائي No autocorrelation: وهي افتراض أن قيم البواقي مستقلة عن بعضها البعض. 

– فرضية التداخل الخطي (No multicollinearity): وهي افتراض عدم وجود ارتباط عالي بين المتغيرات المستخدمة للتنبؤ. 

قد يكون الحديث عن قياس أداء النموذج غير واضح مع تعدد أدوات القياس، ولكن قبل الشروع في عملية قياس الأداء من المهم أن نتحقق من مدى تحقق الفرضيات المذكورة آنفا ً. 

7.1- افتراض الخطية:

نفترض أن العلاقة بين المتغير المستخدم للتبؤ والقيمة المراد التنؤ بها هي علاقة خطية وهذا الافتراض قد لا يكون صحيح دائما. عندما نقوم بعملية النمذجة فنحن نحاول تكييف البيانات لدالة تساعدنا في شرح بياناتنا، ولكن الانحدار الخطي قد لا يكون النموذج المناسب لهذه الحالة. لذلك، سنبدأ باختبار هذه الفرضية عن طريق تمثيل العلاقة بين القيم الناتجة عن التنبؤ والقيم الحقيقية باستخدام scatter plot والنتيجة المثالية أن تقع نقاط البيانات حول الخط القطري. 

(sns.lmplot(x=’Actual’, y=’Predicted’, data=df_results, fit_reg=False -> نرسم خط قطري من خلال الأمر التالي: (()d_line= np.arange(df_results.min().min(), df_results.max().max (‘–‘=plt.plot(d_line, d_line, color=’red’, linestyle ()plt.show

في الشكل الظاهر في الأعلى والذي يقارن البيانات الحقيقية والبيانات التي تم التنبؤ بها في مدينة بوسطن، يمكننا ملاحظة أن العلاقة ليست مثالية بسبب ما يسمى بمشكلة انحياز النموذج عند القيم الدنيا والعليا.

7.2- فرضية التوزيع الطبيعي Normality: 

هنا فرضية أن البواقي (residuals) توزيعها طبيعي (normally distributed). قد لا تتحقق هذه الفرضية إما بسبب عدم تحقق فرضية الخطية Normality أو بسبب احتواء البيانات على القيم الشاذة أو المتطرفة (outliers). لذلك، سنقوم باختبار فرضية الخطية باستخدام شكلquantile-quantile plot  و  Q-Q plot 

from statsmodels.graphics.gofplots import qqplot (‘fig=qqplot(model.resid_pearson,line=’45’,fit=’True (“plt.xlabel(“Theoretical quantiles (“plt.ylabel(“Sample quantiles ()plt.show

التطابق المثالي في الشكل الظاهر على الجهة اليسرى يظهر بأن توزيع البيانات يتبع الخط باللون الأحمر من أسفل اليسار إلى أعلى اليمين. ولكن، في بيانات بوسطن، نلاحظ أن النموذج الذي قمنا ببنائه متحيز نوعا ما underestimating. كما يمكننا أن نمثل قيم البواقي باستخدام أشكال أخرى مثل (histogram) أو استخدام بعض اختبارات الخطية الأخرى مثل Anderson-Darling  أو   Shapiro-Wilk Test

7.3- فرضية تجانس التباين (Homoscedasticity):

وهي افتراض أن اختلاف قيم البواقي ثابته في جميع قيم X. ولكن على العكس في عدم التجانس (heteroscedasticity) لا تتحقق هذه الفرضية عند حدوث التباين في قيم البواقي. 

((fig, ax = plt.subplots(figsize=(5, 5 sns.regplot(model.fittedvalues,model.resid, scatter_kws={‘alpha’: 0.25}, line_kws=({‘color’: ‘C2’, ‘lw’: 2}, ax=ax (‘ax.set_xlabel(‘predicted (‘ax.set_ylabel(‘residuals ()plt.tight_layout ()plt.show

تُظهر النتيجة المثالية في الجهة اليسرى توزيعا ً موحدا ً للبواقي، ولكن الحالة مختلفة في بيانات بوسطن. نحتاج إلى توخي الحذر بشأن عدم التجانس، مما يشير إلى أن أخطاء التنبؤ تختلف باختلاف نطاق القيم الناتجة عن التنبؤ مما يعني أن نموذجنا قد يكون نموذجا ً غير مكتمل.

7.4- فرضية عدم وجود الارتباط الذاتي (No Autocorrelation):

يحدث هذا الافتراض عندما تكون البواقي ليست مستقلة عن بعضها. وهذا قد يتكرر في بيانات السلاسل الزمنية لأسعار الأسهم. سنقوم بتنفيذ اختبار (Durbin-Watson test) للتأكد من تحقق هذه الفرضية.

from statsmodels.stats.stattools import durbin_watson (durbinWatson = durbin_watson(model.resid (print(durbinWatson

نتيجة اختبار (Durbin-Watson test) تتراوح بين0  و 4 وعندما تكون القيمة 2.0 فهذه دلالة على تحقق الفرضية. 

القيم بين 0 و 2 تشير إلى الارتباط ذاتي السلبي (negative autocorrelation). والنتيجة في البيانات التي قمنا بتحليلها فالنتيجة قريبة جدا من 2.0 وبالتالي فيمكننا القول بأن هذه إشارة على أن الفرضية متحققة. 

7.5- فرضية التداخل الخطي (Multicollinearity):

وهي افتراض أن متغيرات التنبؤ (predictor variables) في الانحدار الخطي غير مترابطة مع بعضها البعض. عدم تحقق هذه النظرية لا يعني أن النموذج غير قابل للتطبيق ولكن علينا أولا ً تحديد المتغيرات الغير هامة اذا كانت مترابطة ارتباطا ً قويا ً مع المتغيرات الأخرى.

سنقوم بتمثيل الارتباط بين متغيرات التنبؤ على شكل خريطة حرارية heatmap وسنقوم أيضا ً بالتحقق من قيم الارتباط بين هذه المتغيرات عن طريق حساب (variance inflation factor (VIF والذي يقيس الارتباط الذاتي بين متغيرات التنبؤ.

(()mask = np.zeros_like(train_X.drop(“const”, axis=1).corr mask[np.triu_indices_from(mask)] = True ,(sns.heatmap(train_X.drop(“const”, axis=1).corr().round(2 (“annot=True, mask=mask, cmap=”cividis

كما يظهر لدينا، يمكننا ملاحظة وجود ارتباط عالي بنوعيه السلبي والايجابي في بيانات بوسطن التي نعمل عليها، لذلك سنجري اختبار VIF.

from statsmodels.stats.outliers_influence import variance_inflation_factor as vif :((for i in range(len(X.columns (v=vif(np.matrix(X),i :{}print(“Variance inflation factor for (((.format(X.columns[i],round(v,2″{}

VIF for CRIM: 1.79
VIF for ZN: 2.3
VIF for INDUS: 3.99
VIF for CHAS: 1.07
VIF for NOX: 4.39
VIF for RM: 1.93
VIF for AGE: 3.1
VIF for DIS: 3.96
VIF for RAD: 7.48
VIF for TAX: 9.01
VIF for PTRATIO: 1.8
VIF for B: 1.35
VIF for LSTAT: 2.94

يمكن تفسير نتائج اختبار VIF على النحو التالي:

إذا كانت قيمة VIF تساوي 1 فهذا يعني بأن هناك متغيرين من متغيرات التنبؤ ليست مترابطة.

وإذا كانت قيمة VIF بين 1 و 5 فهذا يشير إلى وجود ارتباط متوسط. 

وأما إذا كانت قيمة VIF أعلى من 5 فهذا يشير إلى وجود ارتباط عالي بين متغيرين. 

8 – القيم الشاذة أو المتطرفة (Outliers):

سنقوم بالكشف عن القيم المتطرفة باستخدام شكل Cook’s distance. 

تحدد مسافة كوك تأثير حذف ملاحظات معينة (observations) من مجموعة البيانات. كما يمكننا الاستفادة من مسافة كوك أثناء عملية الاختبار ما إذا كانت ملاحظة معينة قد تشكل قيمة متطرقة أو متغيرا ً مؤثرا ً. ونستطيع عمل هذا الشكل من خلال الأمر التالي: 

from statsmodels.stats.outliers_influence import OLSInfluence as influence (inf=influence(model i, d) = inf.cooks_distance) (“plt.title(“Cook’s distance plot (“,”=plt.stem(np.arange(len(i)), i, markerfmt ()plt.show

من خلال تمثيل كوك نستطيع أن نحدد القيم التي بحاجة إلى فحص إضافي وتحديد إمكانية حذفها. وكقاعدة عامة، تكون القيمة ذات تأثير عالي إذا كانت مسافة كوك أعلى من 4/N-K-1 حيث N تساوي عدد الملاحظات في البيانات (observations)، و K تساوي عدد متغيرات التنبؤ.

9- الخاتمة:

في هذا الدرس وجدنا أن بعض الفرضيات التي افترضناها قبل بدء التحليل لم تتحقق وهذا بدوره تسبب بحدوث بعض المشاكل التي سيكون لها أثر على جودة أداء النموذج والقيم الناتجة عن التنبؤ. وكما هي الحالة الطبيعية عند تحليل بيانات حقيقية فإن عدم تحقق هذه الفرضيات أمر طبيعي بل هو الأصل في كثير من الأحيان. ولكن، علينا متابعة خطوات بناء النموذج بحذر ومحاولة الكشف عن المشاكل الناتجة عن عدم تحقق بعض الفرضيات ومحاولة تحسينها قبل اتخاذ بعض القرارات بناءً على نتائج هذه النماذج. 

وبالنظر إلى نتائج النموذج الذي قمنا ببنائه استنادا ًعلى بيانات مدينة بوسطن، فيمكننا محاولة تحسين أداء هذا النموذج من خلال بعض الأدوات منها Random Forest Regressor و XGBoost. كما يمكننا مواصلة تحسين النموذج من خلال تحليل المكون الرئيسي analysis-PCA لتحديد وحذف بعض متغيرات التنبؤ الأقل أهمية مع الاحتفاظ بالمتغيرات الأكثر الأهمية.

أيضا ً، يمكننا استخدام ما يسمى باختبار المصادقة (K-fold Cross Validation(CV عن طريق تقسيم البيانات لعدة أجزاء K تسمى folds ومن ثم استخدام كل جزء كمجموعة اختبار testing set. 

ختاما ً، نموذج الانحدار الخطي علم واسع وما تم التطرق له في هذا الدرس ما هو إلى بعض الأساسيات البسيطة والتي نأمل بأن تكون نبذة مفيدة عن هذا الموضوع وأن تساعدك لبدء رحلتك في نماذج الانحدار الخطي بمختلف أنواعها.

المصدر:

https://towardsdatascience.com/linear-regression-model-with-python-481c89f0f05b 

استخدام البيانات الضخمة في القطاع الزراعي تجربة شركة (جون دير)

ترجمة: أثير  الحارثي

تدقيق: شروق السنان

 نبذة

كانت شركة التصنيع الزراعي جون دييري شركة رائدة دائماً، حيث قام صاحب الشركة ومؤسسها شخصيا بتصميم وبناء وبيع أحد أولى المحاريث التجارية من الحديد الصلب، والتي بدورها سهلت بشكل واضح حياة المستوطنين المنتقلين إلى الغرب الأوسط خلال منتصف القرن التاسع عشر، والذي جعل من هذه الشركة أسطورة أمريكية. ولأن الشركة في أغلب الأحيان من رواد الابتكار فليس من المستغرب أنهم تبنوا البيانات الضخمة بحماس للمساعدة في إدارة أعمال الشركة افتراضيا تماما كما فعلت على أرض الواقع. 

ما هي المشكلة التي تساعد البيانات الضخمة في حلها؟ 

 أعداد سكان العالم في تزايد سريع، مما يعني أنه سيكون هناك دائما طلب متزايد على الغذاء. ومع استمرار  عدم تقبل العامة لفكرة الأغذية المعدلة، فإن زيادة كفاءة إنتاج المحاصيل القياسية أمر أساسي لتلبية هذا الطلب المتزايد. أطلق جون ديري العديد من الخدمات التي تدعم البيانات الضخمة والتي تسمح للمزارعين بالاستفادة من المراقبة اللحظية الجماعية للبيانات التي تم جمعها من آلاف المستخدمين لتحقيق هذه الغاية. هذه البيانات تمكن المزارعين من اتخاذ قرارات مدروسة مثل معرفة أي من المحاصيل سيتم زراعتها وكم من الأسمدة سيتم الحاجة إليها. 

 كيف تم استخدام البيانات الضخمة عمليا ً؟

 Myjohndeere.com هي بوابة إلكترونية تسمح للمزارعين بالوصول إلى البيانات التي يتم جمعها من أجهزة الاستشعار المتصلة بآلاتهم الخاصة أثناء عملهم في الحقول، بالإضافة إلى البيانات المجمعة من المستخدمين الآخرين في جميع أنحاء العالم. كما أنها مرتبطة بقواعد بيانات خارجية، بما في ذلك بيانات حالة الطقس والبيانات المالية. 

هذه الخدمات تتيح للمزارعين اتخاذ قرارات مدروسة بشكل أفضل بشأن كيفية استخدام معداتهم، وكيف يحصلون على أفضل النتائج والعوائد على استثماراتهم من هذه الخدمات المقدمة لهم. على سبيل المثال، يمكن رصد استهلاك الوقود من مختلف الحصادات وربطها مع مستويات إنتاجيتها. من خلال تحليل البيانات من آلاف المزارع، والعمل على محاصيل متنوعة في مختلف الظروف، من الممكن ضبط العمليات للوصول لأعلى مستويات الإنتاج المثلى. يساعد النظام أيضا على تقليل وقت التعطل عن العمل باستخدام البيانات المجمعة من المستخدمين من خلال التنبؤ  بالوقت والمكان المحتمل لتعطل المعدات. كما يمكن مشاركة هذه البيانات مع المهندسين الذين على أهبة الاستعداد لتوريد قطع الغيار الجديدة وتوفير خدمة الصيانة عند الحاجة إليها – وذلك لتقليل الوقت الضائع الناجم عن الآلات الباهظة الثمن التي تتعطل. 

ومن الخدمات الأخرى التي أطلقتها الشركة في عام 2011 هي خدمة فارمسايت والتي تسمح للمزارعين باتخاذ قرارات استباقية بشأن المحاصيل التي يزرعونها، استنادا إلى المعلومات التي يتم جمعها في حقولهم الخاصة وحقول المستخدمين الآخرين، حيث يتم تعيين توجيهات ووصفات فردية مخصصة لحقل معين أو أجزاء من الحقول، كما يتم برمجة الآليات عن بعد لتعديل سلوك معين وفقاً لأفضل الممارسات المقترحة استناداً على التحليلات. 

تتلخص رؤية الشركة في المستقبل في أن يتم إدارة المزارع الكبيرة يوماً ما بواسطة فريق صغير من من البشر الذين يعملون جنبا إلى جنب مع أسطول من الروبوتات، المتصلة مع بعضها البعض. 

ما هي النتائج؟ 

وبالإضافة إلى زيادة أرباح المزارعين وخلق أغذية أرخص وأكثر وفرة للعالم، هناك مكاسب بيئية محتملة أيضا. يمكن أن تسبب المبيدات الحشرية والأسمدة تلوث الهواء والمجاري المائية ، لذلك فإن الحصول على مزيد من المعلومات حول المستويات الدقيقة اللازمة للإنتاج الأمثل يعني أنه لن يتم استخدام  هذه المبيدات الحشرية أكثر من اللازم.

 إن احتمال حدوث تغيير إيجابي هائل في عالم يواجه زيادة كبيرة في أعداد السكان ونقص في إنتاج الغذاء وخاصة في الدول الناشئة ، هو أمر يمكن أن يفيد الجميع على هذا الكوكب.

 ما هي البيانات المستخدمة؟

 البيانات المستخدمة بشكل أساسي هي البيانات الداخلية، والتي يتم الحصول عليها في المقام الأول من الحساسات على آلات جون ديري والمسابير في التربة، والتي يتم تجميعها بعد ذلك وإتاحتها لمستخدمي myjohndeere.com. كما يتم توفير بعض البيانات الخارجية، بما في ذلك بيانات الطقس والبيانات المالية. 

ما هي التفاصيل التقنية؟ 

تستخدم شركة جون دير نظام SAP HANA “نظام إدارة قواعد بيانات علائقية في الذاكرة” — لمعالجة هذه البيانات الضخمة، فيتم تحميل مئات الملايين من بيانات شركة جون ديري في نظام HANA وذلك ليتسنى للمهندسين والمحللين الاستفادة من البيانات باستخدام التحليلات والنماذج الرياضية. 

ما هي التحديات التي تم التغلب عليها؟ 

مع كل هذه البيانات التي يتم إنشاؤها ومشاركتها ، هناك جدل متزايد حول من يملكها بالفعل. تتيح منصة MyJohnDeere للمزارعين مشاركة البيانات مع بعضهم البعض (أو اختيار عدم مشاركتها ، إذا رغبوا في ذلك) وكذلك مع طرف ثالث وهم  مطوري التطبيقات من الجهات الخارجية ، الذين يمكنهم استخدام واجهة برمجة التطبيقات او مايعرف بـ (APIs) لربط  المعدات من قبل الشركات المصنعة الأخرى، أو لتقديم خدمات تحليل البيانات الخاصة بهم. ولكن هذا لم يمنع العديد من المزارعين من التساؤل عن السبب في ضرورة دفع تكاليف بياناتهم الخاصة، والسؤال عن السبب في أن جون ديري والشركات الأخرى التي تقدم خدمات مماثلة لا ينبغي أن تدفع لهم – وفقا لمديرة اتحاد مكتب المزارع الأمريكي ماري كاي تاتشر. 

وتجرى حاليا محادثات بين الاتحاد والشركات بما فيها جون دير ومونسانتو ودوبونت حول كيفية معالجة هذه المخاوف. بالإضافة إلى قضايا الخصوصية، حيث يوجد مخاوف من أن وجود الكثير من المعلومات يمكن أن يسمح للمتداولين في الأسواق المالية بالتلاعب بالأسعار.

 هناك أيضا مسألة انخفاض فرص العمل في مجال الزراعة كنتيجة مباشرة للتشغيل الآلي والبيانات الضخمة. لقد بدأنا بتفويض المزيد والمزيد من المسؤوليات للروبوتات – ليس لأن المزارع كسول (كما سيعرف أي شخص يعيش في منطقة زراعية ، فهي بالتأكيد ليست كذلك!) ولكن لأن الروبوتات يمكن أن تفعل ذلك بشكل أفضل في كثير من الأحيان. من المؤكد أن رؤية جون ديري لمساحات شاسعة من الأراضي الزراعية التي يديرها رجل يجلس في محطة كمبيوتر مع فريق صغير من المساعدين ستؤدي إلى فرص عمل أقل للبشر الذين يعملون في الأرض ، ولكن هذا هو الاتجاه على الأقل في القرن الماضي ، بغض النظر. وهو الاتجاه الذي بدأ قبل وقت طويل من ظهور البيانات الضخمة.

ما يستفاد من التجربة

 هناك أسطورة شائعة حول البيانات الضخمة أنها تقنيات لا يستطيع القيام بها سوى شركات وادي السيليكون. ومع ذلك ، تظهر هذه الحالة لتثبت أنه ممكن لأي منشأة الاستفادة من البيانات ، وحتى الشركات  التقليدية تتحول اليوم إلى البيانات الضخمة. 

بدأ العديد من الشركات التقليدية الاستفادة من البيانات الضخمة مثل شركات النقل بالشاحنات، والتي تستخدم البيانات في تخطيط طرق ومسارات سير أكثر كفاءة، والشركات العقارية والتي تستخدم البيانات للتنبؤ بالطفرات والكساد في السوق، وشركات التأمين على السيارات باستخدام  هواتف عملائها لمراقبة كفاءة قيادتهم. 

باستطاعة أي شركة هذه الأيام أن تكون مثل جون ديري: شركة بيانات ضخمة

المصدر:

Big Data in Practice: How 45 Successful Companies Used Big Data Analytics to Deliver Extraordinary Results by Bernard Marr