چگونه با یک سکه نتیجه‌ انتخابات را درست پیش‌بینی کنیم؟

پیش‌بینی رویدادها و وقایع یکی از مهارت‌هایی است که از همان نخستین روزهای تشکیل جامعه انسانی تا به امروز برای بشریت اهمیت داشته است. این مهارت به‌قدری برای انسان‌ها جذابیت داشته که افرادی شغل «پیشگویی» را برای خود برگزیده بودند و از این راه درآمد و طرفداران زیادی پیدا کرده بودند. نام تعدادی از آن افراد مانند «نوستراداموس» هنوز هم به گوش می‌رسد و بعد از گذشت قرن‌ها همچنان عده‌ای به‌دنبال بررسی تحقق یا عدم تحقق پیشگویی‌های وی هستند.

در دنیای کسب و کار نیز پیشگویی و داشتن آگاهی نسبت به وقایع آینده یک هنر مهم به‌شمار می‌آید. به‌طور کلی به هر میزان بصیرت و آگاهی یک کسب‌ و کار نسبت به آینده واقع‌بینانه‌تر باشد، موفق‌تر خواهد بود و پله‌های رشد را با سرعت بیشتری طی خواهد کرد. چرا که متناسب با اتفاقات آینده یک مجموعه‌ استراتژی تدوین می‌کند. به همین دلیل اکنون بیشتر شرکت‌ها به علوم داده توجه بیشتری نشان داده و اکثر کسب‌ و کارها سرمایه‌گذاری‌‌های کلانی برای داده محور شدن سازمان خود انجام می‌دهند. در بسیاری از شرکت‌ها نیز دپارتمان علوم داده ایجاد شده است و تعداد زیادی دانشمند داده استخدام شده‌اند.

بدیهی است که پیش‌بینی‌های جهان امروز که به کمک علوم داده صورت می‌گیرد، تفاوت ماهیتی با پیش‌بینی‌های چند قرن قبل دارد. پیش‌بینی و ایجاد بصیرتی که به کمک علوم داده صورت می‌پذیرد، ماهیت علمی دارد و مبتنی بر تحلیل و بررسی یک مجموعه داده است.

حال کمی با فضای کسب و کار فاصله بگیریم و وارد فضای زردتری به اسم انتخابات شویم. پیش‌بینی اینکه چه کسی پیروز یک کارزار انتخاباتی خواهد بود، یکی از جذاب‌ترین کارهایی است که افراد انجام می‌دهند. بسیاری از موسسات آماری و تحقیقاتی همه ساله پیش از برگزاری یک انتخابات شروع به جمع‌آوری داده و تحلیل آن می‌کنند، تا بتوانند پیروز انتخابات را پیش از برگزاری رای‌گیری اعلام کنند. در بسیاری از موارد سیاستمداران مبالغ گزافی تقدیم شرکت‌های آماری می‌کنند، تا گزارشات لحظه‌ای از وضعیت اقبال عمومی آن‌ها تهیه کنند تا نامزد موردنظر مبتنی بر این گزارشات کمپین‌های تبلیغاتی خود را پیش ببرد.

چالش بزرگ جمع‌آوری داده

در پیش‌بینی‌ انتخابات یک چالش بزرگ برای اکثر آژانس‌ها و موسسات جمع‌آوری داده وجود دارد و آن هم وجود داده‌های اشتباه به مقدار زیاد است. این اتفاق در نهایت منجر به نتیجه‌گیری اشتباه خواهد شود. یکی از بزرگ‌ترین نمودهای این موضوع در انتخابات ریاست جمهوری سال ۲۰۱۶ ایالات متحده اتفاق افتاد. در آن سال رقابت میان دونالد ترامپ و هیلاری کلینتون برقرار بود. آن زمان تقریبا تمام نظرسنجی‌ها و رسانه‌های معتبر هیلاری را فاتح بلامنازع این کارزار می‌دانستند.

این پیش‌بینی برای اکثریت مردم نیز باورپذیر بود، چرا که در یک طرف ماجرا ترامپی ایستاده بود که هیچ تجربه‌ سیاسی نداشت و مواضعی به شدت تند و افراطی را در کمپین‌های انتخاباتی خود اتخاذ کرده بود.

در سوی دیگر کلینتون بیش از سه دهه حضور مستمر در سیاست را تجربه کرده بود و پیشتر نیز سکان وزارت امورخارجه ایالات متحده را برعهده داشت. با تمام این تفاسیر پیروزی کلینتون بر ترامپ اتفاق چندان عجیبی به‌نظر نمی‌رسید. بسیاری از رسانه‌های معتبر نظیر نیویورک تایمز شانس برتری کلینتون بر ترامپ را ۸۵ به ۱۵ می‌دانستند.

حیرت جهان!

با شروع شمارش آرا بهت و حیرت مردم جهان را فرا گرفته بود. در حالی که خوشبین‌ترین موسسات آماری نیز شانسی برای ترامپ قائل نبودند، او یک به یک آرای الکترال ایالات‌ها را مال خود می‌کرد و خیلی سریع به ۲۷۰ الکترال لازم برای کسب عنوان ریاست جمهوری ایالات متحده دست پیدا کرد.

در پایان رای‌گیری ترامپ ۳۰۶ به ۲۳۲ کلینتون را شکست داد، تا یکی از غیرمنتظره‌ترین اتفاقات تاریخ انتخابات ایالات متحده آمریکا رقم بخورد. این شکست بسیاری از متخصصان حوزه علوم داده را شوکه کرد. تا به امروز مقالات متعددی درباره عوامل موثر در رخ دادن چنین فاجعه آماری نوشته شده و ابعاد مختلف این اتفاق بررسی شده است.

به‌طور کلی یکی از مهم‌ترین دلایل انحراف نتایج بسیاری از نظرسنجی‌های پیش از رای‌‌گیری، این است که افراد به دلایل مختلف کاندیدای موردنظر خود را اعلام نمی‌کنند. بنابراین یا در نظرسنجی شرکت نکرده، یا گزینه‌های دیگری را به ‌عنوان منتخب خود اعلام می‌کنند، این در حالی است که چنین شخصی در روز انتخابات و پای صندوق به همان فرد موردنظرش(که نامش را اعلام نمی‌کرد) رای می‌دهد. حال اگر درصد قابل توجهی از جامعه چنین کاری را انجام دهند، بدیهی است که نتایج نظرسنجی به انحراف کشیده می‌شود و فاجعه‌ آماری شبیه سال ۲۰۱۶ رخ می‌دهد.

طرح مسئله

ما در این مقاله قصد نداریم که دلایل شکست پیش‌بینی‌های انتخابات ۲۰۱۶ را بررسی کنیم. شاید در آینده در یک مقاله مفصل به دلایل آماری و عوامل منجر به این اتفاق بپردازیم. در این مقاله قصد داریم با یک بازی ریاضی-آماری آشنا شویم.

همان‌طور که اشاره شد، یکی از مهم‌ترین عواملی که منجر به اشتباه در پیش‌بینی می‌شود، داده‌های اشتباهی هستند که به‌صورت انبوه وارد نظرسنجی می‌شوند. حال اگر بتوانیم به طریقی و با ایجاد تغییراتی در نحوه جمع‌آوری داده، کاری کنیم که دقت داده‌های دریافتی به‌طور قابل توجهی بالا رود، در این صورت احتمالا پیش‌بینی ما از نتیجه‌ انتخابات نیز صحیح خواهد بود. در ادامه مقاله به چند مثال از این مدل جمع آوری داده می‌پردازیم.

جنگل رویایی

در یک جنگل دورافتاده که ۲۰۰ حیوان در آن زندگی می‌کنند، انتخاباتی به‌منظور مشخص کردن ریاست جنگل در جریان است. «درخت آموزگار» و «گراز زره‌پوش» نامزدهای اصلی این انتخابات هستند. «درخت آموزگار» سال‌ها مشغول تعلیم اهالی جنگل بوده و اعتقاد دارد که صلح و تعامل باید میان تمام اعضای جنگل و میان دیگر جنگل‌ها برقرار باشد.

از سوی دیگر «گراز زره‌پوش» فردی خشن است و عقایدی جنگ‌جویانه دارد، او معتقد است که باید بخش عظیمی از منابع را صرف سرمایه‌گذاری در حوزه نظامی کرد و در صورت امکان به دیگر جنگل‌ها حمله کرد و منابع آن‌ها را تصاحب کرد. در این میان یک آژانس سری که در جنگل به‌ طور مخفیانه فعالیت می‌کند، به ما ماموریت می‌دهد تا پیروز انتخابات را پیش از برگزاری پیش‌بینی کنیم. در صورتی که پیش‌بینی ما اشتباه باشد، جانمان در خطر است!

بنابراین تصمیم می‌گیریم تا با پرسش از تک تک اعضای جنگل قدرت پیش‌بینی پیروز واقعی انتخابات را به دست آوریم. هنگامی که از افراد درباره نامزد موردنظرشان می‌پرسیم، شرایط زیر برقرار خواهد بود:

در صورتی که فرد مایل به رای دادن به «درخت آموزگار» باشد، او را به عنوان نامزد موردنظر خود انتخاب می‌کند.
در صورتی که فرد مایل به رای دادن به «گراز زره‌پوش» باشد، احتمال دارد نام «درخت آموزگار» را به ما بگوید (از شانس وقوع این رخداد اطلاعی نداریم، اما می‌دانیم که این اتفاق به صورت متناوب رخ می‌دهد)

بدین ترتیب همان‌طور که مشخص است مهم‌ترین چالش ما جمع‌آوری داده‌ صحیح از اهالی جنگل است. بنابراین باید روشی را برگزینیم که در آن نظر واقعی اهالی را متوجه شویم، بدون آنکه آن فرد را وادار به بیان مستقیم آن کنیم. به بیان بهتر باید یک زبان واسط میان خودمان و فرد تعریف کنیم، تا فرد پاسخ سوال ما را به آن زبان واسطه بدهد و در سوی دیگر نیز ما بتوانیم پاسخ سوال را متوجه شویم.

بدین ترتیب در همان حال که ما اطلاعات صحیح را دریافت می‌کنیم، آن فرد نیز دیدگاه شخصی خود را به‌صورت علنی بیان نکرده است و حریم شخصی او حفظ می‌شود. اما برای حل این مشکل چه استراتژی باید در نظر گرفت؟

یک سکه و دنیای احتمال

برای حل این مشکل کافیست از یک سکه کمک بگیریم! می‌دانیم که در هر سکه فضای نمونه دو حالت دارد؛ «شیر» یا «خط» که بعضی آن را «رو» و «پشت» نیز می‌نامند. بنابراین کافیست تا به سراغ هر یک از اهالی جنگل رفته و با دادن یک سکه به او از وی بخواهیم بازی زیر را در خانه خود (بدون حضور ما) انجام دهد و نتیجه را به ما اعلام کند، قوانین بازی به شرح زیر است:

اگر سکه «شیر» آمد، نام آن فردی را که مایل به رای دادن به او هستید، اعلام کنید.
اگر سکه «خط» آمد، نام «گراز زره‌پوش» را اعلام کنید.

همان‌طور که اشاره شد، بزرگ‌ترین مشکل جمع‌آوری داده در انتخابات این است که تعدادی از افراد با وجود آن‌ که مایل به رای دادن به «گراز زره‌پوش» بودند، به دلایل مختلف از ابراز تمایل خود به صورت علنی خودداری می‌کردند. با این روش این مشکل حل می‌شود، چرا که وقتی یک فرد نام «گراز زره‌پوش» را به زبان می‌آورد، مشخص نیست که آیا این امر به دلیل تمایل قلبی وی بوده است، یا به این علت است که سکه «خط» آمده است. از آن‌جایی که ما از نتیجه‌ شیر یا خط خبر نداریم، افراد با خیال راحت می‌توانند نتیجه‌ بازی را به ما اعلام کنند. پس از جمع‌آوری داده‌ها نتیجه به شکل زیر شد:

مجموع آرا: ۲۰۰
تعداد رای «گراز زره‌پوش» : ۱۳۰
تعداد رای «درخت آموزگار» : ۷۰

اکنون زمان آن است که ریاضیات وارد میدان شود. می‌دانیم که هنگام پرتاب یک سکه احتمال «شیر» یا «خط» آمدن برابر و هر یک برابر ۱/۲ (یک دوم) است. بنابراین اگر یک سکه را ۲۰۰ بار پرتاب کنیم، تقریبا می‌توان گفت که ۱۰۰ بار «شیر» و ۱۰۰ بار «خط» خواهیم داشت. در حقیقت داریم:

به خاطر دارید که قانون دوم بازی آن بود که اگر سکه «خط» آمد، فرد باید نام «گراز زره‌پوش» را اعلام کند. بنابراین در ۱۰۰ حالت افراد بدون آن که لزوما تمایلی به «گرازه زره‌پوش» داشته باشند نام او را اعلام کرده‌اند. بنابراین باید از ۱۳۰ رای «گراز زره‌پوش» ۱۰۰ عدد کسر کنیم، چرا که در این ۱۰۰ رای هیچ اختیاری در میان نبوده است و فرد تنها به منظور رعایت قاعده بازی نام «گراز زره‌پوش» را اعلام کرده است. پس در حقیقت تنها ۳۰ نفر از افراد واقعا به «گراز زره‌پوش» رای داده‌اند. این در حالی است که ۷۰ رای «درخت آموزگار» همگی واقعی بوده‌اند، چرا که بر طبق قاعده بازی، افرادی که پس از پرتاب سکه نتیجه «شیر» آمده است، باید به نامزد مورد علاقه خود رای بدهند. بنابراین پس از اعمال این قاعده خواهیم داشت:

تعداد رای «درخت آموزگار» : ۷۰
تعداد رای «گراز زره‌پوش» : ۳۰

باتوجه به فاصله معناداری که میان تعداد رای «درخت آموزگار» و «گراز زره‌پوش» وجود دارد، با قطعیت می‌توان پیش‌بینی کرد که در روز انتخابات «درخت آموزگار» پیروز خواهد بود. بدین ترتیب توانستیم بدون آن‌ که به‌صورت مستقیم وارد حریم شخصی افراد شویم، اطلاعات موردنیاز خود را از آن‌ها دریافت کنیم و نتیجه انتخابات را پیش‌بینی کنیم.

ممکن است این سوال برای عده‌ای پیش بیاید که ممکن است حالتی وجود داشته باشد که فردی واقعا تمایل به رای دادن به «گراز زره‌پوش» داشته باشد، اما به علت آن‌ که سکه «خط» آمده، رای او عملا در نظر گرفته نشده است. چند پاسخ برای این سوال وجود دارد؛

اول آن‌ که ما به دنبال آن هستیم که پیروز انتخابات را مشخص کنیم و اینکه دقیقا هرکس دقیقا چه میزان رای می‌آورد مقصود ما نیست و اساسا توانایی انجام آن را به صورت دقیق نداریم. دوم آن که این حالت در شرایط معکوس نیز صدق می‌کند. یعنی عده‌ای طرفدار «درخت آموزگار» بوده‌اند، اما به این دلیل که سکه «خط» آمده، نظرشان حذف شده است. بنابراین می‌توان گفت که این حالت‌ها در نتیجه‌ نهایی پیش‌بینی ما چندان تاثیرگذار نخواهد بود و پیش‌بینی ما صحیح است. در ادامه این مقاله به کاربرد این تکنیک در فضای مدیریت محصول خواهیم پرداخت.

نظرسنجی و معرفی محصول

هُلدینگ شما به تازگی از یک محصول جدید رونمایی کرده است. شما مدیریت این محصول را برعهده دارید و پس از گذشت چندوقت برای اینکه آگاهی و بصیرت بیشتری درباره نظر کاربران داشته باشید، تصمیم می‌گیرید تا یک پرسشنامه طراحی کنید که در آن پاسخ سوالات دو گزینه‌ای است.

جهت آن که افراد بیشتری در نظرسنجی شرکت کنند و مشارکت بالا رود، هُلدینگ به هر فردی که نظرسنجی را تا انتها انجام دهد ۱۰ دلار پاداش می‌دهد. اما اعطای این پاداش ممکن است افراد را ناخوداگاه به سمت آن سوق دهد که گزینه‌هایی با بار مثبت را انتخاب کنند و از انتخاب گزینه‌های انتقادی پرهیز کنند.

از طرفی اگر این ۱۰ دلار به افراد داده نشود، ممکن است مشارکت کاهش یابد و افراد با دقت پایینی سوالات را مطالعه کنند. بنابراین باید استراتژی اتخاد کرد که علاوه‌بر افزایش انگیزه افراد، دقت پاسخ‌ها را نیز افزایش داد. بنابراین شما به عنوان مدیرمحصول تصمیم می‌گیرید بازی زیر را طراحی کنید.

همان‌طور که گفته شد، پاسخ هر سوال دو گزینه‌ای است، بدیهی است که یک گزینه بار مفهومی مثبت و یک گزینه بار مفهومی انتقادی و منفی دارد. اکنون شما در کنار گزینه‌هایی که بار مفهومی مثبت دارند علامت + را قرار داده و به طریق مشابه در کنار گزینه‌هایی با بار مفهومی انتقادی، علامت – را قرار می‌دهید. در ابتدای نظرسنجی از فرد می‌خواهید که یک سکه در دست بگیرد و پاسخ سوالات نظرسنجی را به این شیوه بدهد؛

پیش از آن که سوال را بخواند، یک سکه بیندازد
در صورتی که سکه «خط» آمد، بدون آن که صورت سوال را بخواند گزینه مثبت را انتخاب کند.
در صورتی که سکه «شیر» آمد، صورت سوال را تا انتها بخواند و گزینه‌ مدنظرش را انتخاب کند.

بدین ترتیب احتمال آن که افراد به سمت انتخاب گزینه مثبت سوق داده شوند را کاهش داده‌اید. اکنون می‌توانید نظارت دقیق‌تری بر نتیجه‌ نظرسنجی داشته باشید. به طور مثال پاسخ به یکی از سوالات که دو هزار نفر به آن پاسخ داده‌اند به شکل زیر بوده است:

تعداد افراد شرکت کننده: ۲۰۰۰ نفر
تعداد رای به گزینه با بار معنایی مثبت: ۱۳۰۰ نفر
تعداد رای به گزینه با بار معنایی منفی و انتقادی: ۷۰۰ نفر

همانند دفعه قبل عمل می‌کنیم، می‌دانیم که در دو هزار بار پرتاب سکه، حدودا هزار بار سکه «شیر» و هزار بار «خط» خواهد آمد. در حقیقت داریم:

از آن‌جایی که بر طبق شیوه نامه اگر سکه خط بیاید افراد گزینه مثبت را انتخاب می‌کنند (بدون آن که حتی صورت سوال را بخوانند) از آن ۱۳۰۰ رای مثبت، تعداد ۱۰۰۰ عدد کسر می‌کنیم. اکنون خواهیم داشت؛

تعداد رای به گزینه با بار معنایی مثبت: ۳۰۰ نفر
تعداد رای به گزینه با بار معنایی منفی و انتقادی: ۷۰۰ نفر

بنابراین به‌طور کلی می‌توان نتیجه گرفت که برخلاف چیزی که در ابتدا نشان داده می‌شد، نظر اکثریت افراد نسبت به آن سوال منفی بوده است و نیاز است تا به دنبال علت این اتفاق بگردیم. بدین ترتیب علاوه‌بر اینکه با ایجاد پاداش مالی میزان مشارکت و شرکت‌کنندگان در نظرسنجی افزایش یافت، از سوی دیگر با ایجاد این بازی ساده دقت پاسخ‌ها نیز افزایش چشمگیری داشت و در آینده می‌توان تصمیم‌گیری واقع‌بینانه‌تری متناسب با نتایج نظرسنجی انجام داد.

همان‌طور که اشاره شد، یکی از مهم‌ترین چالش‌هایی که اکثر شرکت‌های آماری در نظرسنجی‌های مردمی با آن روبه‌رو هستند، این است که افراد نظر واقعی خود را بیان نمی‌کنند. همین امر باعث به انحراف کشیده شدن نتیجه نظرسنجی می‌شود، بنابراین پیش‌بینی‌ها و نتیجه‌گیری‌ها معمولا با آنچه در واقعیت رخ می‌دهد، تفاوت چشمگیری دارد. اما با انجام این روش ساده به کمک یک سکه که به نوعی یک بازی ریاضی-آماری به حساب می‌آید، در عین حال که فرد احساس می‌کند حریم شخصی‌اش حفظ شده و راحت‌تر اعتماد می‌کند، می‌توانیم دقت خروجی نظرسنجی را به شکل چشمگیری افزایش دهیم.

منبع : digiato.com