با تماس نیوز ،همیشه همه جا باخبر شوید

چگونه هوش مصنوعی در حال شناسایی محتوای آنلاین مخرب است؟

سیستم عامل های بزرگ و کوچک اجتماعی در تلاشند تا جوامع خود را از سخنان نفرت انگیز ، محتوای افراطی ، آزار و اذیت و اطلاعات غلط در امان نگه دارند. اخیراً ، آشوبگران راست افراطی قبل از انجام این کار در 6 ژانویه ، آشکارا در مورد برنامه های حمله به پایتخت ایالات متحده اعلام کرده بودند. اما چنین سیستم هایی با چالش های بزرگی روبرو هستند.

0 2

در سالهای اخیر شیوع زبانهای نفرت انگیز یا توهین آمیز بصورت آنلاین به سرعت در حال افزایش بوده است و اکنون این مشکل بیداد می کند. در برخی موارد ، اظهارنظرهای مخرب آنلاین حتی منجر به خشونت واقعی زندگی نیز شده است ، از ملی گرایی در میانمار گرفته تا تبلیغات نئونازی در سیستم عامل های رسانه های اجتماعی ایالات متحده ، با تکیه بر هزاران بازدید کننده انسانی ، در تلاشند تا حجم فزاینده  تخریب محتوایی را تعدیل کنند. در سال 2019 ، گزارش شد که ناظران فیس بوک در معرض خطر ابتلا به PTSD در نتیجه قرار گرفتن مکرر در معرض چنین محتوای ناراحت کننده ای قرار دارند. سپردن این کار به یادگیری ماشینی می تواند به کنترل حجم فزاینده محتوای مضر کمک کند ، در حالی که مواجهه انسان با آن را محدود می کند. در واقع ، بسیاری از غول های فناوری سالها الگوریتم هایی را در تعدیل محتوای خود گنجانده اند.

یکی از این نمونه ها Google’s Jigsaw است ، شرکتی که بیشتر روی ایمن سازی اینترنت تمرکز دارد. در سال 2017 ، به ایجاد AI Conversation ، یک پروژه تحقیقاتی مشترک با هدف کشف نظرات مخرب به صورت آنلاین کمک کرد. با این حال ، ابزاری تولید شده توسط آن پروژه ، به نام چشم انداز ، با انتقادات اساسی روبرو شد. یک مورد مشترک این بود که یک “نمره مخرب” عمومی ایجاد می کند که به اندازه کافی انعطاف پذیر نیست تا بتواند نیازهای مختلف سیستم عامل های مختلف را تأمین کند. به عنوان مثال ، ممکن است برخی از وب سایت ها به شناسایی تهدیدها نیاز داشته باشند اما کلمات رکیک گفته نمی شوند و در حالی که ممکن است برخی دیگر الزامات مخالف داشته باشند.

مسئله دیگر این بود که این الگوریتم یاد گرفت که نظرات سمی و مضر را با نظرات سالم ترکیب کند که حاوی کلمات مربوط به جنسیت ، گرایش جنسی ، دین یا ناتوانی است. به عنوان مثال ، یک کاربر گزارش داد که جملات ساده خنثی مانند “من یک زن سیاه پوست همجنسگرا هستم” یا “من زنی هستم که ناشنوا هستم” منجر به نمره بالای سمیت می شود ، در حالی که “من یک مرد هستم” نمره پایین است.

به دنبال این نگرانی ها ، تیم هوش مصنوعی AI Conversation از توسعه دهندگان دعوت کرد تا الگوریتم های تشخیص سمیت خود را آموزش دهند و آنها را در سه مسابقه (یک بار در سال) به میزبانی Kaggle ، یک شرکت تابعه Google معروف به انجمن پزشکان یادگیری ماشین ، مجموعه داده های عمومی و چالش ها ، وارد کنند. . برای کمک به آموزش مدل های هوش مصنوعی ، مکالمه هوش مصنوعی دو مجموعه داده عمومی را شامل بیش از یک میلیون نظر سمی و غیر سمی از ویکی پدیا و سرویسی به نام نظرات مدنی منتشر کرد. نظرات در مورد سمیت توسط حاضران رتبه بندی شد ، با برچسب “بسیار سمی” نشان می دهد “یک نظر بسیار نفرت انگیز ، پرخاشگرانه یا بی احترامی که به احتمال زیاد باعث می شود شما یک بحث را ترک کنید یا از اشتراک نظر خود صرف نظر کنید” و “سمی” “برچسب” به معنای “اظهارنظر بی ادبانه ، بی احترامی یا غیر منطقی است که تا حدی باعث می شود شما بحث را ترک کنید یا از به اشتراک گذاشتن دیدگاه خود صرف نظر کنید.” بیش از 10 حاشیه نویسی (تا هزاران) برخی از نظرات را به دلیل نمونه گیری و استراتژی های مورد استفاده برای اجرای دقت ارزیابی ، مشاهده کردند.

هدف از اولین چالش Jigsaw ساخت یک مدل طبقه بندی نظر سمی و مضر چند برچسب با برچسب هایی مانند “سمی” ، “سمی شدید” ، “تهدید” ، “توهین” ، “ناپسند” و “نفرت از هویت” بود. چالش های دوم و سوم بر محدودیت های ویژه تر API آنها متمرکز بود: به حداقل رساندن تعصب ناخواسته نسبت به گروه های هویتی از پیش تعریف شده و آموزش مدل های چند زبانه بر روی داده های فقط انگلیسی.

اگرچه این چالش ها منجر به برخی روش های هوشمندانه برای بهبود مدل های زبان سمی و مضر شده است ، تیم ما  (نویسندگان مقالهدر یونیتار ، یک شرکت هوش مصنوعی با محتوای متوسط ​​، دریافت که هیچ یک از مدل های آموزش دیده به صورت عمومی منتشر نشده است.

به همین دلیل ، ماتصمیم گرفتیم از بهترین راه حل های Kaggle الهام بگیریم و الگوریتم های خود را با هدف انتشار آزادانه آنها آموزش دهیم. برای این کار ، ما برای پردازش زبان طبیعی ، مانند BERT Google ، به مدل های “ترانسفورماتور” موجود اعتماد کردیم. بسیاری از این مدل ها در کتابخانه ترانسفورماتورهای منبع باز قابل دسترسی هستند.

تیم ما برای شناسایی متن های نامناسب یا مضر بصورت آنلاین ، Detoxify را ایجاد کرد ، یک کتابخانه منبع باز ، کاربر پسند برای شناسایی نظر. کاربرد در نظر گرفته شده برای کمک به محققان و پزشکان در شناسایی نظرات سمی بالقوه است. به عنوان بخشی از این کتابخانه ، ما سه مدل مختلف متناسب با هر یک از سه چالش Jigsaw منتشر کردیم. در حالی که بهترین راه حل های Kaggle برای هر چالش از مجموعه های مدل استفاده می کند که میانگین امتیازات چندین مدل آموزش دیده را نشان می دهد ، ما عملکرد مشابه را فقط با یک مدل در هر چالش بدست آوردیم. هر مدل در یک خط کد به راحتی قابل دسترسی است و همه مدل ها و کد آموزش در GitHub در دسترس عموم است. همچنین می توانید یک نمایش را در Google Colab امتحان کنید.

در حالی که این مدل ها در بسیاری از موارد عملکرد خوبی دارند ، اما توجه به محدودیت های آنها نیز مهم است. اول ، این مدل ها به خوبی در مثال هایی کار می کنند که مشابه داده هایی هستند که روی آنها آموزش داده شده اند. اما در صورت مواجهه با نمونه های ناآشنای زبان سمی احتمال شکست آنها وجود دارد. ما توسعه دهندگان را تشویق می کنیم که این مدل ها را در مجموعه داده هایی که مورد استفاده آنها است ، تنظیم کنند.

علاوه بر این ، ما متوجه شدیم که درج توهین یا فحاشی در یک متن نظر تقریباً همیشه منجر به نمره سمیت بالا می شود ، صرف نظر از قصد یا لحن نویسنده. به عنوان مثال ، جمله “من از نوشتن این مقاله احمقانه خسته شده ام” نمره سمیت 99.7 درصد می دهد ، در حالی که حذف کلمه “احمق” نمره را به 0.05 درصد تغییر می دهد.

سرانجام ، علی رغم این واقعیت که یکی از مدل های منتشر شده به طور خاص آموزش دیده است تا تعصب ناخواسته را محدود کند ، هر سه مدل هنوز هم ممکن است برخی از سوگیری ها را نشان دهند ، که می تواند نگرانی های اخلاقی را هنگام استفاده از محتوای خارج از عامیانه تا متوسط ​​ایجاد کند.

اگر چه پیشرفت قابل‌توجهی در تشخیص خودکار بیان سمی وجود داشته‌است، اما ما هنوز راه طولانی برای ادامه مدل‌ها داریم تا اینکه مدل‌ها بتوانند معنای واقعی، ظرافت و معنا را در ورای زبان ما – فراتر از حفظ کردن ساده کلمات یا عبارت خاص، ثبت کنند. البته، سرمایه‌گذاری در مجموعه داده‌های گزینه بهتر و بیشتر منجر به بهبود تدریجی خواهد شد، اما ما باید یک گام جلوتر برویم و داده‌ها را در زمینه، بخش حیاتی درک رفتار آنلاین شروع کنیم. یک پست متنی بی‌خطر در رسانه‌های اجتماعی همراه با نماد نژادپرستانه در یک تصویر یا ویدیو به راحتی از دست خواهد رفت اگر ما فقط به متن نگاه کنیم. ما می دانیم که فقدان زمینه اغلب می تواند دلیل قضاوت های اشتباه انسانی ما باشد. اگر هوش مصنوعی بخواهد جایگزین تلاش دستی در مقیاس وسیع شود ، ضروری است که ما تصویر کاملی را به مدل های خود ارائه دهیم.

لینک کوتاه این مطلب : https://bittly.ir/ivBRR

لینک کوتاه : https://bittly.ir/ivBRR

این وب سایت برای بهبود خدمات از کوکی ها استفاده می کند. ما تصور مان بر این است که شما با این کار موافق هستید ، اما در صورت تمایل می توانید انصراف دهید. پذیرفتن ادامه