ساخت هوش مصنوعی با توانایی رمزگشایی دقیق گفتار از فعالیت مغز
12
سپتامبر

ساخت هوش مصنوعی با توانایی رمزگشایی دقیق گفتار از فعالیت مغز

هوش مصنوعی می‌تواند گفتار را از روی فعالیت مغز و با دقت شگفت‌انگیزی رمزگشایی کند. این دستاورد می‌تواند کمک بسیاری به افراد فاقد توان ارتباط ازطریق گفتار برساند.

به‌تازگی نوعی هوش مصنوعی توسعه داده شده که می‌تواند کلمات و جملات مربوط به فعالیت مغز را با دقتی شگفت‌انگیز و البته همچنان محدود، رمزگشایی کند. این هوش مصنوعی تنها با استفاده از چند ثانیه از داده‌های فعالیت مغز انسان، می‌تواند حدس بزند فرد چه چیزهایی شنیده است. محققان در یک بررسی اولیه دریافتند که این هوش مصنوعی، در ۷۳ درصد مواقع می‌تواند پاسخ صحیح را درمیان ۱۰ احتمال اول خود جای دهد.

جیووانی دی لیبرتو، دانشمند فعال درزمینه علوم کامپیوتر در کالج ترینیتی دوبلین که در این تحقیق شرکت نداشته، می‌گوید:

عملکرد هوش مصنوعی بالاتر از آن چیزی بود که که بسیاری از افراد در این مرحله اساساً آن را ممکن می‌پنداشتند.

محققان در روز ۲۵ ماه اوت سال جاری میلادی (حدود دو هفته پیش) در arXiv.org گزارش دادند که هوش مصنوعی توسعه‌یافته در متا، شرکت مادر فیسبوک، در نهایت می‌تواند به کمک هزاران نفری در سراسر جهان آید که قادر به برقراری ارتباط ازطریق گفتار، تایپ یا زبان اشاره نیستند. این شرایط وخیم و دشوار شامل بسیاری از بیمارانی می‌شود که با حداقل هوشیاری یا «حالت نباتی» دست‌به‌گریبان هستند؛ حالتی که اکنون به‌طور کلی به‌عنوان سندرم بیداری بی‌پاسخ شناخته می‌شود.

بیشتر فناوری‌های موجود برای کمک به چنین بیمارانی به‌منظور برقراری ارتباط، نیاز به جراحی‌های خطرناک مغز برای کاشت الکترود دارند. ژان رمی کینگ، عصب‌شناس و محقق هوش مصنوعی در متا که در حال حاضر در École Normale Supérieure در پاریس مشغول به کار است، می‌گوید:

رویکرد جدید می‌تواند بدون استفاده از روش‌های تهاجمی، رهیافتی مناسب برای کمک به بیماران مبتلا به نقص‌های ارتباطی فراهم کند.

کینگ و همکارانش یک ابزار محاسباتی را برای تشخیص کلمات و جملات موجود در ۵۶ هزار ساعت گفتار ضبط‌شده از ۵۳ زبان دنیا آموزش دادند. ابزار اخیر که به‌عنوان یک مدل زبان نیز شناخته می‌شود، درنهایت توانست چگونگی عملکرد ویژگی‌های خاص یک زبان را هم در سطح دقیق و جزئی (به حروف یا هجاها فکر کنید) و هم در سطح گسترده‌تری مانند یک کلمه یا جمله تشخیص داده و به‌اصطلاح رایج در هوش مصنوعی، آن‌ها را یاد بگیرد.

تیم پژوهشی یک هوش مصنوعی را روی این مدل زبانی و در پایگاه‌های داده‌ی چهار مؤسسه اعمال کردند که شامل فعالیت مغزی ۱۶۹ داوطلب می‌شد. شرکت‌کنندگان در این پایگاه‌های اطلاعاتی، به داستان‌ها و جملات مختلفی از جمله «پیرمرد و دریا» اثر ارنست همینگوی و «ماجراهای آلیس در سرزمین عجایب» اثر لوئیس کارول گوش می‌دادند؛ این گوش دادن در حالی‌ رخ می‌داد که مغز افراد هم‌زمان با استفاده از مگنتوآنسفالوگرافی یا الکتروانسفالوگرافی مورد اسکن قرار می‌گرفت. گفتنی است که تکنیک‌های یادشده، بخش‌های مغناطیسی یا الکتریکی سیگنال‌های مغز را اندازه‌گیری و ارزیابی می‌کنند.

تیم پژوهشی در ادامه با اتکا به یک روش محاسباتی که به توضیح تفاوت‌های فیزیکی بین مغزهای واقعی کمک می‌کند، برای رمزگشایی شنیده‌های شرکت‌کنندگان با استفاده از تنها سه ثانیه از داده‌های مربوط به فعالیت مغز آن‌ها تلاش کردند.آنها به هوش مصنوعی دستور دادند تا صداهای گفتار به‌دست‌آمده از پخش‌های داستانی را با الگوهای فعالیت مغزی محاسبه‌شده توسط هوش مصنوعی مطابق با شنیده‌های مردم، ‌هم‌تراز و میزان‌بندی کند. سپس با درنظر داشتن بیش از ۱۰۰۰ احتمال مختلف توسط هوش مصنوعی، پیش‌بینی‌هایی درباره آن چیزی که فرد در آن بازه زمانی کوتاه شنیده، انجام شد.

با استفاده از مگنتوآنسفالوگرافی یا MEG، پاسخ صحیح در ۷۳ درصد مواقع در میان ۱۰ حدس برتر هوش مصنوعی قرار داشت. این مقدار با الکتروانسفالوگرافی به بیش از ۳۰ درصد کاهش یافت. دی لیبرتو می‌گوید عملکرد MEG بسیار خوب است؛ اما او نسبت به استفاده عملی آن خوش‌بین نیست:

ما با آن چه می‌توانیم بکنیم؟ هیچ. مطلقا هیچ چیزی.

دلیل اصلی ناامیدی لیبرتو آن این است که MEG اساساً به یک دستگاه حجیم و گران‌قیمت نیاز دارد. آوردن این فناوری به کلینیک‌ها مستلزم نوآوری‌های علمی است؛ نوآوری‌هایی که بتوانند ماشین‌ها را ارزان‌تر و آسان‌تر کنند.

به‌باور جاناتان برنان زبان‌شناس در دانشگاه میشیگان، درک معنای واقعی «رمزگشایی» در این مطالعه نیز مهم است. این کلمه اغلب برای توصیف فرایند رمزگشایی اطلاعات به‌طور مستقیم از یک منبع (و در این مورد؛ گفتار از فعالیت مغز) استفاده می‌شود. اما هوش مصنوعی تنها به این دلیل توانسته در چنین کاری موفق باشد که فهرست محدودی از پاسخ‌های صحیح ممکن برای حدس‌ در برابرش ارائه شده بود. برنان می‌گوید:

در مورد زبان، اگر بخواهیم برای استفاده عملی آن را به مقیاس کوچک‌تری تقلیل دهیم شدنی نیست؛ زیرا زبان بی‌پایان است.

علاوه بر این هوش مصنوعی اطلاعات شرکت‌کنندگانی را رمزگشایی کرده است که منفعلانه به صدا گوش می‌دهند و این چیزی نیست که مستقیماً به بیماران غیرکلامی مربوط باشد. برای اینکه ابزار فوق واقعا به یک ابزار ارتباطی معنادار تبدیل شود، دانشمندان بایستنی دریابند که چگونه می‌توان از فعالیت مغز این بیماران برای که واقعا قصد بیان کردنش را دارند، رمزگشایی کرد؛ از جمله مسائل اولیه‌ای مثل ابراز گرسنگی، ناراحتی یا یک «بله» یا «نه» ساده.

کینگ هم با این انتقادها موافق است و تصریح می‌کند که مطالعه جدید به‌منزله‌ی «رمزگشایی ادراک گفتار است؛ نه تولید آن». اگرچه هدف نهایی دانشمندان، تولید گفتار است، ولی به نظر می‌رسد فاصله‌ی زیادی تا رسیدن به آن نقطه داشته باشیم.