پژوهشگران متا به‌کمک هوش مصنوعی، فشرده‌سازی صدا را وارد سطح جدیدی می‌کنند
03
نوامبر

پژوهشگران متا به‌کمک هوش مصنوعی، فشرده‌سازی صدا را وارد سطح جدیدی می‌کنند

متا از توسعه‌ی سیستم جدیدی برای فشرده‌سازی صدا بر پایه‌ی هوش مصنوعی خبر می‌دهد که بسیار بهینه‌تر از کدک‌هایی مثل MP3 است و احتمالاً به‌زودی برای ویدئو نیز کاربرد پیدا می‌کند.

فشرده‌سازی یکی از مهم‌ترین بخش‌های اینترنت در دنیای امروز است؛ چون به کاربران امکان می‌دهد که به‌راحتی تصاویر‌ باکیفیت را به‌اشتراک بگذارند و پیام‌های صوتی را گوش دهند و فیلم و سریال استریم کنند. حتی با وجود پیشرفت سرسام‌آور فناوری، لذت‌بردن از محتواهای چندرسانه‌ای باکیفیت نیازمند داشتن اینترنت پرسرعت و حافظه‌ی ذخیره‌سازی فراوان است.

کارشناسان اعتقاد دارند که متاورس آینده‌ی اینترنت را تشکیل می‌دهد؛ دنیایی مجازی که به اینترنت بسیار سریعی نیاز خواهد داشت. در همین زمینه، اهمیت تکنیک‌های فشرده‌سازی روزبه‌روز افزایش می‌یابد.

متا (فیسبوک سابق) در بیانیه‌ای می‌گوید می‌گوید پژوهشگرانش به پیشرفت‌های جدیدی در حوزه‌ی فشرده‌سازی صدا با استفاده از هوش مصنوعی دست پیدا کرده‌اند. این شرکت ادعا می‌کند که به‌لطف تکنیک‌های جدید می‌توان حتی با استفاده از اینترنت کم‌سرعت نیز به پیام‌های صوتی گوش داد.

متا می‌گوید با بهره‌گیری از هوش مصنوعی، سیستمی سه‌بخشی طراحی کرده و آن را تعلیم داده است تا فشرده‌سازی داده‌های صوتی را مطابق اهداف انجام دهد. متا سپس با استفاده از یک شبکه‌ی عصبی داده‌ها را رمزگشایی می‌کند. به‌ادعای متا، این سیستم جدید تقریباً ۱۰ برابر نرخ فشرده‌سازی بیشتری از MP3 دارد، آن هم بدون افت کیفیت.

مقایسه نرخ فشرده سازی ابزار Encodec متا با MP3

پیش‌تر تکنیک‌هایی مشابه تکنیک جدید متا توسعه داده شده‌اند؛ اما متا اولین شرکت دنیا است که از تکنیکی این‌چنینی برای صدای استریو ۴۸ کیلوهرتزی استفاده می‌کند. این صدا امروزه به استانداردی برای توزیع موسیقی تبدیل شده است. متا می‌گوید با هدف حمایت از جامعه‌ی متن‌باز، جزئیات فنی و کد سیستم جدیدش را دردسترس پژوهشگران قرار می‌دهد.

سیستم جدید متا می‌تواند صدا را به‌صورت بلادرنگ فشرده‌ و سپس از حالت فشرده خارج کند. همچنان به برخی بهینه‌سازی‌ها نیاز است؛ اما براساس پیش‌بینی متا، این سیستم درنهایت می‌تواند به مزایایی مثل افزایش کیفیت تماس‌های صوتی در مناطقی منجر شود که به شبکه‌ی ضعیف دسترسی دارند. همچنین، این سیستم می‌تواند دسترسی به متاورس را ازطریق اینترنت‌هایی با پهنای باند کم ممکن کند.

تکنیک‌های جدید متا فعلاً حوزه‌ی ویدیو را پوشش نمی‌دهند؛ اما این شرکت در تلاش است با سیستم فشرده‌سازی جدیدش کارهایی مثل برگزاری کنفرانس ویدئویی و استریم فیلم و تجربه‌ی بازی چندنفره در دنیای واقعیت مجازی را بهینه‌تر کند. کدک که در نقش ابزاری برای رمزنگاری و رمزگشایی داده‌ها ظاهر می‌شود، به توسعه‌ی بسیاری از تکنیک‌های فشرده‌سازی منتهی شده است که امروزه در دنیای آنلاین استفاده می‌کنیم. MP3 و Opus و EVS جزو کدک‌های شناخته‌شده هستند.

کدک‌های کلاسیک مثل موارد نام‌برده سیگنال بین فرکانس‌های مختلف را تجزیه می‌کنند و به بهینه‌ترین شکل ممکن سراغ رمزنگاری آن‌ها می‌روند. اکثر کدک‌های کلاسیک مبتنی‌بر دانش شنوایی انسان هستند؛ اما به روش دستی بهینه‌سازی‌هایی در آن‌ها انجام می‌گیرد. متا می‌گوید بهینه‌سازی دستی پیشرفت‌های زیادی تجربه کرده است و اکنون تا حد زیادی به محدودیت نهایی نزدیک شده‌ایم؛ به‌همین‌دلیل، توسعه‌ی تکنیک‌های جدید ضروری است.

در همین راستا، متا با استفاده از هوش مصنوعی شروع به توسعه‌ی Encodec کرد. Encodec شبکه‌ای عصبی است که سیگنال ورودی را بازسازی می‌‌کند و فرایند رمزنگاری و رمزگشایی صدا را بلافاصله با اتکا بر تنها یک هسته در پردازنده‌ی مرکزی (CPU) سیستم انجام می‌دهد. متا می‌گوید با گذشت زمان و اعمال بهبودهای بیشتر می‌تواند حجم نهایی فایل‌های صوتی را بیش‌ازپیش کاهش دهد.