این هوش مصنوعی میتواند از روی صدا ظاهر دقیق خیابانها را به تصویر بکشد
محققان سیستم هوش مصنوعی جدیدی ساخته اند که می تواند تصاویر دقیقی از آن مکان بر اساس صدای ضبط شده تولید کند. در این تحقیق ابتدا برخی صداهای ضبط شده از خیابان های شهرهای مختلف جهان به صدای مصنوعی داده شد سپس مدل تصاویر دقیقی برای خیابان ها تولید کرد.
بر اساس گزارش های منتشر شده، تیمی از محققان دانشگاه تگزاس در این تحقیق به دنبال پاسخ به این سوال بودند که آیا هوش مصنوعی می تواند ویژگی های بصری محیط خود را تنها با کلیپ های صوتی درک کند؟ مهارتی که زمانی تصور می شد منحصر به انسان است.
توانایی هوش مصنوعی برای درک محیط از روی صدای ضبط شده
آنها در مقاله خود توضیح می دهند که ابتدا ۱۰۰ کلیپ ویدیویی و صوتی یوتیوب از شهرهای آمریکای شمالی، آسیا و اروپا جمع آوری کردند. آنها سپس از این کلیپ ها برای آموزش یک مدل هوش مصنوعی استفاده کردند که می تواند تصاویری با وضوح بالا از محیط های مختلف بر اساس ورودی های صوتی تولید کند.
سپس، کلیپ های صوتی ۱۰ ثانیه ای به هوش مصنوعی داده شد و از آن خواسته شد تا تصاویری با وضوح بالا از ظاهر محیط تولید کند.
برای تعیین صحت تصاویر، گروهی از افراد به عنوان داور در تحقیق حضور داشتند. برای این داوران، خروجی هوش مصنوعی و صدایی که بر اساس آن تصاویر تولید شده بود پخش شد، سپس از آنها خواسته شد که تشخیص دهند کدام تصویر با صدا مطابقت دارد. به طور متوسط در ۸۰% موارد تشخیص داوران صحیح بوده است.
بر اساس بیانیه منتشر شده توسط دانشگاه تگزاس، دقت تصاویر ایجاد شده توسط این مدل هوش مصنوعی نشان می دهد که ماشین ها به خوبی می توانند ارتباط انسانی بین ادراک صوتی و بصری محیط ها را شبیه سازی کنند.
یوهائو کانگ، یکی از نویسندگان این مطالعه، می گوید:
تحقیقات ما نشان میدهد که محیطهای آکوستیک حاوی نشانههای بصری کافی برای تولید تصاویر قابل تشخیص از مناظر خیابانی هستند که در آن مکانهای مختلف بهطور دقیق نشان داده میشوند؛ این بدان معناست که میتوانید محیطهای صوتی را به نمایشهای بصری واضح تبدیل کنید و صداها را بهطور مؤثرتری به مناظر تبدیل کنید.»
منبع: دیجیاتو