تاریخ ارسال : 1404/09/07
اوپن ای آی با ادغام کامل قابلیت صوتی در رابط کاربری اصلی چت جی پی تی، تجربه کاربری را متحول کرد؛ اکنون کاربران میتوانند همزمان با صحبت کردن، خروجیهای بصری مانند تصاویر و نقشهها را بهطور بلادرنگ مشاهده کنند.
ChatGPT، که توسط شرکت OpenAI توسعه داده شده، یک مدل زبان بزرگ (LLM) است که بر اساس معماری ترنسفورمر (Transformer) کار میکند. این چتبات با استفاده از حجم عظیمی از دادههای متنی آموزش دیده است و قادر است تا به زبان طبیعی انسان، متن تولید کند، سؤالات را پاسخ دهد، مقاله بنویسد، کدنویسی کند و حتی مکالمات پیچیده انجام دهد. هدف اصلی ChatGPT شبیهسازی یک گفتوگوی انسانی در بستر دیجیتال است.
آنچه ChatGPT را متمایز میکند، قابلیت آن در درک محتوای مکالمه (Context) است. این مدل نه تنها به آخرین سؤال پاسخ میدهد، بلکه میتواند به یاد بیاورد که در ابتدای گفتگو چه چیزی گفته شده و پاسخهای خود را بر اساس سابقه مکالمه تنظیم کند. این ویژگی باعث شده تا ChatGPT به ابزاری همهکاره برای تولید محتوا، کمک به پژوهش، خلاصهسازی متون طولانی و حتی خلق ایدههای خلاقانه تبدیل شود و موج جدیدی از نوآوریها در حوزه هوش مصنوعی را رهبری کند.
تحول تجربه کاربری در ChatGPT: مکالمه صوتی اکنون یکپارچهتر و بصریتر
از این پس، نحوه تعامل کاربران با قابلیت صوتی ChatGPT متحول میشود. شرکت OpenAI با یک بهروزرسانی مهم، رابط کاربری این چتبات محبوب هوش مصنوعی را بهبود بخشیده است، بهطوری که مکالمه صوتی دیگر یک تجربه مجزا و منفصل نیست، بلکه کاملاً در رابط اصلی چت ادغام شده است. این تغییر، گامی بزرگ به سوی طبیعیتر شدن تعامل انسان و هوش مصنوعی است.
۱. خداحافظی با رابط کاربری مجزا: ادغام به نفع کاربر
تا پیش از این بهروزرسانی، فعالسازی حالت صوتی کاربران را به یک صفحه جداگانه هدایت میکرد که اغلب با یک نماد دایره آبی متحرک مشخص میشد. این صفحه مجزا، هرچند که امکان مکالمه صوتی را فراهم میکرد، اما تجربهای ناپیوسته و آزاردهنده ایجاد مینمود. برای مثال، کاربران در صورت از دست دادن بخشی از پاسخهای شفاهی، مجبور بودند حالت صوتی را ترک کنند تا متن را ببینند. این فرآیند رفت و برگشت میان حالتها، جریان طبیعی مکالمه را مختل میکرد و کارایی چتبات را کاهش میداد. اکنون، کاربران میتوانند مستقیماً از داخل محیط چت معمولی، دکمه صدا را فعال کنند، گویی که در حال ارسال یک پیام صوتی هستند.
۲. تعامل بصری همزمان: کلید درک چندرسانهای
مهمترین مزیت این بهروزرسانی، امکان تعامل بصری و صوتی بهطور همزمان است. کاربران میتوانند صحبت کنند و همزمان که ChatGPT در حال پاسخگویی است، متن پاسخ را روی صفحه مشاهده نمایند. این قابلیت نه تنها مشکل از دست دادن اطلاعات را برطرف میکند، بلکه دروازهای را به روی یک تجربه چندرسانهای باز میکند. اکنون، اگر پاسخ ChatGPT شامل عناصری مانند تصاویر تولید شده توسط هوش مصنوعی (مانند مدل DALL-E) یا نقشههای جغرافیایی باشد، کاربر میتواند در حین مکالمه صوتی، این خروجیهای بصری را بهصورت بلادرنگ (Real-Time) مشاهده کند.
۳. افزایش کارایی و طبیعیسازی گفتگو
این ادغام، استفاده از ChatGPT را به شکلی قابل توجهی طبیعیتر میکند. در زندگی واقعی، ما دائماً بین گفتار و نوشتار جابهجا میشویم؛ به یکدیگر چیزی را میگوییم و همزمان تصویری را نشان میدهیم یا به متنی ارجاع میدهیم. اکنون، ChatGPT این انعطافپذیری را به فضای دیجیتال آورده است. کاربر میتواند در حین رانندگی سؤال کند و سپس هنگام توقف، پیامهای قبلی خود را مرور کند یا تصاویر و نقشههای مربوط به پاسخ را ببیند، بدون اینکه نیاز به خروج از حالت فعلی باشد. این قابلیت جدید، که اکنون بهصورت پیشفرض برای تمامی کاربران در برنامههای موبایل و وب پیادهسازی شده، کارایی چتبات را به عنوان یک دستیار هوش مصنوعی واقعی بهبود میبخشد.
۴. ملاحظات فنی و گزینه بازگشت
در سطح فنی، این بهروزرسانی نشاندهنده بهینهسازی و یکپارچهسازی بهتر مدلهای گفتار به متن (Speech-to-Text) و متن به گفتار (Text-to-Speech) با هسته اصلی مدل زبان است. با این حال، حتی با وجود این پیشرفت، OpenAI همچنان یک گزینه برای کاربرانی که به تجربه قدیمیتر علاقه دارند، باقی گذاشته است. کاربران میتوانند از طریق بخش تنظیمات برنامه، حالت صوتی جداگانه قبلی را فعال کنند و به رابط کاربری اصلی خود بازگردند، که این نشاندهنده احترام به ترجیحات متنوع کاربران است. البته، تنها نکتهای که همچنان باقی است، این است که برای قطع کامل مکالمه صوتی، کاربران همچنان باید روی گزینه «پایان» ضربه بزنند تا ضبط صدای ورودی متوقف شود.
به این مطلب چه امتیازی می دهید؟
1
2
3
4
5
(1)