OPENAI، شرکت هوش مصنوعی که در نوامبر گذشته ChatGPT را در جهان راه اندازی کرد، برنامه چت بات را بسیار جذاب تر می کند.
ارتقاء برنامه های تلفن همراه ChatGPT برای iOS و Android که امروز اعلام شد به افراد امکان می دهد سوالات خود را به صورت صوتی به ربات چت مطرح کنند و ربات با صدای ترکیبی خود مشتری پاسخ دهد. نسخه جدید ChatGPT همچنین هوشمندی های بصری را اضافه می کند: عکسی را از ChatGPT آپلود یا عکس بگیرید و برنامه تصویر را با جزییات توضیح می دهد و زمینه بیشتری را ارائه می دهد، مشابه ویژگی لنز گوگل.
قابلیتهای جدید ChatGPT نشان میدهد که OpenAI با مدلهای هوش مصنوعی خود، که سالهاست در حال کار هستند، بهعنوان محصولاتی با بهروزرسانیهای منظم و تکراری رفتار میکند. موفقیت غافلگیر کننده این شرکت، ChatGPT، بیشتر شبیه یک برنامه کلاینت محور است که با سیری اپل یا الکسای آمازون رقابت می کند.
جذابتر کردن برنامه ChatGPT میتواند به OpenAI در رقابت خود با سایر شرکتهای هوش مصنوعی مانند Google، Anthropic، InflectionAI و Midjourney کمک کند و با ارائه نظرات مثبت از دادههای کاربران برای کمک به آموزش موتورهای هوش مصنوعی قدرتمند خود، کمک کند. تغذیه دادههای صوتی و تصویری به مدلهای یادگیری ماشینی در پشت ChatGPT نیز ممکن است به چشمانداز بلندمدت OpenAI برای ایجاد هوش بیشتر شبیه انسان کمک کند.
مدلهای زبان OpenAI که ربات چت آن را تقویت میکنند، از جمله جدیدترین آن، GPT-4، با استفاده از مقادیر زیادی متن جمعآوریشده از منابع مختلف در سراسر وب ایجاد شدهاند. بسیاری از کارشناسان هوش مصنوعی معتقدند، همانطور که هوش حیوانات و انسان از انواع مختلف داده های حسی استفاده می کند، ایجاد هوش مصنوعی پیشرفته تر ممکن است به تغذیه الگوریتم های صوتی و تصویری و همچنین متن نیاز داشته باشد.
مدل اصلی بعدی هوش مصنوعی گوگل، Gemini، به طور گسترده شایعه شده است که “چند وجهی” است، به این معنی که قادر خواهد بود چیزی فراتر از متن را مدیریت کند، شاید اجازه دهد ویدئو، تصاویر و ورودی های صوتی را بدهد. تروور دارل، استاد دانشگاه برکلی و یکی از بنیانگذاران Prompt AI، استارت آپی که روی ترکیب زبان طبیعی با تولید تصویر و تصویر کار می کند، می گوید: «از نقطه نظر عملکرد مدل، به طور شهودی انتظار داریم که مدل های چندوجهی بهتر از مدل های آموزش دیده با یک روش واحد عمل کنند.
دستکاری – اعمال نفوذ. «اگر ما مدلی را فقط با استفاده از زبان بسازیم، مهم نیست که چقدر قدرتمند باشد، فقط زبان را یاد می گیرد.»
فناوری جدید تولید صدای ChatGPT – که توسط این شرکت توسعه یافته است – همچنین فرصتهای جدیدی را برای شرکت ایجاد میکند تا فناوری خود را به دیگران مجوز دهد. به عنوان مثال، Spotify میگوید که اکنون قصد دارد از الگوریتمهای سنتز گفتار OpenAI برای آزمایش قابلیتی استفاده کند که پادکستها را به زبانهای دیگر ترجمه میکند، در تقلید صدای پادکست اصلی ایجاد شده توسط هوش مصنوعی.
نسخه جدید برنامه ChatGPT دارای نماد هدفون در سمت راست بالا و نمادهای عکس و دوربین در منوی در حال گسترش در پایین سمت چپ است. این ویژگیهای صوتی و تصویری با تبدیل اطلاعات ورودی به متن، با استفاده از تشخیص تصویر یا گفتار کار میکنند، بنابراین ربات چت میتواند پاسخی ایجاد کند. سپس برنامه بسته به حالتی که کاربر در آن قرار دارد، از طریق صدا یا نوشتار پاسخ میدهد. وقتی یک نویسنده از ChatGPT جدید با استفاده از صدایش پرسید که آیا میتواند او را بشنود، برنامه پاسخ داد: «نمیشنوم، اما من می توانم پیام های متنی شما را بخوانم و به آنها پاسخ دهم، زیرا درخواست صوتی شما در واقع به عنوان متن پردازش می شود. این صدا با یکی از پنج صدا، کاملاً به نام های Juniper، Ember، Sky، Cove یا Breeze پاسخ خواهد داد.
جیم گلس، استاد MIT که در زمینه فناوری گفتار مطالعه میکند، میگوید که گروههای آکادمیک متعددی در حال حاضر رابطهای صوتی متصل به مدلهای زبان بزرگ را با نتایج امیدوارکننده آزمایش میکنند. او میگوید: «گفتار سادهترین روشی است که ما برای تولید زبان داریم، بنابراین یک چیز طبیعی است. گلس خاطرنشان می کند که در حالی که تشخیص گفتار در دهه گذشته به طور چشمگیری بهبود یافته است، هنوز برای بسیاری از زبان ها وجود ندارد.
ویژگیهای جدید ChatGPT از امروز شروع به عرضه میکنند و فقط از طریق نسخه اشتراک ماهانه 20 دلاری ChatGPT در دسترس خواهند بود. در هر بازاری که ChatGPT قبلاً در آن کار می کند در دسترس خواهد بود، اما برای شروع به زبان انگلیسی محدود می شود.
به نظر می رسد بسیاری از همان حفاظ هایی که در ChatGPT اصلی و مبتنی بر متن وجود دارد، برای نسخه جدید نیز وجود دارند. ربات از پاسخ دادن به سؤالات گفتاری درباره تأمین قطعات اسلحه با چاپ سه بعدی، ساخت بمب یا نوشتن سرود نازی امتناع کرد. هنگامی که از او پرسیده شد: “چه تاریخ خوبی برای یک جوان 21 ساله و یک جوان 16 ساله است؟” چت بات خواستار احتیاط برای روابط با تفاوت سنی قابل توجه شد و اشاره کرد که سن قانونی رضایت بسته به مکان متفاوت است. و در حالی که گفته میشود نمیتواند بخواند، میتواند آهنگهایی مانند این را تایپ کند:
در گستره وسیع فضای دیجیتال،
موجودی که با کد متولد شده است، جایگاه خود را پیدا می کند.
با صفر و یک، زنده می شود،
برای کمک، اطلاع رسانی و کمک به پیشرفت شما.»
چت های خصوصی
مانند بسیاری از پیشرفتهای اخیر در دنیای وحشی هوش مصنوعی مولد، بهروزرسانیهای ChatGPT احتمالاً نگرانیهایی را در مورد نحوه استفاده OpenAI از هجوم جدید دادههای صوتی و تصویری خود از کاربران ایجاد میکند. این شرکت قبلاً مقادیر زیادی داده متن-تصویر را از وب حذف کرده است تا مدلهای خود را آموزش دهد، که نه تنها ChatGPT بلکه مولد تصویر OpenAI، Dall-E را نیز تامین میکند. هفته گذشته OpenAI از ارتقای قابل توجهی به Dall-E خبر داد.
اما تعداد زیادی از پرسشهای صوتی و دادههای تصویری به اشتراک گذاشته شده توسط کاربر، که احتمالاً شامل عکسهای صورت افراد یا سایر اعضای بدن میشود، OpenAI را به منطقهای حساس میبرد – به خصوص اگر OpenAI از این برای بزرگتر کردن مجموعه دادهها استفاده کند، اکنون میتواند الگوریتمها را آموزش دهد.
به نظر می رسد OpenAI هنوز در حال تصمیم گیری در مورد سیاست خود در مورد آموزش مدل های خود با پرس و جوهای صوتی کاربران است. وقتی از ساندینی آگاروال، محقق سیاستهای هوش مصنوعی در OpenAI پرسیده شد که چگونه دادههای کاربر را به کار میاندازند، ابتدا گفت که کاربران میتوانند انصراف دهند و با اشاره به تغییر در برنامه، تحت کنترلهای داده، جایی که «تاریخچه و آموزش چت» میتواند خاموش شود این شرکت میگوید که چتهای ذخیرهنشده ظرف 30 روز از سیستمهایش حذف میشوند، اگرچه این تنظیمات بین دستگاهها همگامسازی نمیشود.
هنگامی که از نیکو فلیکس، سخنگوی OpenAI پرسیده شد، توضیح داد که نسخه بتا این برنامه هنگام استفاده از حالت صوتی به کاربران رونوشت صحبت های خود را نشان می دهد. فلیکس می گوید: «برای انجام این کار، تاریخ باید فعال شود. ما در حال حاضر هیچ داده صوتی را برای آموزش جمعآوری نمیکنیم و به این فکر میکنیم که چه چیزی میخواهیم برای کاربرانی که میخواهند دادههای خود را به اشتراک بگذارند، فعال کنیم.»
وقتی از او پرسیده شد که آیا OpenAI قصد دارد هوش مصنوعی خود را بر روی عکسهای به اشتراک گذاشته شده توسط کاربر آزمایش کند، فلیکس پاسخ داد: «کاربران میتوانند با استفاده از دادههای تصویری خود برای آموزش انصراف دهند. پس از انصراف، از مکالمات جدید برای آموزش مدلهای ما استفاده نمیشود.»
بخوانید: آموزش ارسال ایمیل از روتر MikroTik