OPENAI، شرکت هوش مصنوعی که در نوامبر گذشته ChatGPT را در جهان راه اندازی کرد، برنامه چت بات را بسیار جذاب تر می کند.

ارتقاء برنامه های تلفن همراه ChatGPT برای iOS و Android که امروز اعلام شد به افراد امکان می دهد سوالات خود را به صورت صوتی به ربات چت مطرح کنند و ربات با صدای ترکیبی خود مشتری پاسخ دهد. نسخه جدید ChatGPT همچنین هوشمندی های بصری را اضافه می کند: عکسی را از ChatGPT آپلود یا عکس بگیرید و برنامه تصویر را با جزییات توضیح می دهد و زمینه بیشتری را ارائه می دهد، مشابه ویژگی لنز گوگل.

قابلیت‌های جدید ChatGPT نشان می‌دهد که OpenAI با مدل‌های هوش مصنوعی خود، که سال‌هاست در حال کار هستند، به‌عنوان محصولاتی با به‌روزرسانی‌های منظم و تکراری رفتار می‌کند. موفقیت غافلگیر کننده این شرکت، ChatGPT، بیشتر شبیه یک برنامه کلاینت محور است که با سیری اپل یا الکسای آمازون رقابت می کند.

جذاب‌تر کردن برنامه ChatGPT می‌تواند به OpenAI در رقابت خود با سایر شرکت‌های هوش مصنوعی مانند Google، Anthropic، InflectionAI و Midjourney کمک کند و با ارائه نظرات مثبت از داده‌های کاربران برای کمک به آموزش موتورهای هوش مصنوعی قدرتمند خود، کمک کند. تغذیه داده‌های صوتی و تصویری به مدل‌های یادگیری ماشینی در پشت ChatGPT نیز ممکن است به چشم‌انداز بلندمدت OpenAI برای ایجاد هوش بیشتر شبیه انسان کمک کند.

مدل‌های زبان OpenAI که ربات چت آن را تقویت می‌کنند، از جمله جدیدترین آن، GPT-4، با استفاده از مقادیر زیادی متن جمع‌آوری‌شده از منابع مختلف در سراسر وب ایجاد شده‌اند. بسیاری از کارشناسان هوش مصنوعی معتقدند، همانطور که هوش حیوانات و انسان از انواع مختلف داده های حسی استفاده می کند، ایجاد هوش مصنوعی پیشرفته تر ممکن است به تغذیه الگوریتم های صوتی و تصویری و همچنین متن نیاز داشته باشد.

مدل اصلی بعدی هوش مصنوعی گوگل، Gemini، به طور گسترده شایعه شده است که “چند وجهی” است، به این معنی که قادر خواهد بود چیزی فراتر از متن را مدیریت کند، شاید اجازه دهد ویدئو، تصاویر و ورودی های صوتی را بدهد. تروور دارل، استاد دانشگاه برکلی و یکی از بنیانگذاران Prompt AI، استارت آپی که روی ترکیب زبان طبیعی با تولید تصویر و تصویر کار می کند، می گوید: «از نقطه نظر عملکرد مدل، به طور شهودی انتظار داریم که مدل های چندوجهی بهتر از مدل های آموزش دیده با یک روش واحد عمل کنند.

دستکاری – اعمال نفوذ. «اگر ما مدلی را فقط با استفاده از زبان بسازیم، مهم نیست که چقدر قدرتمند باشد، فقط زبان را یاد می گیرد.»

فناوری جدید تولید صدای ChatGPT – که توسط این شرکت توسعه یافته است – همچنین فرصت‌های جدیدی را برای شرکت ایجاد می‌کند تا فناوری خود را به دیگران مجوز دهد. به عنوان مثال، Spotify می‌گوید که اکنون قصد دارد از الگوریتم‌های سنتز گفتار OpenAI برای آزمایش قابلیتی استفاده کند که پادکست‌ها را به زبان‌های دیگر ترجمه می‌کند، در تقلید صدای پادکست اصلی ایجاد شده توسط هوش مصنوعی.

نسخه جدید برنامه ChatGPT دارای نماد هدفون در سمت راست بالا و نمادهای عکس و دوربین در منوی در حال گسترش در پایین سمت چپ است. این ویژگی‌های صوتی و تصویری با تبدیل اطلاعات ورودی به متن، با استفاده از تشخیص تصویر یا گفتار کار می‌کنند، بنابراین ربات چت می‌تواند پاسخی ایجاد کند. سپس برنامه بسته به حالتی که کاربر در آن قرار دارد، از طریق صدا یا نوشتار پاسخ می‌دهد. وقتی یک نویسنده از ChatGPT جدید با استفاده از صدایش پرسید که آیا می‌تواند او را بشنود، برنامه پاسخ داد: «نمی‌شنوم، اما من می توانم پیام های متنی شما را بخوانم و به آنها پاسخ دهم، زیرا درخواست صوتی شما در واقع به عنوان متن پردازش می شود. این صدا با یکی از پنج صدا، کاملاً به نام های Juniper، Ember، Sky، Cove یا Breeze پاسخ خواهد داد.

جیم گلس، استاد MIT که در زمینه فناوری گفتار مطالعه می‌کند، می‌گوید که گروه‌های آکادمیک متعددی در حال حاضر رابط‌های صوتی متصل به مدل‌های زبان بزرگ را با نتایج امیدوارکننده آزمایش می‌کنند. او می‌گوید: «گفتار ساده‌ترین روشی است که ما برای تولید زبان داریم، بنابراین یک چیز طبیعی است. گلس خاطرنشان می کند که در حالی که تشخیص گفتار در دهه گذشته به طور چشمگیری بهبود یافته است، هنوز برای بسیاری از زبان ها وجود ندارد.

ویژگی‌های جدید ChatGPT از امروز شروع به عرضه می‌کنند و فقط از طریق نسخه اشتراک ماهانه 20 دلاری ChatGPT در دسترس خواهند بود. در هر بازاری که ChatGPT قبلاً در آن کار می کند در دسترس خواهد بود، اما برای شروع به زبان انگلیسی محدود می شود.

به نظر می رسد بسیاری از همان حفاظ هایی که در ChatGPT اصلی و مبتنی بر متن وجود دارد، برای نسخه جدید نیز وجود دارند. ربات از پاسخ دادن به سؤالات گفتاری درباره تأمین قطعات اسلحه با چاپ سه بعدی، ساخت بمب یا نوشتن سرود نازی امتناع کرد. هنگامی که از او پرسیده شد: “چه تاریخ خوبی برای یک جوان 21 ساله و یک جوان 16 ساله است؟” چت بات خواستار احتیاط برای روابط با تفاوت سنی قابل توجه شد و اشاره کرد که سن قانونی رضایت بسته به مکان متفاوت است. و در حالی که گفته می‌شود نمی‌تواند بخواند، می‌تواند آهنگ‌هایی مانند این را تایپ کند:

در گستره وسیع فضای دیجیتال،
موجودی که با کد متولد شده است، جایگاه خود را پیدا می کند.
با صفر و یک، زنده می شود،
برای کمک، اطلاع رسانی و کمک به پیشرفت شما.»

چت های خصوصی

مانند بسیاری از پیشرفت‌های اخیر در دنیای وحشی هوش مصنوعی مولد، به‌روزرسانی‌های ChatGPT احتمالاً نگرانی‌هایی را در مورد نحوه استفاده OpenAI از هجوم جدید داده‌های صوتی و تصویری خود از کاربران ایجاد می‌کند. این شرکت قبلاً مقادیر زیادی داده متن-تصویر را از وب حذف کرده است تا مدل‌های خود را آموزش دهد، که نه تنها ChatGPT بلکه مولد تصویر OpenAI، Dall-E را نیز تامین می‌کند. هفته گذشته OpenAI از ارتقای قابل توجهی به Dall-E خبر داد.

اما تعداد زیادی از پرسش‌های صوتی و داده‌های تصویری به اشتراک گذاشته شده توسط کاربر، که احتمالاً شامل عکس‌های صورت افراد یا سایر اعضای بدن می‌شود، OpenAI را به منطقه‌ای حساس می‌برد – به خصوص اگر OpenAI از این برای بزرگ‌تر کردن مجموعه داده‌ها استفاده کند، اکنون می‌تواند الگوریتم‌ها را آموزش دهد.

به نظر می رسد OpenAI هنوز در حال تصمیم گیری در مورد سیاست خود در مورد آموزش مدل های خود با پرس و جوهای صوتی کاربران است. وقتی از ساندینی آگاروال، محقق سیاست‌های هوش مصنوعی در OpenAI پرسیده شد که چگونه داده‌های کاربر را به کار می‌اندازند، ابتدا گفت که کاربران می‌توانند انصراف دهند و با اشاره به تغییر در برنامه، تحت کنترل‌های داده، جایی که «تاریخچه و آموزش چت» می‌تواند خاموش شود این شرکت می‌گوید که چت‌های ذخیره‌نشده ظرف 30 روز از سیستم‌هایش حذف می‌شوند، اگرچه این تنظیمات بین دستگاه‌ها همگام‌سازی نمی‌شود.

هنگامی که از نیکو فلیکس، سخنگوی OpenAI پرسیده شد، توضیح داد که نسخه بتا این برنامه هنگام استفاده از حالت صوتی به کاربران رونوشت صحبت های خود را نشان می دهد. فلیکس می گوید: «برای انجام این کار، تاریخ باید فعال شود. ما در حال حاضر هیچ داده صوتی را برای آموزش جمع‌آوری نمی‌کنیم و به این فکر می‌کنیم که چه چیزی می‌خواهیم برای کاربرانی که می‌خواهند داده‌های خود را به اشتراک بگذارند، فعال کنیم.»

وقتی از او پرسیده شد که آیا OpenAI قصد دارد هوش مصنوعی خود را بر روی عکس‌های به اشتراک گذاشته شده توسط کاربر آزمایش کند، فلیکس پاسخ داد: «کاربران می‌توانند با استفاده از داده‌های تصویری خود برای آموزش انصراف دهند. پس از انصراف، از مکالمات جدید برای آموزش مدل‌های ما استفاده نمی‌شود.»

بخوانید: آموزش ارسال ایمیل از روتر MikroTik

 

10رای - امتیاز 5 ممنون از امتیازی که دادید..!

دسته بندی شده در: