جدول محتوایی
بینایی کامپیوتر (computer vision) در سالهای اخیر به سرعت تکامل یافته است و اکنون در بسیاری از بخشهای زندگی روزمره ما نفوذ کرده است. برای یک فرد معمولی، ممکن است یک نوآوری جدید و هیجان انگیز به نظر برسد، اما اینطور نیست.
(computer vision) CV در واقع برای دههها در حال تکامل بوده است، با مطالعاتی که در دهه 1970 پایههای اولیه بسیاری از الگوریتمهای مورد استفاده امروزی را تشکیل دادند. سپس، حدود 10 سال پیش، یک تکنیک جدید هنوز در حال توسعه تئوری در صحنه ظاهر شد: یادگیری عمیق، نوعی از هوش مصنوعی که از شبکههای عصبی برای حل مشکلات فوقالعاده پیچیده استفاده میکند – اگر دادهها و قدرت محاسباتی برای آن دارید.
همانطور که یادگیری عمیق ادامه یافت، مشخص شد که می تواند برخی از مسائل CV را به خوبی حل کند. چالش هایی مانند تشخیص و طبقه بندی اشیا به ویژه برای درمان یادگیری عمیق آماده بودند. در این مرحله، تمایزی بین CV “کلاسیک” که بر توانایی مهندسان برای فرمولبندی و حل مسائل ریاضی متکی بود و CV مبتنی بر یادگیری عمیق شروع شد.
یادگیری عمیق CV کلاسیک را منسوخ نکرد. هر دو به تکامل خود ادامه دادند و روشن ساختند که چه چالش هایی به بهترین شکل از طریق داده های بزرگ حل می شوند و چه چیزهایی باید با الگوریتم های ریاضی و هندسی حل شوند.
محدودیتهای بینایی کامپیوتری کلاسیک
یادگیری عمیق میتواند CV را تغییر دهد، اما این جادو تنها زمانی اتفاق میافتد که دادههای آموزشی مناسب در دسترس باشد یا زمانی که محدودیتهای منطقی یا هندسی شناسایی شده میتوانند شبکه را قادر به اجرای مستقل فرآیند یادگیری کنند.
در گذشته، CV کلاسیک برای تشخیص اشیا، شناسایی ویژگیهایی مانند لبهها، گوشهها و بافتها (استخراج ویژگی) و حتی برچسبگذاری هر پیکسل در یک تصویر (بخشبندی معنایی) استفاده میشد. با این حال، این فرآیندها بسیار دشوار و خسته کننده بودند.
تشخیص اشیا مستلزم مهارت در پنجره های کشویی، تطبیق الگو و جستجوی جامع بود. استخراج و طبقهبندی ویژگیها، مهندسان را ملزم به توسعه متدولوژیهای سفارشی میکرد. جداسازی طبقات مختلف اشیاء در سطح پیکسل مستلزم مقدار زیادی کار برای از بین بردن مناطق مختلف است – و مهندسان CV با تجربه همیشه قادر به تشخیص صحیح بین هر پیکسل در تصویر نبودند.
یادگیری عمیق تبدیل شیء
در مقابل، یادگیری عمیق – بهویژه شبکههای عصبی کانولوشنال (CNN) و CNNهای مبتنی بر منطقه (R-CNN) – تشخیص اشیا را به امری عادی تبدیل کرده است، بهویژه زمانی که با پایگاهدادههای عظیم تصویر برچسبگذاری شده غولهایی مانند گوگل و آمازون جفت شود. با یک شبکه به خوبی آموزش دیده، نیازی به قوانین صریح و دست ساز نیست و الگوریتم ها قادرند اشیاء را تحت شرایط مختلف بدون توجه به زاویه تشخیص دهند.
در استخراج ویژگی نیز، فرآیند یادگیری عمیق تنها به یک الگوریتم مناسب و دادههای آموزشی متنوع نیاز دارد تا هم از تطبیق بیش از حد مدل جلوگیری کند و هم در هنگام ارائه دادههای جدید پس از انتشار برای تولید، رتبهبندی دقت کافی را ایجاد کند. CNN ها به ویژه در این کار خوب هستند. علاوه بر این، هنگام استفاده از یادگیری عمیق در بخشبندی معنایی، معماری U-net عملکرد استثنایی را نشان داده است و نیاز به فرآیندهای دستی پیچیده را از بین میبرد.
بازگشت به قدیم
در حالی که بدون شک یادگیری عمیق این حوزه را متحول کرده است، وقتی صحبت از چالشهای خاصی میشود که بوسیله محلیسازی و نقشهبرداری همزمان (SLAM) و ساختار از الگوریتمهای حرکت (SFM) پرداخته میشود، راهحلهای CV کلاسیک هنوز از رویکردهای جدیدتر بهتر عمل میکنند. این مفاهیم هر دو شامل استفاده از تصاویر برای درک و ترسیم ابعاد مناطق فیزیکی است.
SLAM بر ساختن و سپس به روز رسانی نقشه یک منطقه متمرکز است، همه اینها در حالی است که عامل (معمولاً نوعی ربات) و مکان آن را در نقشه پیگیری می کند. اینگونه بود که رانندگی خودکار و همچنین جاروبرقی رباتیک امکان پذیر شد.
SFM به طور مشابه بر ریاضیات و هندسه پیشرفته متکی است، اما هدف آن ایجاد یک بازسازی سه بعدی از یک شی با استفاده از نماهای متعدد است که می تواند از مجموعه ای نامرتب از تصاویر گرفته شود. زمانی مناسب است که نیازی به پاسخ های بلادرنگ و فوری نباشد.
در ابتدا تصور می شد که برای اجرای صحیح SLAM به قدرت محاسباتی عظیمی نیاز است. با این حال، با استفاده از تقریب های نزدیک، پیشینیان CV توانستند نیازهای محاسباتی را بسیار قابل کنترل تر کنند.
SFM حتی سادهتر است: برخلاف SLAM که معمولاً شامل ترکیب حسگر است، این روش فقط از ویژگیهای ذاتی دوربین و ویژگیهای تصویر استفاده میکند. این یک روش مقرون به صرفه در مقایسه با اسکن لیزری است که در بسیاری از شرایط به دلیل محدودیت برد و وضوح امکان پذیر نیست. نتیجه یک نمایش قابل اعتماد و دقیق از یک شی است.
آینده دیپ لرنینگ
هنوز مشکلاتی وجود دارد که یادگیری عمیق به خوبی CV کلاسیک نمی تواند آنها را حل کند و مهندسان باید به استفاده از تکنیک های سنتی برای حل آنها ادامه دهند. هنگامی که ریاضیات پیچیده و مشاهدات مستقیم درگیر هستند و به دست آوردن مجموعه داده های آموزشی مناسب دشوار است، یادگیری عمیق برای ایجاد یک راه حل زیبا بسیار قدرتمند و سخت است. تشبیه گاو نر در فروشگاه چین در اینجا به ذهن متبادر می شود: همانطور که ChatGPT مطمئنا کارآمدترین (یا دقیق) ابزار برای محاسبات پایه نیست، CV کلاسیک همچنان بر چالش های خاص تسلط خواهد داشت.
این انتقال جزئی از CV کلاسیک به CV مبتنی بر یادگیری عمیق، ما را با دو نکته اصلی مواجه میکند. اول، باید اذعان کنیم که جایگزینی عمده کهنه با جدید، هرچند ساده تر، اشتباه است. هنگامی که یک زمینه توسط فناوریهای جدید مختل میشود، باید محتاط باشیم تا به جزئیات توجه کنیم و مورد به مورد شناسایی کنیم که کدام مشکلات از تکنیکهای جدید سود میبرند و کدامیک هنوز برای رویکردهای قدیمیتر مناسبتر هستند.
دوم، اگرچه این گذار مقیاس پذیری را باز می کند، اما عنصر تلخی وجود دارد. روشهای کلاسیک در واقع دستیتر بودند، اما این بدان معنا بود که آنها بخشهای مساوی هنر و علم بودند. خلاقیت و نوآوری مورد نیاز برای از بین بردن ویژگیها، اشیاء، لبهها و عناصر کلیدی توسط یادگیری عمیق ایجاد نشده است، بلکه توسط تفکر عمیق ایجاد شده است.
با دور شدن از تکنیک های CV کلاسیک، مهندسانی مانند من، گاهی اوقات بیشتر شبیه یکپارچه ساز ابزار CV شده اند. اگرچه این “برای صنعت خوب است”، اما غم انگیز است که عناصر هنری و خلاقانه تر نقش را کنار بگذاریم. یک چالش پیش رو این خواهد بود که سعی کنیم این هنر را به روش های دیگر ترکیب کنیم.
درک جایگزین یادگیری
در طول دهه آینده، من پیش بینی می کنم که “درک” در نهایت جایگزین “یادگیری” به عنوان تمرکز اصلی در توسعه شبکه خواهد شد. دیگر تأکید بر این نیست که شبکه چقدر میتواند یاد بگیرد، بلکه تأکید بر این است که چگونه میتواند اطلاعات را عمیقاً درک کند و چگونه میتوانیم این درک را بدون غرق شدن در دادههای بیش از حد تسهیل کنیم. هدف ما باید این باشد که شبکه را قادر کنیم با کمترین مداخله به نتایج عمیقتری برسد.
ده سال آینده مطمئناً شگفتی هایی در فضای CV خواهد داشت. شاید CV کلاسیک در نهایت منسوخ شود. شاید یادگیری عمیق نیز با تکنیکی که هنوز شنیده نشده است، از بین برود. با این حال، حداقل در حال حاضر، این ابزارها بهترین گزینه ها برای نزدیک شدن به وظایف خاص هستند و پایه و اساس پیشرفت CV را در طول دهه آینده تشکیل خواهند داد. در هر صورت، باید کاملاً سفر باشد.
بخوانید: بررسی پتانسیل 5G: درخواست مقامات مخابراتی هند برای ورودی