جدول محتوایی

بینایی کامپیوتر (computer vision) در سال‌های اخیر به سرعت تکامل یافته است و اکنون در بسیاری از بخش‌های زندگی روزمره ما نفوذ کرده است. برای یک فرد معمولی، ممکن است یک نوآوری جدید و هیجان انگیز به نظر برسد، اما اینطور نیست.

(computer vision) CV در واقع برای دهه‌ها در حال تکامل بوده است، با مطالعاتی که در دهه 1970 پایه‌های اولیه بسیاری از الگوریتم‌های مورد استفاده امروزی را تشکیل دادند. سپس، حدود 10 سال پیش، یک تکنیک جدید هنوز در حال توسعه تئوری در صحنه ظاهر شد: یادگیری عمیق، نوعی از هوش مصنوعی که از شبکه‌های عصبی برای حل مشکلات فوق‌العاده پیچیده استفاده می‌کند – اگر داده‌ها و قدرت محاسباتی برای آن دارید.

همانطور که یادگیری عمیق ادامه یافت، مشخص شد که می تواند برخی از مسائل CV را به خوبی حل کند. چالش هایی مانند تشخیص و طبقه بندی اشیا به ویژه برای درمان یادگیری عمیق آماده بودند. در این مرحله، تمایزی بین CV “کلاسیک” که بر توانایی مهندسان برای فرمول‌بندی و حل مسائل ریاضی متکی بود و CV مبتنی بر یادگیری عمیق شروع شد.

یادگیری عمیق CV کلاسیک را منسوخ نکرد. هر دو به تکامل خود ادامه دادند و روشن ساختند که چه چالش هایی به بهترین شکل از طریق داده های بزرگ حل می شوند و چه چیزهایی باید با الگوریتم های ریاضی و هندسی حل شوند.

محدودیت‌های بینایی کامپیوتری کلاسیک

یادگیری عمیق می‌تواند CV را تغییر دهد، اما این جادو تنها زمانی اتفاق می‌افتد که داده‌های آموزشی مناسب در دسترس باشد یا زمانی که محدودیت‌های منطقی یا هندسی شناسایی شده می‌توانند شبکه را قادر به اجرای مستقل فرآیند یادگیری کنند.

در گذشته، CV کلاسیک برای تشخیص اشیا، شناسایی ویژگی‌هایی مانند لبه‌ها، گوشه‌ها و بافت‌ها (استخراج ویژگی) و حتی برچسب‌گذاری هر پیکسل در یک تصویر (بخش‌بندی معنایی) استفاده می‌شد. با این حال، این فرآیندها بسیار دشوار و خسته کننده بودند.

تشخیص اشیا مستلزم مهارت در پنجره های کشویی، تطبیق الگو و جستجوی جامع بود. استخراج و طبقه‌بندی ویژگی‌ها، مهندسان را ملزم به توسعه متدولوژی‌های سفارشی می‌کرد. جداسازی طبقات مختلف اشیاء در سطح پیکسل مستلزم مقدار زیادی کار برای از بین بردن مناطق مختلف است – و مهندسان CV با تجربه همیشه قادر به تشخیص صحیح بین هر پیکسل در تصویر نبودند.

یادگیری عمیق تبدیل شیء

در مقابل، یادگیری عمیق – به‌ویژه شبکه‌های عصبی کانولوشنال (CNN) و CNN‌های مبتنی بر منطقه (R-CNN) – تشخیص اشیا را به امری عادی تبدیل کرده است، به‌ویژه زمانی که با پایگاه‌داده‌های عظیم تصویر برچسب‌گذاری شده غول‌هایی مانند گوگل و آمازون جفت شود. با یک شبکه به خوبی آموزش دیده، نیازی به قوانین صریح و دست ساز نیست و الگوریتم ها قادرند اشیاء را تحت شرایط مختلف بدون توجه به زاویه تشخیص دهند.

در استخراج ویژگی نیز، فرآیند یادگیری عمیق تنها به یک الگوریتم مناسب و داده‌های آموزشی متنوع نیاز دارد تا هم از تطبیق بیش از حد مدل جلوگیری کند و هم در هنگام ارائه داده‌های جدید پس از انتشار برای تولید، رتبه‌بندی دقت کافی را ایجاد کند. CNN ها به ویژه در این کار خوب هستند. علاوه بر این، هنگام استفاده از یادگیری عمیق در بخش‌بندی معنایی، معماری U-net عملکرد استثنایی را نشان داده است و نیاز به فرآیندهای دستی پیچیده را از بین می‌برد.

بازگشت به قدیم

در حالی که بدون شک یادگیری عمیق این حوزه را متحول کرده است، وقتی صحبت از چالش‌های خاصی می‌شود که بوسیله محلی‌سازی و نقشه‌برداری همزمان (SLAM) و ساختار از الگوریتم‌های حرکت (SFM) پرداخته می‌شود، راه‌حل‌های CV کلاسیک هنوز از رویکردهای جدیدتر بهتر عمل می‌کنند. این مفاهیم هر دو شامل استفاده از تصاویر برای درک و ترسیم ابعاد مناطق فیزیکی است.

SLAM بر ساختن و سپس به روز رسانی نقشه یک منطقه متمرکز است، همه اینها در حالی است که عامل (معمولاً نوعی ربات) و مکان آن را در نقشه پیگیری می کند. اینگونه بود که رانندگی خودکار و همچنین جاروبرقی رباتیک امکان پذیر شد.

SFM به طور مشابه بر ریاضیات و هندسه پیشرفته متکی است، اما هدف آن ایجاد یک بازسازی سه بعدی از یک شی با استفاده از نماهای متعدد است که می تواند از مجموعه ای نامرتب از تصاویر گرفته شود. زمانی مناسب است که نیازی به پاسخ های بلادرنگ و فوری نباشد.

در ابتدا تصور می شد که برای اجرای صحیح SLAM به قدرت محاسباتی عظیمی نیاز است. با این حال، با استفاده از تقریب های نزدیک، پیشینیان CV توانستند نیازهای محاسباتی را بسیار قابل کنترل تر کنند.

SFM حتی ساده‌تر است: برخلاف SLAM که معمولاً شامل ترکیب حسگر است، این روش فقط از ویژگی‌های ذاتی دوربین و ویژگی‌های تصویر استفاده می‌کند. این یک روش مقرون به صرفه در مقایسه با اسکن لیزری است که در بسیاری از شرایط به دلیل محدودیت برد و وضوح امکان پذیر نیست. نتیجه یک نمایش قابل اعتماد و دقیق از یک شی است.

آینده دیپ لرنینگ

هنوز مشکلاتی وجود دارد که یادگیری عمیق به خوبی CV کلاسیک نمی تواند آنها را حل کند و مهندسان باید به استفاده از تکنیک های سنتی برای حل آنها ادامه دهند. هنگامی که ریاضیات پیچیده و مشاهدات مستقیم درگیر هستند و به دست آوردن مجموعه داده های آموزشی مناسب دشوار است، یادگیری عمیق برای ایجاد یک راه حل زیبا بسیار قدرتمند و سخت است. تشبیه گاو نر در فروشگاه چین در اینجا به ذهن متبادر می شود: همانطور که ChatGPT مطمئنا کارآمدترین (یا دقیق) ابزار برای محاسبات پایه نیست، CV کلاسیک همچنان بر چالش های خاص تسلط خواهد داشت.

این انتقال جزئی از CV کلاسیک به CV مبتنی بر یادگیری عمیق، ما را با دو نکته اصلی مواجه می‌کند. اول، باید اذعان کنیم که جایگزینی عمده کهنه با جدید، هرچند ساده تر، اشتباه است. هنگامی که یک زمینه توسط فناوری‌های جدید مختل می‌شود، باید محتاط باشیم تا به جزئیات توجه کنیم و مورد به مورد شناسایی کنیم که کدام مشکلات از تکنیک‌های جدید سود می‌برند و کدامیک هنوز برای رویکردهای قدیمی‌تر مناسب‌تر هستند.

دوم، اگرچه این گذار مقیاس پذیری را باز می کند، اما عنصر تلخی وجود دارد. روش‌های کلاسیک در واقع دستی‌تر بودند، اما این بدان معنا بود که آنها بخش‌های مساوی هنر و علم بودند. خلاقیت و نوآوری مورد نیاز برای از بین بردن ویژگی‌ها، اشیاء، لبه‌ها و عناصر کلیدی توسط یادگیری عمیق ایجاد نشده است، بلکه توسط تفکر عمیق ایجاد شده است.

با دور شدن از تکنیک های CV کلاسیک، مهندسانی مانند من، گاهی اوقات بیشتر شبیه یکپارچه ساز ابزار CV شده اند. اگرچه این “برای صنعت خوب است”، اما غم انگیز است که عناصر هنری و خلاقانه تر نقش را کنار بگذاریم. یک چالش پیش رو این خواهد بود که سعی کنیم این هنر را به روش های دیگر ترکیب کنیم.

درک جایگزین یادگیری

در طول دهه آینده، من پیش بینی می کنم که “درک” در نهایت جایگزین “یادگیری” به عنوان تمرکز اصلی در توسعه شبکه خواهد شد. دیگر تأکید بر این نیست که شبکه چقدر می‌تواند یاد بگیرد، بلکه تأکید بر این است که چگونه می‌تواند اطلاعات را عمیقاً درک کند و چگونه می‌توانیم این درک را بدون غرق شدن در داده‌های بیش از حد تسهیل کنیم. هدف ما باید این باشد که شبکه را قادر کنیم با کمترین مداخله به نتایج عمیق‌تری برسد.

ده سال آینده مطمئناً شگفتی هایی در فضای CV خواهد داشت. شاید CV کلاسیک در نهایت منسوخ شود. شاید یادگیری عمیق نیز با تکنیکی که هنوز شنیده نشده است، از بین برود. با این حال، حداقل در حال حاضر، این ابزارها بهترین گزینه ها برای نزدیک شدن به وظایف خاص هستند و پایه و اساس پیشرفت CV را در طول دهه آینده تشکیل خواهند داد. در هر صورت، باید کاملاً سفر باشد.

بخوانید: بررسی پتانسیل 5G: درخواست مقامات مخابراتی هند برای ورودی

5رای - امتیاز 5 ممنون از امتیازی که دادید..!

دسته بندی شده در: