آکادمی داده کاوی

فیلم چگونه کامپیوترها میبینند؟

[jwp-video n=”1″]

متن سخنرانی چگونه کامپیوترها میبینند؟

 

۱۰ سال قبل محققان بینایی ماشین فکر کردند که گفتن فرق بین گربه و سگ به کامپیوتر تقریبا غیرممکن خواهد بود، حتی با پیشرفت‌های قابل توجه در هوش مصنوعی. حالا ما می‌توانیم این را با دقت بیشتر از ۹۹ درصد انجام بدیم این را دسته بندی تصویر می‌گویند– یک تصویر بهش بده و یک برچسب به تصویر بزن– و کامپیوترها هزاران دسته بندی دیگر را نیز به خوبی می‌دانند.

00:38
من دانشجوی ارشد از دانشگاه واشنگتن هستم و مشغول کار روی پروژه‌ دارک‌نت (شبکه سیاه) که در چارچوب شبکه عصبی است برای آموزش دادن و تست کردن مدلهای بینایی کامیپوتر. خب بیاید به چگونگی فکر کردن دارک‌نت به این تصاویری که داریم، نگاه کنیم. وقتی طبقه بندیمان را روی این تصاویر اجرا می‌کنیم. می‌بینیم که فقط پیش‌بینی سگ یا گربه بودن نیست. در واقع نژاد پیش‌بینی‌ها را نیز می‌گوییم.این سطح جزئیاتی است که الان داریم و صحیح است. سگ من در حقیقت مالاموت است.

01:09
خب گام‌های حیرت آوری در دسته بندی تصاویر ساخته‌ایم، اما چه اتفاقی میفتد وقتی طبقه‌بندمان را روی تصویری مثل این اجرا می‌کنیم؟خب… می‌بینیم که طبقه‌بند با یک پیش‌بینی خیلی مشابه باز میگردد. و درسته، یک مالاموت در تصویر وجود دارد، اما فقط یک برچسب داده شده، در واقع خیلی درباره اینکه در تصویر چه رخ داده نمیدانیم. به چیزی قویتری نیاز داریم. من روی یک مسئله کار می‌کنم که یافتن اشیا نامیده می‌شود، وقتی به تصویری نگاه می کنیم و سعی در یافتن تمام اشیا داریم، آنها را داخل مستطیلهای نمایش گذاشته و می‌گوییم که این اشیا چه هستند. خب، این چیزی است که وقتی یابنده را اجرا کنیم اتفاق میافتد.

01:53
حالا، با این نتایج، میتوانیم کمی بیشتربا الگوریتم بینای کامپیوترمان کار کنیم. میبینیم همانطور که می‌دانید یک گربه و یک سگ وجود دارد. و محلهای نسبی و اندازه آنها را می‌داند. حتی شاید کمی اطلاعات اضافی نیز بدانیم. در پس زمینه هم یک کتاب قرار دارد. و اگر شما بخواید یک سیستم در صدر بینایی کامپیوتر بسازید، مثل یک خودروی خودران یا یک سیستم رباتیکی، این نوع اطلاعاتی است که می‌خواهید. چیزی می‌خواهید که بین شما و دنیای فیزیکی تعامل کند. حالا وقتی من یافتن اشیا را شروع کردم. ۲۰ ثانیه طول کشید تا تصویر را پردازش کند. و برای اینکه حس کنید چرا سرعت در این حوزه خیلی مهم است، اینجا یک مثال از یافتن اشیا داریم که ۲ ثانیه طول می‌کشد تا تصویری را پردازش کند. خب این ۱۰ برابر سریعتر از یابنده ۲۰ ثانیه بر تصویر است. و شما این پیش‌بینی‌ها را می‌توانید همزمان ببینید، کل جهان تغییر کرده است، و این برای یک برنامه خیلی مفید نخواهد بود.

02:53
اگر این را با یک فاکتور دیگر ۱۰ برابر سریعتر کنیم این یابنده با ۵ فریم بر ثانیه اجرا خواهد شد. این بسیار بهتر است، اما برای مثال، اگر هر حرکت قابل توجهی وجود داشته باشد، نمی‌خواهم که سیستمی شبیه این، ماشینم را براند.

03:09
این سیستم یابنده ماست که در زمان حقیقی روی لپ تاپ‌م اجرا می‌شود. خب به آرامی من را دنبال می‌کند بطوریکه من دور فریم حرکت می‌کنم، و این شیوه مواجه با انواع تغییرات در اندازه ژست، رو به جلو،رو به پشت است. این عالیه. این چیزیست که واقعا نیاز داریم اگر بخواهیم سیستمی را در صدر بینایی کامپیوترها بسازیم.

03:31
(تشویق)

03:36
خب، ظرف فقط چند سال، ما از ۲۰ ثانیه درتصویر به ۲۰ میلی ثانیه بر تصویر رفتیم، هزار بار سریعتر. چطور به اینجا رسیدیم؟ خب، در گذشته، سیستم‌های یافتن اشیا تصویری شبیه این می‌گرفتند و آن را به بسیاری از مناطق تقسیم می‌کردند و سپس برای هر یک از این مناطق یک دسته بند را اجرا می‌کردند و بالاترین امتیاز برای این دسته بندیها به عنوان تصویر یافته شده در نظر گرفته میشد. اما این هزاران بار اجرا کردن یک دسته بند روی یک تصویر را شامل می‌شد، هزاران شبکه عصبی ارزیابی می‌کردند تا “یافتن” را تولید کنند. درعوض، ما یک تک شبکه را آموزش دادیم تا کل یافتنها را برای ما انجام دهد. همه باندهای محدود را تولید و همه احتمالات را با هم کلاس بندی می‌کند. با یک سیستم، به جای نگاه کردن به یک تصویر برای هزاران بار برای تولید یافتن شما فقط یک بار نگاه می‌کنید، و به همین دلیل ما آن را متد YOLO برای یافتن اشیا نامیدیم. خب، با این سرعت ما فقط به یک تصویر محدود نیستیم: همچنین می‌توانیم ویدیو را نیز همزمان پردازش کنیم. و حالا، به جای نگاه کردن به گربه و سگ می‌توانیم حرکت و تعامل آنها با یکدیگر را نیز ببینیم.

04:46
این یابنده‌ای است که ما در ۸۰ کلاس مختلف دردر دیتاست coco مایکروسافت آموزش دادیم. انواع اشیاء مثل قاشق، چنگال، کاسه را دارداشیا معمولی مانند این. تنوع عجیب و غریبی از اشیا را دارد: حیوانات، ماشین ها، گورخرها، زرافه‌ها. و حالا میخواهیم یک کار مفرح انجام دهیم. فقط میخواهیم بیایم بیرون در بین مخاطبان و ببینیم چه چیزهایی را می‌توانیم بیابیم. آیا کسی یک حیوان پر شده می‌خواهد؟ تعدادی خرس عروسکی اینجا هست. و ما میتوانیم آستانه خود در یافتن را کمی کاهش دهیم، خب می‌توانیم شما آقایان را در بین مخاطبین پیدا کنیم. ببینیم آیا میتوان این علامتهای ایست را یافت. ما تعدادی کوله پشتی یافتیم بیاید فقط کمی زوم کنیم. و این عالیه. و تمام این اتفاقات در زمان واقعی اتفاق میافتد. روی لپ تاپ.

05:49
و مهم است به خاطر داشته باشید که این یک سیستم یابنده اشیا همه منظوره است، خب ما میتوانیم این را برای هر حوزه تصویری آموزش دهیم. همان کدی است که ما استفاده کردیم تا علامت ایست یا عابرپیاده، دوچرخه در یک خودروی خودران را پیدا کنیم، میتواند برای یافتن سلولهای سرطانی دریک نمونه برداری بافت استفاده شود. و محققانی در سراسر جهان وجود دارند همچنین این سیستم را برای چیزهای پیشرفته مانند دارو روباتیک استفاده می‌کنند. امروز صبح، مقاله‌ای خواندم. جایی یک صحبتی بود از سرشماری حیوانات پارک ملی نایروبیبا سیستم YOLO به عنوانی بخشی از این سیستم یابنده. و این به خاطر این است که دارکنت منبع آزاد است ودر حوزه عمومی برای استفاده همگان آزاد است.

06:37
(تشویق)

06:43
اما می‌خواهیم یافتن را حتی در دسترس‌تر و قابل استفاده‌تر کنیم بنابراین ازطریق ترکیب مدلهای بهینه شبکه تقسیم بندی شده و تقریبی ما در واقع در حال اجرای یافتن اشیا روی گوشی هستیم.

07:04
(تشویق)

07:10
و من خیلی هیجان زده هستم زیرا حالا یک راه حل خیلی قدرتمند برای این مسئله سطح پایین بینایی کامپیوتر داریم. و هرکسی می‌تواند این را بردارد و یک چیزی با آن بسازد. خب حالا دیگر بقیه آن به شما و مردم جهان با دسترسی به این نرم افزار بستگی دارد. و من نمی‌توانم صبر کنم ببینم مردم با این تکنولوژی چه خواهند ساخت.  انجام پروژه هوش مصنوعی

07:32
متشکرم.

07:33
(تشویق)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه این مقاله