CBIR:Content Base Image Retrival

بازیابی تصویر محتوا محور

CBIR:Content Base Image Retrival

بازیابی تصویر محتوا محور

بررسی کتاب :یادگیری عمیق برای کاربرد در پردازش تصویر

DEEP LEARNING FOR IMAGE PROCESSING

این کتاب از مجموعه ای ا ز نویسندگان تهیه شده در واقع هر فصل از این کتاب توسط چند نویسنده نوشته شده وسپس مطالب آن جمع آوری وویرایش گردیده است.ویرایش کنندگان این کتاب :

D. Jude Hemanth از دانشگاه کارونیا هند و    Vania Vieira Estrela از دانشگاه فدرال فلومیننزه برزیل  می باشند.

این کتاب توسط انتشارات IOS Press در سال 2017 منتشر گردیده است و شامل 11 فصل می باشد .

برای دریافت کتاب اینجا را کلیک کنید.
در ادامه فصول کتاب را به طور مختصر مورد بررسی قرار می دهیم .

فصل اول :ذهن انسان ،ماشین وپردازش تصویر

نویسنده این فصل :

 

Subhash Chandra PANDEY

Computer Science & Engineering Department Birla Institute of Technology, Mesra, Ranchi             (Allahabad Campus)


پردازش تصویر (IP) و هوش مصنوعی (AI) در حوزه تحقیق در علوم شناختی و رایانه هیجان انگیز است. این فصل به پردازش تصویر می پردازدو تلاش برای نشان دادن درهم تنیدگی بین ذهن ، ماشین و پردازش تصویردارد. علاوه بر این ، جنبه های ظریف مختلف مربوط به ذهن و هوش نیز ارائه شده است. در حقیقت ، هوش به عنوان یک زیر لایه ذهن عمل می کند تا آن را درگیر آگاهی کنیم. در واقع ، ذهن از شعور متمایز است وهر دو ظریف تر از بدن هستند. این فصل همچنین مقایسه ذهن ، ماشین و هوش در پردازش تصویر توضیح می دهد. علاوه بر این ، برای تصور مسائل اصلی مربوط به جنبه های مختلف تلاش شده است مانند:

1-       هوش به معنای درگیر کردن ذهن در آگاهی است .

2-        مغز مشابه خوراک ماشین حالت سلسله مراتبی رو به جلو است و به عنوان یک بستر برای ذهن عمل می کند و دارای رابطه حیاتی با هوش است.

در حقیقت ، دو رویکرد مهم برای توسعه یک دستگاه هوشمند مصنوعی وجود دارد. اینها درک مفهومی ذهن و چارچوب محاسباتی مغزاست. این فصل تأکید دارد که عاملی که در آن هوش مصنوعی اولیه ایجاد می شود باید دارای ظرفیت تجربه تجسم یافته باشد و باید دارای اجزای حسی باشد وروابطی بین آن و جهان خارج برقرار کنید. بعلاوه ، در این فصل از نظر فلسفی برخی از سوالات شهودی را ارائه می دهد مانند:آیا میتوان ذهن از نظر ماشین توضیح داده شود؟ آیا می توان ذهن را در ماشین ها تکرار کرد؟ آیا ماشین ها همیشه می توانند هوشمند باشند؟ در حقیقت ذهن یا هوش نمی تواند با وسایل فیزیکی منعکس شود.علاوه بر این ، این فصل مقدمه دارد که به طور عمده دو رویکرد مرتبط با فلسفه ذهن  وجود دارد.


فصل دوم : شبکه های عصبی عمیق برای  طبقه بندی تصویر

نویسندگان این فصل :

1-      Vasuki. A

Department of Mechatronics Engineering, Kumaraguru College of Technology,

Coimbatore – 641 049.

2-      Govindaraju. S

Department of Electronics and Instrumentation Engineering, Kumaraguru College of

     Technology, Coimbatore – 641 049.


مقدمه : یادگیری ماشین (ML) بخشی از هوش مصنوعی (AI) است که الگوریتم های کامپیوتری را قادر به یادگیری از داده های ورودی / آموزشی می سازد.یادگیری به دو دسته با ناظر وبدون ناظر تقسیم میشود.

شبکه های عصبی (NN) نقشی اساسی در توسعه الگوریتم  یادگیری ماشین در AI دارند. شبکه های عصبی مصنوعی (ANN) سیستم های محاسباتی هستند که از شبکه های عصبی بیولوژیکی که مغز انسان و حیوان را تشکیل می دهند الهام گرفته شده است.

طبقه بندی تصویر یکی از سخت ترین وظایفی است که توسط یک شخص آموخته وبوسیله یک  الگوریتم حل می شود. الگوریتم های بسیاری در گذشته برای طبقه بندی تصویر استفاده میشد مانند:طبقه بندی فاصله حداقل ، خوشه بندی k-means ، طبقه بندی Bayes ، حداکثرطبقه بندی احتمال ، ماشین های بردار پشتیبان (SVM) ، تحلیل مو لفه های مهم (PCA) ، هسته ها و ... این الگوریتم ها بر اساس یک منطق ثابت ساخته شده اند و آنها نمی توانند یاد بگیرند. آنها یا پارامتری هستند یا غیر پارامتری.

طبقه بندی تصاویر می تواند مبتنی بر پیکسل یا مبتنی بر شی باشد. طبقه بندی مبتنی بر پیکسل ، ویژگی های هر پیکسل استخراج می شود تا برچسب آن را به یک تعلق دهد .در طبقه بندی مبتنی بر شی ، تقسیم بندی برای استخراج مناطق انجام می شود یا اشیاء موجود در تصویر و ویژگی های آنها ارزیابی می شود.کارایی الگوریتم به تعداد ویژگیهای مورد استفاده در روش بستگی دارد.

شبکه های عصبی همچنین برای طبقه بندی تصاویر توسعه یافته اند و آنها با توانایی یادگیری تلفیق شده اند. مجموعه ای از داده های آموزشی در دسترس است و روابط بین ورودی های آموزشی و خروجی های مورد نظر (یا کلاس های الگو) به شبکه تغذیه میشود. شبکه در مورد این داده های شناخته شده آموزش می بیند و تشخیص / طبقه بندی داده های جدید را یاد می گیرد. الگوریتم های یادگیری ماشین برای توسعه یافته اند تا  یادگیری الگوریتم در طول آموزش ، یادگیری اتفاق بیفتد.داده ها یا الگوها به عنوان ورودی داده میشود ، خروجی ها مشخص شده و الگوریتم یاد می گیرد تا رابطه بین ورودی و خروجی را پیدا کند.وقتی مسئله پیچیده می باشد به مانند طبقه بندی تصویر، لایه های مخفی بیشتری موردنیاز است و این شبکه عصبی راتبدیل به شبکه عصبی عمیق میکند.وجود لایه های مخفی زیادتر باعث بالارفتن دقت میشود ویادگیری تبدیل به یادگیری عمیق میشود.


در بخش دوم این فصل در مورد یادگیری عمیق در شبکه های عصبی توضیح داده شده است. الگوریتم های یادگیری ماشین منطق خاص خود را بر اساس داده های ورودی تولید می کنند. الگوریتم به خودی خود می آموزد و برای حل هر مشکلی نیازی به نوشتن کد نیست. اصولاً الگوریتم ها ی یادگیری ماشین بر اساس الگوهای موجود در داده ها طبقه بندی می شوند. داده ها می توانند متن ، صدا ، تصویر و غیره باشند.

شبکه های عصبی مناسبترین پیاده سازی برای الگوریتمهای یادگیری ماشین می باشد. شبکه های عصبی سنتی دارای یک لایه ورودی ، یک لایه خروجی و دو یا سه لایه مخفی هستند. شبکه های عصبی عمیق دارای یک لایه ورودی ، یک لایه خروجی و صدها لایه مخفی هستند.هرچه لایه مخفی بیشتر شود شبکه عصبی عمیق تر میشود. لایه ها به هم متصل هستند ، خروجی لایه قبلی ورودی برای لایه فعلی است. ورودی ها / خروجی ها وزن دار شده اند، وزن ها عملکرد شبکه را تعیین می کنند. آموزش شبکه شامل بدست آوردن وزن مناسب برای لایه های مختلف است. شبکه ها عمیق به قدرت پردازش بالاتر ، سرعت محاسبه ، پایگاه داده بزرگ و نرم افزار مناسب با پردازش موازی نیاز دارند.

Convolutional Neural Network (CNN) نوعی شبکه یادگیری عمیق است که برای طبقه بندی تصویر محبوب شده است .


عملکرد CNN :

عملکرد یک CNN معمولی در شکل زیرنشان داده شده است:


ورودی CNN یک تصویر شامل یک یا چند شی   طبقه بندی شده میباشد.تعداد مقادیر ورودی به اندازه تصویر و عمق پیکسل ها بستگی خواهد داشت(3 در مورد RGB). اینها به سادگی اعدادی هستند که باید ترجمه شوند یا به عنوان اشیا متعلق به یک طبقه خاص تشخیص داده میشوند. CNN سعی در تقلید از انسان دارد ،قشر بینایی که به مناطق خاصی از میدان بینایی در مناطق کوچک سلول ها حساسیت دارد.برخی از سلول های عصبی مغز به محتوای خاصی تصاویر حساس هستند ، به عنوان مثال ، لبه ها ، منحنی ها و غیره.

اولین لایه در CNN لایه کانولوشن است که کانولوشن فضایی یک ماسک از پیش تعریف شده با مقادیر پیکسل را انجام می دهد. این معادل عمل فیلتر کردن خطی است و خروجی کانولوشن به ماسک از پیش تعریف شده بستگی دارد.به عنوان مثال تصویر ممکن است 256*256*3 و سایز ماسک 5*5*3 در نتجه مقادیر پیکسلها باید دی مقادیر ماسک ضرب شود(عنصر به عنصر) و اینها را با همدیگر جمع کرده تا خروجی متصل را در موقعیت ماسک قرارداده شده روی تصویر بگذاریم. ماسک بر روی تصویر از چپ به راست و بالا به پایین جابجا شده و کانولوشن تکرار شده تا کل تصویر را پوشش دهد . شکلی که باید تشخیص داده شود ، مقادیر ماسک را تعیین می کند ،در نتیجه مقادیر convoled  شده بالاتر بدست آورده میشود اگر شکل در موقعیت موردنظر تصویر وجودداشته باشد.این مراحل ویژگی ها را به یک آرایه که در زیر نشان داده شده است مپ می کند.

 

هنگامی که خروجی فعال (نقشه ویژگی) لایه اول به لایه دوم وارد می شود ،لایه مخفی ،و عملیات کانولوشن تکرار می شود ، یک نقشه ویژگی دیگری که درسطح بالاتری نسبت به حالت اول است بدست می آید. این فرآیند نقشه های فعال سازی متفاوتی را برای ویژگی های مختلف در تصویر ، از جمله ویژگی های پیچیده.تولید می کند.

در انتهای شبکه یک لایه کاملاً متصل وجود دارد که ورودی خود را از لایه قبلی آن می گیرد و خروجی N بعدی ایجاد می کند.برای مسئله n  کلاسه امکان n خروجی با مقادیر احتمالی متفاوت که احتمال اینکه شی میتواند متعلق به آن کلاس باشد را نشان می دهد.CNN نیاز است توسط الگوریتم انتشار به عقب روی میلیونها تصویر آموزش داده شود تا طبقه بندی به صورت دقیق انجام گیرد.هر لایه کانولوشن بوسیله ی یک فعال ساز ReLU (Rectified Linear Unit  ) لایه ای که عملیات را غیرخطی می کند ،دنبال میشود.تابع ReLU مقادیر فعال سازی منفی را صفر می کند و مقادیر فعال سازی مثبت را حفظ می کند.

نرم افزارهای پیاده سازی شبکه عصبی عمیق :

چندین نرم افزار برای طراحی و پیاده سازی شبکه های عصبی عمیق در دسترس است. بعضی ازآنها متن باز هستند از جمله این نرم افزارها میتوان به Tensorflow ،R ، MATLAB ،Caffe ، Torch ، Microsoft Cognitive Toolkit ، Keras ، Deeplearning 4j ، MXNet ، ConvNetJS مروری بر نرم افزارهای موجود شده است.

یکی از شبکه های عصبی کانولوشن موفق Alex Net می باشد که تاکنون بیش از میلیونها تصویر را آموزش داده است.اولین بار در سال 2012 منتشر شدومیتواند اشیا مختلف را طبقه بندی کند.ZF شبکه دیگری است که توسط Zeiler  و  Fergus در سال 2013 با ایجاد تغییراتی در Alex Net بوجود آمد.VGG Net در سال 2014 توسط Karen Simonyan  و  Andrew Zissermanاز دانشگاه آکسفورد برای کم کردن نرخ خطای شبکه های عصبی کانولوشن قبلی بوجود آمد. GoogLeNetو Microsoft ResNet در سال 2015 با نرخ خطای فوق العاده کاهش یافته نسبت به شبکه های قبلی بوجود آمد.

در بخش سوم این فصل در مورد دسته بندی تصویر توضیح داده شده است.


طبقه بندی تصویر به طبقه بندی اشیا مختلف در تصاویر مانند افراد ، محصولات زراعی ، درختان ، خاک ، مواد معدنی ، اجسام آب و غیره اشاره دارد. اشیا یا مناطق مختلف در تصویر باید شناسایی و طبقه بندی شود. الگوریتم طبقه بندی دقت نتیجه را تعیین می کند. این معمولاً بر اساس یک تصویر یا مجموعه هایی از تصاویر  است. هنگامی که از مجموعه تصاویر استفاده می شود ،مجموعه شامل چندین تصویر از همان اشیا  با دیدگاه های مختلف و تحت شرایط مختلف خواهد بود. ورودی الگوریتم پیکسل های تصویر خواهد بود که عددی طبیعی می باشدو خروجی یک مقدار یا مجموعه ای از مقادیر است که کلاس را نشان می دهد. الگوریتم یک تابع نگاشت  خواهد بود که مقادیر پیکسل را به کلاس مناسب نگاشت  می کند.

چند الگوریتم طبقه بندی در اینجا مورد بررسی قرا گرفته است که عبارتند از:

·         دسته بندی با کمترین فاصله

·         دسته بندی بیز

·         شبکه های عصبی

·         ماشین بردار پشتیبان(SVM)

·         تحلیل مولفه های اصلی (PCA)

·         الگوریتم K-means

در بخش چهارم این فصل کاربردهای شبکه های عصبی کانولوشن مورد بررسی قرارگرفته اشت.

در مقاله مربوط به آقای Munawar Hayat  وهمکاران شبکه های عمیق برای طبقه بندی تصاویر مورد استفاده قرار گرفته است.اساس اصلی این کار به صورت :

1)Deep Reconstruction Models (DRMs) : بازسازی عمیق مدل هایی  که هندسه اساسی داده ها را کشف می کنند.

2) سه استراتژی رای گیری-اکثریت ، وزن دار بودن، وزن ترجیحی  - ورودی ها را از(DRMs) ها (اطلاعات خطای بازسازی) میگیرند ودر مورد کلاس مجموعه داده ها تصمیم میگیرند.

3)با استفاده از تقریب خودکارگروه Pose عملکرد طبقه بندی بیشتر بررسی میشود. تشخیص چهره از داده های Kinect به صورت مسائل دسته بندی تصویر مبتنی بر RGB-D فرموله شده است.

شبکه عصبی کانولوشن (CNN) برای وضوح فوق العاده (SR) تصویر ایجاد شده است. تصویر با وضوح بالا (HR) از تصویر  با وضوح پایین تصویر (LR) با استفاده از شبکه های عصبی کانولوشن عمیق به دست می آید.ورودی یک تصویر با وضوح LR وخروجی یک تصویر با وضوح HR می باشد. CNN مبتنی بر یادگیری عمیق و CNN پراکنده مقایسه شده است یادگیری عمیق کیفیت وسرعت بهتری دارد.

فصل سوم : کنترل بازوی روباتیک مجازی با تشخیص حرکات  دست و استراتژی ها ی یادگیری عمیق

نویسندگان این فصل :

1-      K. Martin Sagayam

2-      T. Vedha Viyas

3-      Chiung Ching Ho

4-      Lawrence E. Henesey

خلاصه ای از این فصل : از حرکات دست و راهبردهای یادگیری عمیق می توان برای کنترل بازوی روباتیک مجازی برای برنامه های زمان واقعی استفاده کرد. بازوی رباتیک که قابل حمل است برای حمل مکانهای مختلف واینکه به راحتی می توان برای انجام هر کاری برنامه ریزی کرد با استفاده ازیک دست و تکنیک های یادگیری عمیق کنترل می شود. دست عمیق ترکیبی از هر دو واقعیت مجازی و تکنیک های یادگیری عمیق می باشد. ویژگی فضایی-زمانی فعال و پارامتر ژست مربوطه برای انواع مختلف حرکات دست ، برای تعیین پارامتر ژست ناشناخته حرکات دست با استفاده از الگوریتم های مختلف یادگیری عمیق تخمین زده شده است. یک چارچوب جدید برای حرکات دست با استفاده از یک شبکه عصبی عمیق کانولوشن  (CNN) و شبکه باور عمیق (DBN) برآورد شده است. مقایسه ای از نظر دقت و نرخ تشخیص ترسیم شده است. این به تجزیه و تحلیل حرکت دست و حرکت انگشتان کمک می کند و می توان برای کنترل بازوی رباتیک با سرعت تشخیص بالا ومیزان خطای کمترایجادشود.


فصل چهارم : بازیابی تصویر هوشمند با استفاده ازتکنیک های یادگیری عمیق

نویسندگان این فصل :

1-      Rajeev Kumar Singh

2-       Suchitra Agrawal

3-      Uday Pratap Singh

4-      Sanjeev Jain

 

خلاصه : با افزایش میزان محتوای چند رسانه ای ، لازم است که پایگاه داده مربوطه به طور موثر بازیابی شود. چندین تکنیک برای اینکار معرفی شده است که با شرایط به نحو احسن برخورد کند. چنین روش هایی به عنوان روشهای بازیابی تصویر شناخته می شوند. این فصل بر بررسی مختصر مطالب مختلف سیستم های بازیابی تصویر مبتنی بر طرح می پردازد. در کنار تکنیک های موجود ، همچنین موارد دیگری را که می توان با این سیستم ها به دست آورد را پوشش می دهد.

مقدمه : با توجه به استفاده از تصاویر دیجیتالی در شبکه جهانی وب ، برای همه شناخته شده است که تعداد زیادی از مشتریان با داده های دیجیتال کار می کنند. این داده های پیشرفته می تواند به مانند تصاویر کامپیوتری باشد به طوریکه تصاویر یکی از روشهای ایده آل برای به اشتراک گذاری ، درک و حفظ داده ها می باشد. بازیابی تصویر می تواند به دو صورت باشد : بازیابی دقیق تصویر و بازیابی تصویر مربوطه . بازیابی تصویر دقیق را می توان به عنوان تصدیق تصویر و کاربردهای اصلی آن اشاره کردکه توسط محققان مختلفی پیاده سازی شده است.تحقیقات مربوط به بازیابی تصویر بر مبنای محتوا از اواخر دهه 70 شروع شد.

روشهای بازیابی تصویر قبل چندان هوشمندانه و مدرن نبودند ،تصاویر را نمی توان با توجه به اجزای بصری آن بررسی کرد واین استراتژی ها به محتوای مبتنی بر فراداده تصاویر بستگی دارد. همه عکسها در پایگاه داده ابتدا با فراداده برچسب گذاری شد و پس از آن تصاویربراساس نمایی از فراداده تصویر  مورد بررسی قرار میگیرد. تکنیک های بازیابی تصویر مبتنی بر محتوا برای کاربردهای سنتی پایگاه داده استفاده شده است.

بازیابی تصویر مبتنی بر محتوا (CBIR) با نام QBIC شناخته می شود و تکنیکی از برنامه  های بینایی ماشین  برای مشکل بازیابی تصاویر ، به این معنی که مشکل جستجوی تصاویر دیجیتال در پایگاه داده با مقادیر زیاد می باشد.

بازیابی تصویر مبتنی بر طرح (SBIR) سیستمی است که امکان نمایش درخواست کاربر توسط یک طرح کشیده شده با دست آزاد که ایده سیستم جدید است را فراهم می کند.

بازیابی تصویر مبتنی بر محتوا شامل چارچوب های زیر است:

·         بازیابی مبتنی بر رنگ: در بین سیستم های مختلف استخراج اجزا ، رنگ عنوان غالب ترین و شناخته ترین عنصر بصری در نظر گرفته می شود. بیشترزمانها از هیستوگرام برای به تصویر کشیدن عناصر رنگی یک تصویر استفاده می شود. استراتژی هیستوگرام رنگ دارای مزایای مصلحت اندیشی ، درخواست کم فضای حافظه است و به دلیل اینکه با تغییر در اندازه و وضوح تصویر ، تصویر تغییر نکرده ملاحظات گسترده ای دارد.

·         بازیابی مبتنی بر بافت: اثبات قابل تشخیص بافتهای خاص در یک تصویراساساً با در نظر گرفتن بافت به عنوان یک سطح خاکستری متنوع دو بعدی انجام می شود. بافتها با تضاد در روشنایی و فرکانسهای بالا در محدوده تصویر تصویر به تصویر کشیده می شوند. آنها در تشخیص محدوده تصاویر با مقایسه رنگ ، (به عنوان مثال ، آسمان و اقیانوس ، یا آب ، چمن)مفید هستند. اساساً ، اینها روشنایی نسبی مجموعه های انتخاب شده از پیکسلهای هر تصویر را اندازه گیری می کنند. از این رو می توان بافت تصویر را اندازه گیری کرد ، به عنوان مثال ، کنتراست ، درشتی ، جهت گیری و منظم بودن یا دوره ای بودن ،جهت گیری و تصادفی بودن .

·         بازیابی مبتنی بر شکل: با استفاده از هیستوگرام تشخیص لبه ، میتوان اطلاعات شکل را استخراج کرد. استراتژی های استخراج ویژگی های شکل توصیف کننده اساسی، توصیف کننده فوریه ، تطبیق الگو ، توصیف کننده های کوانتیزه ، تشخیص لبه canny و غیره.

2-      بازیابی تصویر مبتنی بر محتوا

اولین سیستم توسعه یافته برای بازیابی تصاویر مبتنی بر محتوا ، QBIC که توسط IBM یکی از سیستم های تجاری شناخته شده است. تکنیک های زیادی از آن زمان به بعد برای CBIR با استفاده از روشهای مختلف دیگر پیشنهاد شده است. تعداد کمی از آنها در بخشهای بعدی مورد بحث قرار گرفته است.

در این قسمت روشهای مختلفی که برای بازیابی تصاویر محتوا محور در مقاله های مختلف پیشنهاد شده است مورد بحث وبررسی قرار گرفته است .در زیر به توضیح کواهی در مورد برخی از انها پرداخته شده است.

یک چارچوب [9] جستجوی مبتنی بر عامل گسترش یافته است. این طرح پیشنهاد استفاده ازعوامل متعددی برای کاهش فضای جستجو با استفاده از یک سیستم ترکیبی را کرده است. سیستم عصبی نقش مهمی در ایجاد بردار دارای ویژگی مورد استفاده علملها برای بازیابی تصویر به صورت interleved form دارد. سیستم مسئله را به عنوان یک پرس و جو توزیع شده و با کاهش فضای جستجوتلقی کرده ؛ تصاویربطور همزمان از پایگاه داده بازیابی میشوند. منطق فازی عصبی برای تفسیر عبارات پرس و جو ارائه شده توسط کاربر استفاده می شود. پرس و جو ورودی شامل رنگهایی که از پایگاه داده تصاویر بازیابی می شوند.

بر خلاف رابطه خطی بین ویژگی های مختلف یک تصویر ، یک روش ارتقاء پویا شباهت های اجزای یک تصویر پیشنهاد شده با استفاده از عملکرد شعاعی [11] سیستم عصبی که اجازه می دهد مجموعه ای از عناصر تصویر ناهمگن برای بازیابی مناسب تر تصویراستفاده شود.

برای دستیابی به کارایی بالاتر در نتایج بازیابی ، فضای جستجو می تواند برای ویژگی های خاص افزایش دید واضح تری برای استخراج تصاویر از پایگاه داده داشته باشد[13]. این را می توان همراه با بازخورد مربوط  در جایی که سیستم می تواند از مکانیسم بازخورد کاربر یاد بگیرد پیاده سازی شود. سیستم پیاده سازی شده بر روی پایگاه داده تصاویر بیش ازK  50 آزمایش شده و نتایج نشان داد که افزایش فضای جستجوی ویژگی می تواند نتایج مرتبط تری را بازیابی کند.

در [14] تصاویر اعضای مورد علاقه از پایگاه داده بازیابی می شود. تصاویری ازاندامهای سالم و مناسب در پایگاه داده گذاشته میشود و زمانیکه معاینه روی هر یک ازتصویر ارائه شده شامل اندامهای مختلف انجام میشود،سیستم پیشنهادی به کاربر اجازه تشخیص اندامها را همانطور که در پایگاه داده نشان داده شده میدهد. سیستم های عصبی برای طبقه بندی تصویر پرس و جو استفاده می شود و سپس تصاویر توسط پایگاه داده بوسیله محاسبه فاصله بین ویژگی های آنها بازیابی میشوند.

 یک تکنیک بازخورد مرتبط [15] برای به روزرسانی پرس و جو با معیارهای جستجوبرای بهبود کارآمد عملکرد اجرا شده است.

در [16] الگوریتم multi-label graph-cut  لبه ها را بر اساس دو کلید اصلی ومهم یعنی تداوم ومجاورت گروه بندی میکند.

ترکیب پویا [17] با علاقه کاربر برای معیار جستجو همراه بااستفاده از عوامل هوشمند برای ترکیب در کنار ماتریس جستجوی موردعلاقه کاربر در دسته بازیابی آینده باعث می شود این روش هوشمندانه کار کند. سیستم نمونه اولیه ،مکان یابی تصاویر به آسانی (LIZY) که برای آزمایش طراحی شده است ، هم از پرس و جو به صورت طرح و هم از پرس و جو به عنوان مثال پشتیبانی می کند.

ویژگیهای سیستمهای عصبی خود سازماندهی [18] برای افزایش استراتژی های بازیابی تصویراستفاده می شود. سیستمهای عصبی خود سازماندهی کارنگاشت به درختهایی متفاوت با چهار سطح را تأیید کرده است.

برای بازیابی تصاویر مبتنی بر رنگ ، اندازه گیری های چند متغیره با استفاده از سیستم های عصبی در [19] ارائه شده است.

استراتژی های چند نمونه [20] برای یادگیری اولویت های کاربر طبقه بندی ها از تصویر علمی مورد توجه قرار گرفته است.                    

رویکرد دیگری برای بازیابی تصویر با استفاده از وزن مناسب [21] درانجام مقایسه بین تصاویر با بازخورد مربوطه ، با عناصر بافت تصویر ترکیب شده هنگامی که به روش بازیابی متصل می شوند ، این باعث افزایش دقت، درستی  می شود.

استفاده از درخت معنایی [22] برای فرآیند بازیابی تصویر با روشی متفاوت از استفاده از تصویر پرس و جو داده شده پیشنهاد شده است. در این مورد ، درخت معنایی بعد از هر بازیابی موفق به روزرسانی شود.

این الگوریتم بر اساس بازخورد مربوطه و انتخاب پیشنهاد شده است ،الگوریتم [23] از روش احتمال برای بازیابی تصویرپیروی میکند. الگوریتم باید وزن اختصاص داده شده به یک تصویر را به خاطر بسپارید ، که با جمع آوری نتایج مفاهیم احتمالی و تعامل د

اطلاعات مبتنی بر ورود کاربر برای حفظ اطلاعات بازیابی تصویر [24] درگزارش ورود کاربر پیشنهاد شده است. برای بهبود عملکرد بازیابی ، ترجیح داده می شود نتایج بازیابی از پایگاه داده در فایلهای log برای روند بازیابی بیشتر نگه داشته شود.

داشتن الگوریتم های زیادی برای بازیابی تصویر بر اساس بازخورد مربوطه ، تجزیه و تحلیل [25] روی این الگوریتم ها با دنبال کردن یک مدل انتزاعی برای CBIR انجام شده است. مشخص شده است که بازخورد مربوطه وقتی با اندکی اصلاح اجزای منطقی و سیستم موجود اجرا می شود منجر به بهبودعملکرد می شود.

شبکه های عصبی همراه با رویکرد بازخورد مربوط در  [26] برای آموزش سیستم برای یادگیری معانی کاربر پیاده سازی شده است. برخلاف ساختار شبکه عصبی استاتیک، شبکه عصبی پویا با کمک از تصاویر بازیابی شده در برابر پرس و جوها ساخته شده است.

تکنیک های مختلف [27] برای بازخورد ارتباط در بازیابی تصویر امتحان شده و همراه با روش وزن دهی مجدد آزمایش شده است.

 تصاویر هنری اگرچه شیوه ارائه متفاوت و سطح بالایی از معناشناسی با درک بالا دارند. یک استراتژی برای ترجمه معناشناسی سطح بالا [28] از تصاویر هنری و استفاده از آنها در بازیابی موثر تصاویر پیشنهاد شده است.

طبقه بندی تصاویر با توجه به اجزای تصویر با استفاده ازاستراتژی گروه بندی تصاویر [29] برای جستجوی در پایگاه داده پیشنهاد شده است. ایده این است که پایگاه داده را با معیارهای خاصی تقسیم بندی کنید تا فضای جستجو بتواند به حداقل برسد. از پرسپترون های چند لایه برای آموزش چارچوب و توصیف تصاویر در پایگاه داده استفاده می شود.

شکاف معنایی را نیز می توان با استفاده از تغییر پرس و جو که شامل تکنیک ترکیبی [30] همراه با بازخورد مربوطه می شود کاهش داد. برای بازیابی تصویر ، آن شامل مراحل ترکیبی همچون  استخراج ویژگی ، ترکیب و تبدیل فضای رنگ در این چارچوب است.

شبکه های عصبی نه تنها چارچوب طبقه بندی بهتری را ارائه می دهند بلکه همچنین بهبود نتایج برای سیستم های مختلف را تضمین می کنند. یکی از چنین چارچوبی به عنوان روش مدل خطای عمومی محلی [31] برای بازیابی تصویر با استفاده از قابلیت های آموزشی سیستم عصبی برای اطمینان از اینکه بیشترین شباهت ویژگی تصاویر به کاربر برا ی برچسب زدن نشان داده شده ،پیشنهاد شده است. چارچوب اجرا و آزمایش شده و نتایج نشان می دهد که سیستم پیشنهادی می تواند تصاویر را با کارایی بالایی بازیابی کند.

یک روش مبتنی بر سیستم عصبی برای کیفیت برتر بازیابی تصویر با استفاده از موجک [32] ارائه شده است. تبدیل Symlet همراه با  فاصله اقلیدسی برای مقایسه شباهت اجرا می شود. تجزیه و تحلیل بر اساس پایگاه داده استاندارد تصویر انجام میشود و نتایج تولید شده ظاهرمیشود.

طرحی برای کاهش فاصله بین معناشناسی تصویر و ویژگی های سطح پایین آن با استفاده از مدل های خطوط مکعبی [33 ، 34] بر اساس سیستم عصبی استاندارد معرفی شده است.

یک چارچوب بازیابی تصویر تطبیقی [35] با استفاده از بازخورد مربوطه پیشنهاد شده است .

انطباق با علایق کاربر از اطلاعات log [36] و کاهش زمان بازخورد مربوطه  تجزیه و تحلیل شده است.اطلاعات log میتواند بطور موثری برای فهم هدف کاربر استفاده شود و میتواند برای فرایند بازیابی تصویر استفاده شود.

رویکردی برای انجام پرس و جو مبتنی بر محتوا در پرتو جمع آوری مدل سه بعدی پایگاه های داده [37] به نمایش گذاشته شده است. این طرح از مدل سفارش 3 سطح با توجه به سیستم عصبی برای بازیابی ثمر بخش استفاده می کند.

با الهام از تکنیک های بازیابی متن ، تکنیک بازیابی تصویر با استفاده از ویژگی های بازخورد مربوط [38] پیاده سازی شده است. در این روش دو تکنیک را با هم ترکیب کرده ا ست : حرکت نقطه پرس و جو و گسترش پرس و جو. سپس ، تصاویر با استفاده از طبقه بندی کننده k نزدیکترین همسایگان ، به صورت خوشه ای طبقه بندی می شوند.

وزن دهی خودکار تصاویر برای سیستم بازیابی تصویر مبتنی بر بازخورد [39] یادگیری مشخصات وزن را تحمیل می کند.

روش دیگر یک روش دو مرحله ای [40] پیشنهاد شده است که در آن مرحله اولیه بایداستخراج ویژگی های استفاده شده از اجزای سطح پایین (رنگ ، شکل و بافت) در حالی که طبقه بندی ماشین بردار پشتیبان (SVM) به عنوان بخشی از آخرین مرحله برای کنترل موارد مثبت پرسروصدا  مورد استفاده قرار می گیرد. بنابراین ، محاسبه ماهر بازیابی تصویر در نظر است،colorgram  رنگ برای استخراج عنصر رنگ ، تبدیل موجک برای جدا کردن عناصر شکل و تبدیل موجک  گابور برای استخراج عنصر بافت ارایه شده است.

از ویژگی های مرحله پایین می توان به عنوان بخشی از CBIR به ویژه موارد متمرکز در مقیاس توصیف کننده تغییرات ویژگی متغیر [41] (SIFT)  استفاده شود.

فصل پنجم : تشخیص پیشرفته بیماری استویا با استفاده از یادگیری عمیق

نویسندگان این فصل :

1-      S.Lakshmi

2-      R.Sivakumar

خلاصه این فصل : تقریباً همه ما به دلیل طبیعت دلپذیرشیرینی  وسوسه خوردن شیرینی می شویم. هنگامی که بیش از حد مورد استفاده قرار گیرد ، بدن ما را کاملاً تحت تأثیر قرار می دهد. دیابت بیماری است که زمانیکه سطح گلوکز خون بالا باشد ،رخ میدهد. طبق مطالعه سازمان بهداشت (WHO) ، درصد شیوع افراد دیابتی در 10 سال گذشته دو برابر شده است. سبک زندگی ، محیط کار ، ماهیت کار ،عادات غذایی و ارث از  دلایل کمی برای دیابت است. دیابت منجر به انواع مختلفی از مشکلات سلامتی مانند بیماری قلبی ، سکته مغزی ، مشکلات کلیوی ، آسیب اعصاب ، چشم و مشکلات دندانی در طول زمان میشود. استویا یک جایگزین قند است که در دسترس در سراسر جهان می باشد و ثابت شده است که ایمنی بیشتری برای بیماران دیابتی ایجاد می کند. استویا حاوی پروتئین ، ویتامین و مواد معدنی است. گیاه استویا ممکن است تحت تأثیر انواع مختلفی از بیماری هایی مانند پوسیدگی ریشه ، پوسیدگی ذغال ، پژمردگی ، بیماری لکه برگ و غیره قرار گیرد. این فصل رویکرد یادگیری عمیق را برای امکان تشخیص بیماری از طریق تشخیص تصویر نشان میدهد. یک شبکه عصبی پیچیده عمیق آموزش دیده برگهای آسیب دیده را طبقه بندی میکند و به دقت بیش از 99 میرسد.

فصل ششم :تجزیه و تحلیل تصاویربیماری  سل با استفاده ازتفاضلی تکاملی افراطی یادگیری ماشین

نویسندگان این فصل :

1-      E. Priya

2-      S. Srinivasan

خلاصه این فصل :در این کار سعی شده که محدوده بیماری سل(TB) با توجه به تصاویر مثبت ومنفی لکه خلط با استفاده از روش آماری براساس سطوح خاکستری ماتریس هم سطح وقوع (GLCM) مشخص میشود. تصاویر خلط (N = 100) تحت پروتکل دستیابی استاندارد تصویر برای این کار ثبت شده است. ویژگی های آماری مبتنی بر توصیف Haralick از طریق تصاویر لکه خلط محاسبه می شود. مرتبط ترین ویژگی ها با تجزیه و تحلیل مولفه های اصلی رتبه بندی می شوند. مشاهده شده است که پنجمین مولفه اصلی بیش از 96 درصد سهم مغایرت برای ویژگی های مهم انتخاب شده را دارند. از این ویژگی ها بیشتر برای تفکیک تصاویرلکه مثبت از لکه  منفی با استفاده از بردار پشتیبان ماشین (SVM) و ماشینهای یادگیری شدید مبتنی بر تکامل دیفرانسیل(DE-E LM) استفاده میشود. نتایج نشان می دهد که عملکرد DE-ELM از نظر تخمینها ی عملکرد مانند حساسیت ، ویژگی و دقت عملکرد بهتر از SVM دارند. همچنین مشاهده میشود که ظرفیت یادگیری تعمیم DE-ELM از نظرتعداد نورونهای پنهان مورد استفاده از تعداد بردارهای حمایتی که توسط SVM استفاده شده است بهتراست.

فصل هفتم : بازیابی شی با ویژگی  Deep Convolutional عمیق

نویسندگان این فصل :

1-      Eva Mohedano

2-      Amaia Salvador

3-      Kevin McGuinness

4-      Xavier Gir´o-i-Nieto

5-      Noel E. O’Connor

6-      Ferran Marqu´es

خلاصه ای از این فصل : بازنمایی تصویر از شبکه عصبی کانولوشن (CNNs) در چندین بینایی کامپیوتری از ویژگی های دست ساز استفاده می کنند ،وظایفی مانند بازیابی تصویر بصری . این فصل خط لوله ساده ای  برای کدگذاری فعال سازی های محلی یک لایه کانولوشن از پیش آموزشCNN با استفاده ازروش تجمع معروف کیسه کلمات (BoW) و کیسه ای از ویژگی های تحول محلی (BLCF) را توصیه میکند. تطابق هر آرایه محلی از فعال سازی در یک لایه متحرک به یک کلمه بصری منجر به یک نقشه تخصیص می شود ، که یک نمایش فشرده مربوط به مناطق یک تصویر با کلمه بصری است. ما از نقشه تخصیص برای بازآرایی سریع فضایی ، یافتن محلی سازی اشیایی که برای گسترش پرس و جو استفاده می شود، استفاده میکنیم.

مقدمه : اهداف بازیابی تصویر بصری سازماندهی و ساختاربندی پایگاه داده های تصویر بر اساس محتوای بصری آنها ا

ست . گسترش دوربین های فراگیر در دهه گذشته محققان در این زمینه را بر آن داشته تا محدودیت های سیستم های جستجوی بصری را با راه حل های مقیاس پذیر و در عین حال موثر جابجا کنند.

نمایشهای مبتنی بر شبکه های عصبی کانولوشنال (CNN) نشان داد که در بسیاری از وظایف بینایی رایانه ای از پیشرفته ترین عملکرد برخوردار است. شبکه های CNN که بر روی حجم زیادی از داده های برچسب زده آموزش دیده اند ، نمایشهای سراسری تولید می کنند که به طور موثر معنا را در تصاویر ثبت می کند.

در این فصل ، با الهام از پیشرفت های توصیف کننده های مبتنی بر CNN برای برای بازیابی تصویر، با این حال هنوز بر جستجوی نمونه تمرکز می کنیم ، ما روش کدگذاری کلمات با استفاده از ویژگی های محلی از لایه های کانولوشن CNN را دوباره مرور میکنیم. این کار با  مشارکت های زیرانجام میشود:

·         ما یک بررسی جامع و پیشرفته در رویکردهایی تجزیه و تحلیل معاصربا استفاده از مدلهای CNN برای وظیفه بازیابی تصویر انجام میدهیم.

·         ما یک توصیفگر بصری پراکنده بر اساس یک کیسه ویژگی های کانولوشن  محلی  (BLCF) ، پیشنهاد می کنیم  که امکان بازیابی سریع تصویر را از طریق نمای معکوس می دهد.

·         ما نقشه تخصیص را به عنوان نمایشی جمع و جور جدید ازتصویر ، که پیکسل های تصویر و کلمات بصری مربوط به آنها را ترسیم می کند.نقشه تخصیص اجازه می دهد تا ایجاد سریع توصیف کننده BoW برای هر منطقه ازتصویرانجام شود.

·         ما از ویژگی های مقیاس پذیری نقشه تخصیص برای دستیابی به تجزیه و تحلیل محلی از مناطق مختلف تصویر برای امتیاز مجدد ،به دنبال مرحله توسعه پرس و جو با استفاده از محلی سازی شی به دست آمده استفاده میکنیم.

بقیه فصل به شرح زیر ساختار یافته است. بخش 2 شامل یک مروری گسترده بر کارهای مرتبط بخش 3 معیارهای مختلف بازیابی را ارائه می دهد. بخش 4 چارچوب پیشنهادی برای کدگذاری BoW   از ویژگی CNN  محلی را معرفی می کند. بخش 5 جزئیات سیستم بازیابی ما ، از جمله مراحل رتبه بندی مجدد محلی و مراحل توسعه پرس و جو  توضیح می دهد. بخش 6 نتایج تجربی سه معیار بازیابی تصویر (ساختمانهای آکسفورد ، ساختمانهای پاریس و یک زیر مجموعه از TRECVid INS 2013) ، و همچنین مقایسه ای با پنج رویکرد پیشرفته دیگررا ارائه میدهد. بخش 7 مهمترین نتایج را خلاصه کرده وکارهایی که در  آینده میتوان انجام داد را گفته است.

2-کارهای انجام شده:

2.1-اولین روشهای CNN برای بازیابی: چندین نویسنده دیگر ارائه های مبتنی بر CNN را برای بازیابی تصویر پیشنهاد کرده اند.اولین برنامه های کاربردی بر جایگزینی توصیف کنندگان دست ساز با ویژگی های یک CNN از قبل آموزش دیده برای طبقه بندی تصویرمتمرکز بود. فعال سازی ازآخرین لایه های کاملاً متصل از شبکه Alexnet که توسط Krizhevsky پیشنهاد شده است اولین نمونه هایی بودند که به عنوان یک تصویر عمومی با پتانسیل برنامه های کاربردی برای بازیابی تصویر [19،20،21] مورد استفاده قرار گرفتند. تصاویر مشابه بردارهای فعال سازی مشابهی را در فضای اقلیدسی ایجاد می کنند. این یافته باعث ایجاد انگیزه برای کارهای اولیه در مطالعه قابلیت مدل های CNN برای بازیابی ، بیشترین تمرکز بر تجزیه و تحلیل لایه های کاملاً متصل شده استخراج شده از مدل طبقه بندی CNN از پیش آموزش دیده الکس نت [2،3،22] میباشد . در این زمینه ، بابنکو و همکارانش. [2] نشان دادند که چگونه چنین ویژگی هایی می توانند به عملکرد مشابه با ویژگی های دست ساز رمزگذاری شده با بردارهای فیشر برای بازیابی تصویربرسند. رضویان و همکاران [3] بعداً از پیشرفته ترین نوع خود پیشی گرفت ارائه CNN برای بازیابی با استفاده از چند تکه فرعی تصویر به عنوان ورودی به یک  CNN از قبل آموزش دیده برای استخراج ویژگی ها در مکان های مختلف تصویر. به طور مشابه ، لیو و همکاران [23] از ویژگی های لایه های کاملاً متصل باارزش در قسمتهایی از زیر تصویر برای رمزگذاری تصاویر با استفاده از کیسه کلمات استفاده شده است.

2.2- ویژگیهای کانولوشن برای بازیابی

در حالی که توصیف کننده از لایه های کاملاً متصل به هم از  CNN از پیش آموزش دیده در ImageNet است ،دستیابی به عملکرد رقابتی ، ویژگی های محلی اشیاء در سطح نمونه در آن لایه ها به خوبی حفظ نشده اند ، زیرا اطلاعات بایاس شده ،آخرین کار طبقه بندی (بیش از حد معنایی) و اطلاعات مکانی به طور کامل از دست رفته (هر نورون در یک لایه کاملاً متصل به همه نورونهای لایه قبلی)

نسل دوم آثار افزایش چشمگیری در عملکرد داشته اند ،زمانی که  تغییر از لایه های کاملاً متصل به convolution انجام میشود ، گزارش کردند. رضویان و همکاران [4] انجام شد حداکثر جمع آوری فضایی بر روی نقشه های ویژگی لایه convolution ، CNN از پیش آموزش دیده تا توصیف کننده ای با همان اابعاد براساس تعداد  فیلترها تولید کند.

3-یادگیری end-to -end

یادگیری عمیق به عنوان مکانیزمی برای موفقیت یاددادن  معنایی مفید نمایش داده ها به اثبات رسیده است.

4-بازیابی تصویر

این بخش خط لوله بازیابی تصویر را توصیف می کند که از یک مرحله رتبه بندی ، و پس از آن مرتب سازی فضایی و گسترش پرس و جو تشکیل شده است.

a ) جستجوی اولیه: رتبه بندی اولیه با استفاده از شباهت کسینوس بین بردار BoW تصویر پرس و جو و بردارهای BoW تصاویر کامل در پایگاه داده محاسبه می شود. ما از ماتریس پراکنده مبتنی بر شاخص معکوس و GPU مبتنی بر ضرب ماتریس پراکنده برای بازیابی سریعتر استفاده می کنیم. سپس لیست تصاویر بر اساس شباهت کسینوس عناصر آن با پرس و جو مرتب می شود. ما از دو نوع جستجوی تصویر بر اساس اطلاعات پرس و جو که استفاده می شود:

·         جستجوی سراسری (GS): بردار BoW پرس و جو با کلمات بصری با همه ویژگی های محلی CNN در لایه کانولوشن استخراج شده برای تصویر پرس و جو ساخته می شود.

·         جستجوی محلی (LS): بردار BoW پرس و جو فقط شامل کلمات ویژگی های محلی CNN که در کادر محدوده پرس و جو قرار می گیرند.

b) رتبه بندی مجدد محلی (R): پس از جستجوی اولیه ، تصاویر T بالا در رتبه بندی به صورت محلی تجزیه و تحلیل شده و بر اساس نمره محلی سازی مجدد رتبه بندی می شود. ما پنجره هایی با تمام ترکیبات عرضی w به طوریکه wϵ{W,W/2,W/4} و ارتفاع h به طوریکه Hϵ{H,H/2,H/4} را انتخاب میکنیم،جاییکه w  ,h  به ترتیب عرض وارتفاع نگاشت تخصیص یافته می باشد.

علاوه بر این ، ما یک استراتژی ساده فیلتر برای دور انداختن آن پنجره ها یی که ا که نسبت ابعاد آن به نسبت پرس و جو بسیار متفاوت است انجام می دهیم.اجازه دهید نسبت کادر محدوده پرس وجو ARq=Wq/Hq ونسبت پنجره ARw=Ww/Hw باشد.رتبه پنجره W براساس scor ew=min(ARw,ARo)/max(ARw,ARq) محاسبه میشود.تمام پنجره ها با امتیاز پایین تر از تراشولد th دور انداخته میشود. برای هر یک از پنجره های باقی مانده ، نمایش بردار BoW را ایجاد می کنیم و با استفاده از شباهت کسینوس آن را با نمایش پرس و جو مقایسه کنید. پنجره با بیشترین شباهت کسینوس به عنوان امتیاز جدید برای تصویر در نظر گرفته می شود.(حداکثر جمع آوری امتیاز)

ما همچنین نمای پنجره BoW را با تطبیق هرم فضایی تقویت می کنیم در [66] با L = 2 سطوح وضوح (یعنی یک پنجره کامل و 4 ناحیه فرعی آن). ما نمایش  BoW از تمام مناطق فرعی را در 2 سطح و وزن ایجاد می کنیم سهم آنها در نمره شباهت با نسبت معکوس به وضوح سطح منطقه. شباهت کسینوس یک ناحیه فرعی r با ناحیه پرس وجو مرتبط است بنابراین وزن از رابطه Wr=1/2(L-lr)  بدست می آید طوریکه lr سطح وضوح منطقه r می باشد.

با این روش ،T عنصر به صورت مرتب براساس شباهت کسینوس منطقه پرس وجو رتبه بندی میشوند همچنین منطقه ای با بالاترین رتبه بعنوان یک محله ناهموار از اشیا تولید میکند.

c ) گسترش پرس وجو : ما بر اساس دو استراتژی توسعه پرس و جو بررسی می کنیم توصیف کننده های جهانی و محلی BoW

·         گسترش پرس و جو جهانی (GQE): بردارهای BoW از تصاویر N با رتبه بالاتر از میانگین BOW  پرس وجو یک نمایش جدید برای پرس وجو تشکیل میدهد. GQE را می توان قبل یا بعد از رتبه بندی مجدد محلی اعمال کرد.

·         گسترش پرس و جو محلی (LQE): محلهای به دست آمده  در رتبه بندی  مجدد محلی برای مخفی کردن پس زمینه وایجاد توصیف کننده BOW در ناحیه مورد علاقه تصاویر N در بالای رتبه بندی استفاده میشود. این بردارهای  BoW همراه با BoW محدوده پرس و جو میانگین گرفته میشود.بردار BoW حاصله برای انجام جستجوی دوم استفاده می شود.

در بخش 6 این فصل از مجموعه داده هایی همجون :

·         Oxford Buildings : شامل 5،063 تصویر ثابت ، از جمله 55 تصویر پرس و جو از 11 ساختمان مختلف در آکسفورد میباشد. یک مجموعه اضافی از 100000 تصویر حواس پرتی نیز وجود دارد برای مجموعه داده موجود است.

·         Paris Buildings: شامل 6412 تصویر ثابت جمع آوری شده از Flickr از جمله جستجوی تصاویر از 12 مکان دیدنی مختلف پاریس با حاشیه نویسی های مربوطه. مجموعه ای از 100000 تصویر به مجموعه داده اصلی (Paris 6k) به اضافه می شود و نسخه توسعه یافته آن را تشکیل میدهد (Paris 106k).

·         TRECVid Instance Search 2013: شامل 244 فایل ویدئویی (464 ساعت در مجموع) ، هر کدام شامل یک هفته برنامه BBC EastEnders است. هر ویدئو در عکس های مختلف با مدت کوتاه (بین 5 ثانیه تا 2 دقیقه) تقسیم می شود.

در ادامه این بخش در مورد آزمایشات انجام گرفته ونتایج مربوطه بحث شده است.

فصل هشتم : تشخیص شی سلسله مراتبی با یادگیری تقویت عمیق

نویسندگان این فصل :

1-      Miam Bellver Bueno

2-      Xavier Giro-i-Nietob

3-      Ferran Marques

4-      Jordi Torres

خلاصه ای از مطالب این فصل : این کار مدلی را برای تشخیص شی سلسله مراتبی با یادگیری تقویت عمیق (HOD-DRL) معرفی میکند. ایده اصلی تمرکزدر قسمتهایی از تصویر که حاوی اطلاعات غنی تر و بزرگنمایی روی آنها است. یک عامل هوشمند تربیت کنید که با توجه به یک پنجره تصویر ، قادر باشد  برای تمرکز بر روی پنج نقطه از پیش تعیین شده متفاوت نامزدهای منطقه (پنجره های کوچکتر) تصمیم گیری کند. این روش با تجزیه و تحلیل سلسله مراتبی تصویرارائه تکرار می شود. ما دو نامزد مختلف را استراتژی های پیشنهادی برای هدایت جستجوی شی را با هم مقایسه می کنیم  با و یا بدون همپوشانی. علاوه بر این ، کار ما دو استراتژی متفاوت را برای استخراج ویژگی ها از یک شبکه عصبی convolutional برای هر منطقه پیشنهادی مقایسه می کند:اول اینکه  نقشه های ویژگی جدید را برای هر پیشنهاد منطقه محاسبه می کند ، و دوم اینکه نقشه های ویژگی را برای کل تصویر محاسبه می کند تا بعدا محصولات برای هر منطقه پیشنهادی را تولید کند. آزمایشات نتایج بهتری برای استراتژی پیشنهادی کاندید همپوشانی واز دست دادن عملکرد برای ویژگی های تصویر بریده شده به دلیل از دست دادن وضوح فضایی را نشان می دهد.

فصل 9 : داده های بزرگ و داده های عمیق چالش های ذهن

نویسندگان این فصل :

1-      DR. MADHULIKA BHATIA

2-      DR. MAMTA MITTAL

3-      MADHURIMA

خلاصه ای از این فصل : در حال حاضر داده های بزرگ یک موضوع مهم روز در شرکت ها و همچنین در دانشگاهیان است . ریشه داده های بزرگ ، توانایی مطالعه و تجزیه و تحلیل بخش های بزرگ از اطلاعات برای جستجوی الگوها و یافتن روندها می باشد. ریشه داده های بزرگ تجزیه و تحلیل است ، پس از اعمال تجزیه و تحلیل در بسیاری از موارد به مواردی دست پیدا میکنیم که قبلا کشف نشده بود. داده بزرگ به سادگی داده های موجود را گرفته و به گونه ای متفاوت نگاه می کند. از طرف دیگر داده های عمیق داده ها را با کارشناسان صنعت به صورت روزانه جمع آوری وردیف میکند. نقش اصلی داده های عمیق ، تقسیم بخش های عظیم مقدار داده درواحدهای Exabyte یا perabytes  و اطلاعات تکراری یا اطلاعاتی که کمتر استفاده میشود  را حذف می کند. اما چالش های زیادی در تغییر سناریوی فعلی از داده های بزرگ به داده های عمیق وجود دارد. ما روشهخای  یادگیری ماشین زیادی داریم که می تواند روی داده های بزرگ اعمال می شود. یادگیری عمیق یکی از روشهای یادگیری ماشین است. اما چالش های زیادی وجود دارد که باید برطرف شود. هدف بحث بررسی چالش های مختلف در تجزیه و تحلیل داده های بزرگ و همچنین داده های عمیق با استفاده از یادگیری عمیق .

فصل 10: شبکه های عصبی کانولوشن فیلتر شده اسپارس با لایه پرش (SFCNNLS) برای تغییرات درون کلاس تشخیص نوع خودرو

نویسندگان :

1-      Suryanti AWANG

2-      Nik Mohamad Aizuddin NIK AZMI

خلاصه فصل : تشخیص نوع خودرو به یک برنامه مهم در سیستم های حمل و نقل هوشمند (ITS) برای ارائه یک جاده ایمن و کارآمد وزیرساخت های حمل و نقل تبدیل شده است. در اجرای این امر چالش هایی از جمله پیچیدگی تصویر که عملکرد دقت را منحرف می کند، و نحوه تمایز تنوع درون کلاس خودرو ، به عنوان مثال ، تاکسی و ماشین وجوددارد. در این مقاله ، ما پیشنهاد می کنیم از یک چارچوب یادگیری عمیق که شامل یک شبکه عصبی کانولوشن با استراتژی پرش (SF-CNNLS) برای تشخیص نوع خودرو استفاده کنیم. ما فیلترپراکنده 64 را از بین  فیلترینگ پراکنده برای استخراج ویژگی های متمایز خودرو و 2 لایه مخفی CNNLS برای فرآیندهای بیشتر استفاده کردیم. SF-CNNLS می تواند انواع مختلف وسایل نقلیه را به دلیل مزایای ترکیبی هر روش تشخیص دهد. ما SF-CNNLS را با استفاده از کلاس های مختلف خودرو یعنی ماشین ، تاکسی و کامیون ارزیابی کرده ایم. اجرای ارزیابی در طول  روز با شرایط آب و هوایی متفاوت و نمای جلویی خودروانجام میگیرد. با این ارزیابی ، ما می توانیم کلاسها را تقریباً با 91 درصد با دقت متوسط تشخیص دهیم و با موفقیت تاکسی را به عنوان یک کلاس متفاوت از خودرو تشخیص دهیم.

فصل 11: درباره چشم اندازهای استفاده از یادگیری عمیق برای کاربردهای آن در نظارت و امنیت

نویسندگان این فصل :

1-      Shuo Liu

2-      Vijay John

3-      Zheng Liu

خلاصه فصل : شبکه های عصبی کانولوشن به موفقیتهای بزرگی در بینایی ماشین دست یافته اند، بهبود چشمگیر وضعیت هنر در طبقه بندی تصویر ، قطعه بندی معنایی ، تشخیص شی و تشخیص چهره. در این فصل ، ما پیشرفت شبکه عصبی کانولوشنال (CNN) در کاربرد  نظارت و امنیت با استفاده از دو مثال توضیح می دهیم. برای کاربرد نظارت ، یک آشکارساز شی نظامی جدید به نام Deep Fusion Detector پیشنهاد شده که تکنیک های ادغام اطلاعات و CNN را شامل میشود. مخصوصا ، ما تصاویر چند کاناله را درون CNN برای افزایش اهمیت ویژگی های عمیق ادغام کردیم، ووفق داده شده یک  آشکارساز شیء عمومی برای سناریوی نظامی. برای کاربردهای امنیتی ، با الهام از پیشرفت های اخیر در جامعه یادگیری عمیق ، ما یک سیستم تشخیص چهره موثر به نام Deep Residual Face ارائه دادیم. جایی که از معماری Inception-ResNet CNN برای استخراج ویژگی های عمیق و تابع loss مرکزی برای آموزش شبکه تأیید چهره استفاده شد. این آزمایشات گسترده ، اثربخشی روشهای ارائه شده را نشان داد.

همانطور که در خلاصه این فصل گفته شد در این فصل دو مورد خاص از کاربردهای شبکه های عصی عمیق مورد بحث وبررسی قرار گرفته است.

فصل 12 : رزولوشن فوق العاده از تصاویر زنبق کرفته شده با استفاده از کانولوشن عمیق

نویسندگان این فصل :

1-      Anand DESHPANDE

2-      Prashant P. PATAVARDHAN

خلاصه فصل : این فصل رزولوشن فوق العاده مبتنی بر شبکه عصبی کانولوشنال عمیق ،چارچوبی برای حل و فصل فوق العاده و تشخیص دنباله های تصویرگرفته شده زنبق پیشنهاد میکند. چارچوب پیشنهادی بر روی پایگاه داده زنبق  CASIA V4 با تجزیه و تحلیل  نسبت سیگنال اوج به نویز (PSNR) ، شباهت ساختاری ماتریس ایندکس (SSIM) و درستی  اطلاعات بصری در حوزه پیکسل (VIFP) از الگوریتم های موقعیت هنری آزمایش شده است. عملکرد چارچوب پیشنهادی برای فاکتورهای 2 و4 مورد تجزیه و تحلیل قرارگرفت و PSNR های 37.42 دسی بل و 34.74 دسی بل به ترتیب  به دست آمد. با استفاده از این چارچوب ، ما به یک درصد خطای برابر (EER) 0.14 درصد دست یافته ایم.

 

 

 

 

 

 

 

 



نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد