CBIR:Content Base Image Retrival

بازیابی تصویر محتوا محور

CBIR:Content Base Image Retrival

بازیابی تصویر محتوا محور

بررسی کتاب استخراج ویژگی وپردازش تصویر برای بینایی ماشین

 

Feature Extraction and

Image Processing for

Computer Vision

این کتاب توسط Mark S. Nixon الکترونیک و علوم کامپیوتر ، دانشگاه ساوتهمپتون و Alberto S. Aguado متخصص استخراج ویژگی وپردازش تصویر می باشد.

نسخه اولیه این کتاب در سال 2002 نوشته شده و نسخه دوم آن در سال 2008 به بازار عرضه شده و نسخه سوم آن در سال 2013 به بازار عرضه شده است .این کتاب نسخه چهارم می باشد که در سال 2020 و توسط ACADEMIC PRESS که از زیرمجموعه های  ELSEVIER می باشد ، عرضه شده است .

یک تغییر بزرگی که در این ویرایش بوجود آمده استفاده اززبان  مطلب به زبان پایتون حرکت کرده است .در حالی که ویرایش چهارم این کتاب در حال نوشتن بود انقلاب کاملی در پردازش تصویر وبینایی ماشین در جریان بودو آن هم ظهور یادگیری عمیق ، به همین دلیل یک فصل در همین رابطه به کتاب اضافه شده است.به طور کلی این کتاب در 12 فصل تنظیم شده است ، که به صورت مختصر به بررسی فصلهای این کتاب می پردازم.

در هر فصل از این کتاب مجموعه ای از اطلاعات خاص در مورد استخراج ویژگی ها در پردازش تصویر و بینایی ماشین ارائه شده است. بیشترین تکنیک های اصلی توصیف شده و پیاده سازی هایی از آنها نیز ارائه شده که از آنها برای پردازش تصاویر انتخاب شده استفاده شده است. به طور کلی تمرکز کار در این کتاب بیشتر در مورد تحلیل تصاویر پزشکی یا بیومتریک بوده است (علم شناخت افراد با ویژگی های رفتاری یا فیزیولوژیکی مانند تشخیص چهره و ... )

به اعتقاد نویسندگان این کتاب به روزترین کتاب در رابطه با استخراج ویژگی ها و پردازش تصویر در بینایی ماشین می باشد.

برای دانلود این کتاب اینجا را کلیک کنید. 

 

فصل اول :مقدمه

این فصل بیشتر پیش نیازهای استخراج ویژگی ، پردازش تصویر و بینایی ماشین را پوشش داده است.ما باید بدانیم که چگونه باید ببینیم ، کجا میتونیم اطلاعات را پیداکنیم وچظور داده را پردازش کنیم. مهمتر از همه ، ما به یک تصویر یا به بعضی از اشکال داده های فضایی نیاز داریم. این ها باید در کامپیوترذخیره شود و توسط تکنیک های جدید ما پردازش شود. از آنجا که تصاویر شامل نقاط داده ذخیره شده در کامپیوتراست ، از این داده ها نمونه برداری می شود یا از هم گسسته میشود.در اینجا ما تصاویر را به عنوان آرایه های مسطح از نقاط در نظر خواهیم گرفت. ما باید برخی از محدودیت های فرآیند نمونه گیری و اینکه چگونه تصویر شکل می گیرد را بدانیم .

فصل دوم : تصاویر ، نمونه برداری و پردازش در حوزه فرکانس

در این فصل ما به تئوری اصلی تشکیل وپردازش تصویر می پردازیم. اینکه تصویر کامپیوتری چگونه تعریف میشود و آنچه که یک تصویر را تشکیل می دهد شروع کرده و سپس به عواقب ناشی از داشتن تعداد نقاط مختلف در تصویرنگاهی می اندازیم. همچنین در مورد تصاویر خاکستری ،رنگی ،وضوح تصویر توضیحاتی می دهیم .ما همچنین نگاه خواهیم کرد به نمایش متفاوت تصاویر ،که به نام حوزه فرکانس شناخته می شود. ما یک تصویر را به عنوان مجموعه ای از اجزای فرکانس می دانیم. ما میتوانیم به طور واقعی  بر روی تصاویر در حوزه فرکانس عمل کنیم  و ما همچنین باید فرآیندهای دگرگونی متفاوت را در نظر بگیریم. در این قسمت انواع تبدیلات منجمله تبدیل فوریه پیوسته و گسسته و خصوصیات آنها ، تبدیل کسینوسی گسسته ، تبدیل موجک ، معیارهای نمونه برداری ،عکس تبدیل فوریه وفیلترینگ  به طور کامل بحث وبررسی شده است .اینها بینش های متفاوتی را در مورد تصاویر و پردازش تصویر به ما می دهند.

فصل سوم : پردازش تصویر

اکنون پردازش تصاویر دیجیتالی را آغاز می کنیم. ابتدا تغییر روشنایی در تصویر با استفاده از هیستوگرام (نمایش تنوع در محتوای روشنایی تصویربه عنوان نمودار/هیستوگرام )آن را شرح می دهیم. سپس ما به عملیاتی که تصویر را طوری تغییر دهد که هیستوگرام تغییر می کند که شامل عملیاتی همچون( intensity mapping ، جمع ، وارونگی ،مقیاس بندی ،لگاریتم ، توان رساندن ، equalisation histogram ، آستانه گذاری وبهبود آستانه گذاری )و در فرآیندهایی که مقیاس و نتیجه را شیفت میدهد  (روشن تر یا کم نورتر شدن تصویر ، به روش های مختلف). ما همچنین باید تکنیک های آستانه گذاری را در نظر بگیریم که یک تصویر را از سطح خاکستری به باینری تبدیل می کند. اینهاعملیات تک نقطه ای نامیده می شوند. پس از آن ، ما به عملیات گروهی که در آن گروه  نقاطی است که در داخل یک الگو یافت می شود حرکت خواهیم کرد. برخی از رایج ترین عملیات درگروه های نقاط آماری هستند ، تصاویری را تهیه میکنند که در آن هر نقطه نتیجه ، می گویند ، میانگین همسایگی هر نقطه در تصویر اصلی است. باید ببینیم چگونه عملیات آماری می تواند نویز را در تصویر کاهش دهد ، که برای تکنیک های استخراج ویژگی مفید است ،بعداً مورد توجه قرار می گیرد. به این ترتیب ، این عملیات اساسی معمولاً برای پیش پردازش برای استخراج ویژگی های بعدی یا بهبود کیفیت صفحه نمایش انجام می شود.

فصل چهارم : استخراج ویژگی سطح پایین (از جمله تشخیص لبه)

ما باید ویژگی های سطح پایین آن دسته از ویژگی های اساسی که به طور خودکار قابل استخراج از یک تصویر بدون هیچ گونه اطلاعات شکل (اطلاعات مربوط به ارتباطات مکانی)تعریف می کنیم . به این ترتیب ، آستانه در واقع نوعی استخراج ویژگی سطح پایین است به عنوان یک عملیات نقطه ای انجام می شود. به طور طبیعی ، همه این روش ها می توانند در استخراج ویژگی سطح بالا ، که در آن اشکال را در تصاویر پیدا می کنیم مورد استفاده قرار گیرند. همه می دانند که ما می توانیم افراد را از روی پرتره کاریکاتوریست ها تشخیص دهید. این اولین ویژگی سطح پایین است که ما باید با آن روبرو شویم . این ویژگی سطح پایین تشخیص لبه نامیده می شود ومانند شکل 1 قسمت B هدف آن ایجاد یک خط کش است.چیزی شبیه به طرح کاریکاتوریست می باشد. تکنیک های بسیار اساسی و پیشرفته تری مانند ، smoothing،Roberts cross،prewitt ، sobel و cany وجود دارد و ما باید برخی از محبوب ترین رویکردها را بررسی کنیم. آشکارسازهای مرتبه اول معادل با مشتق مرتبه اول هستند و طبیعتاً عملگرهای تشخیص لبه معادل یک سطح بالاتر یعنی مشتق مرتبه دوم هستند. روشهایی همچون Laplacian ,zero crossing detection , Marr-Hildreth Laplacian of Gaussian , difference of Guassian , scale space                                                  شکل جایگزین تشخیص لبه همخوانی فاز نامیده می شود و ما باید دوباره حوزه فرکانس مورد استفاده برای کمک به تجزیه وتحلیل ،این بار برای استخراج ویژگی سطح پایین را ببینیم. 



شکل 1-

ما همچنین تشخیص گوشه که می توان آن را به عنوان تشخیص نقاطی که خطوط با انحنای زیاد بسیار شدید خم می شوند در نظر بگیریم به مانند شکل 1 قسمتهای A وB. اینها دیگر ویژگی های سطح پایین هستند که می توانند به طور خودکار از تصویراستخراج شوند. اینها عمدتا تکنیک های استخراج ویژگی های محلی هستند همچون انحنای مسطح گوشه ها ، تخمین خمیدگی با تغییر جهت لبه ، تغییر شدت ، آشکارساز گوشه هریس ، آشکارسازهای مبتنی بر وصله ، فضای مقیاس .الگوریتمهایی مانند (SIFT,SURF,FAST,ORB,PEAK) شکل 1 قسمت D و رویکردهای مدرن تر برای تشخیص مناطق محلی شده یا قسمتهای موردعلاقه گسترش می یابد شکل 1 قسمت E . در نهایت ، ما تکنیکی را توصیف می کنیم که حرکت را توصیف می کند ،که جریان نوری نامیده می شود. این مورد در شکل 1 قسمتهای C و F ،تصاویری از پیاده روی یک مرد با جریان نوری نشان داده شده : بیت هایی که سریعتر حرکت می کنند درخشان ترین نقاط هستند ، مانند دست ها و پاها. همه اینها می توانند مجموعه ای از نقاط را ارائه دهند ، هرچند نقاط خواص متفاوتی دارند، اما همه برای گروه بندی برای استخراج شکل مناسب هستند. یک جعبه مربع را در نظر  که توسط دنباله ای از تصاویر حرکت می کند. لبه ها محیط جعبه هستند؛ گوشه ها آپیکس ها هستند؛ جریان نحوه حرکت جعبه است. همه اینها را می توان با هم جمع آوری کرد تا جعبه حرکت کند. ما باید با تکنیک های تشخیص لبه ، با اپراتورهای مرتبه اول شروع کنیم که با ترتیب زمانی توسعه مطابقت دارد. قدمت تکنیک های مرتبه اول به بیش از 30 سال پیش می رسد.

فصل پنجم : استخراج ویژگی سطح بالا: تطبیق شکل ثابت شده

استخراج ویژگی های سطح بالا به یافتن اشکال و اشیاء در تصاویر کامپیوتری مربوط می شود. برای مثال ، برای اینکه بتوانیم چهره انسان را بطور خودکار تشخیص دهیم ، یکی از روشها این است که ویژگی های اجزء را استخراج کنیم . این امر مستلزم استخراج چشم ها ، گوش ها و بینی ، که مهمترین ویژگی های صورت است. برای پیدا کردن آنها ، می توانیم از شکل آنها استفاده کنیم: قسمت سفید چشم بیضی شکل است ، دهان می تواند به صورت دو خط و ابروها به همین صورت ظاهر شود. متناوبا ، ما می توانیم آنها را به عنوان اشیاء مشاهده کرده و از ویژگی های سطح پایین برای تعریف مجموعه ای از نقاط ، که چشم ، بینی و دهان یا حتی کل صورت را مشخص می کند استفاده کنیم. این فرآیند استخراج ویژگی را می توان شبیه به نحوه درک ما از جهان  دانست: بسیاری از کتابها برای کودکان برای توصیف  اشکال هندسی اساسی مانند مثلث ، دایره و مربع ها می باشد. تصاویر پیچیده تر را می توان به ساختاراشکال  ساده تجزیه کرد. در بسیاری از کاربردها ، تجزیه و تحلیل را می توان با نحوه چیدمان اشکال هدایت کرد. برای مثال تجزیه و تحلیل تصویر چهره ، ما انتظار داریم که چشم های بالا (و هر دو طرف از )  بینی بیابیم و ما انتظار داریم دهان را در زیر بینی پیدا کنیم.

در استخراج ویژگی ، ما به طور کلی به دنبال ویژگی های تغییر ناپذیری هستیم بنابراین استخراج نتیجه با توجه به شرایط انتخاب شده (یا مشخص) متفاوت نیست. این به معنی یافتن هر چیزی همچون اشیاء ، موقعیت ، جهت یا  اندازه آنها می باشد. یعنی تکنیک ها باید با اطمینان و استحکام اشکال را بیابند هر چه اندازه پارامتری را که بتواند ظاهر یک شکل را کنترل کند .به عنوان یک اصل تغییر ناپذیر  ، ما بدنبال مصونیت در برابر تغییرات در سطح روشنایی: ما به دنبال یافتن شکل خواه روشن یا تاریک هستیم. در اصل ، تا زمانی که بین شکل و زمینه آن تضاد وجود دارد ، می توان گفت که شکل وجود دارد ،و بنابراین قابل تشخیص است .(بدیهی است که هر تکنیک بینایی ماشین در شرایط روشنایی زیاد شکست می خورد؛ وقتی هم کاملاً تاریک است نمی توانید چیزی را ببینید.) به دنبال روشنایی ، مهمترین پارامتر بعدی موقعیت است : ما به دنبال یافتن شکلی هستیم در هرجا که ظاهر می شود. این معمولاً موقعیت ، مکان یا تغییر ناپذیری ترجمه نامیده می شود. سپس ، ما اغلب به دنبال یافتن شکلی صرف نظر از چرخش آن هستیم (با فرض اینکه جسم یا جهت دوربین ناشناخته است): این معمولاً چرخش یا جهت گیری-تغییر ناپذیری نامیده میشود. سپس ، ممکن است به دنبال تعیین شی درهر اندازه که ظاهر می شود می باشیم  ، که ممکن است به دلیل تغییرات فیزیکی یا نزدیک بودن جسم به دوربین باشد. این نیاز به تغییر اندازه یا مقیاس دارد.اینها خصوصیات تغییر نا پذیر اصلی هستند که ما باید با استفاده از تکنیکهای استخراج شکل آنها را پیدا کنبم. با این حال، طبیعت (طبق معمول) تمایل دارد توپ را زیر پای ما بچرخاند: همیشه نویز در تصاویر وجود دارد. از آنجا که ما با اشکال در ارتباط هستیم ، توجه داشته باشید که ممکن است بیش از یک تصویر در آن وجود داشته باشد. اگر یکی روی دیگری قرار بگیرد ، دیگری را می بندد یا پنهان می کند ، بنابراین همه شکل از یک شی قابل مشاهده نخواهد بود.

اما قبل از اینکه بتوانیم تکنیک های تجزیه و تحلیل تصویر را توسعه دهیم ، به تکنیک هایی برای استخراج اشکال و اشیاء نیاز داریم. استخراج پیچیده تر از تشخیص است زیرا در استخراج  ما به توصیفی از یک شکل ، مانند موقعیت و اندازه آن نیاز  داریم ، در حالی که تشخیص یک شکل صرفاً به معنای آگاهی از وجود آن در یک تصویر است. این فصل مربوط به اشکالی که  ثابت هستند (مانند بخشی از استخوان درتصویر پزشکی ) .

ما ابتدا در نظر می گیریم آیا می توانیم اشیا را با آستانه تشخیص دهیم. این تنها به احتمال زیاد یک راه حل ارائه می دهد وقتیکه  روشن سازی و روشنایی را می توان کنترل کرد ، بنابراین ما دو رویکرد اصلی را در نظر می گیریم: یکی استخراج قطعات تشکیل دهنده است ؛ دیگری استخراج اشکال تشکیل دهنده است. ما در واقع می توانیم ویژگی های سطح پایین را که قبلاً توضیح داده شده جمع آوری و توصیف کنیم . در این حالت ، موجک ها می توانند توضیحات شیء را ارائه دهید ، مانندSIFT (تبدیل ویژگی مقیاس ناپذیر ) و توزیع ها یی از ویژگی های سطح پایین. به این ترتیب ما اشیاء را به عنوان مجموعه ای از نقاط مورد علاقه ، به جای استفاده از تجزیه و تحلیل شکل نشان می دهیم. در مقابل ، ما می توانیم استفاده از شکل را بررسی کنیم: تطبیق الگو یک رویکرد مبتنی بر روش  است که در آن شکل توسط جستجوی بهترین همبستگی بین یک مدل شناخته شده و پیکسل های موجود در تصویرشناخته میشود. روشهای متناوبی برای محاسبه همبستگی بین الگو و تصویر وجود دارد. همبستگی را می توان با در نظر گرفتن تصویر یا حوزه فرکانس ، والگو را می توان با در نظر گرفتن مقادیر شدت یا شکل باینری تعریف کرد.تبدیل Hough پیاده سازی کارآمد مطابقت الگوها برای قالب های باینری را تعریف می کند. این تکنیک قادر به استخراج اشکال ساده مانند خطوط و فرم های درجه دوم و همچنین اشکال دلخواه می باشد. در هر صورت ، پیچیدگی اجرا را می توان  با در نظر گرفتن ویژگی های تغییرناپذیر اشکال کاهش داد.

فصل ششم : استخراج ویژگی سطح بالا: تجزیه و تحلیل شکل قابل تغییر

فصل قبل یافتن اشکال با تطبیق را پوشش می داد. این به معنی آگاهی ازمدل (ریاضی یا الگو) شکل هدف (ویژگی).شکل ثابت است وفقط پارامترهایی که شکل را تعریف می کند یا پارامترهایی که ظاهر یک قالب را تعیین میکند قابلیت انغطاف دارد. با این حال ، گاهی اوقات امکان مدل سازی یک شکل با دقت کافی ، یا ارائه الگوی هدف در صورت نیاز برای تبدیل Hough تعمیم یافته وجود ندارد. ممکن است شکل دقیق ناشناخته باشد یا ممکن است آشفتگی  شکل رانتوانیم  پارامتر بندی کنیم. این مورد ، ما به دنبال تکنیک هایی هستیم که می توانند با راه حل مورد نظر تکامل یابند یا نتیجه خود را با داده ها تطبیق دهند. این مستلزم استفاده از فرمول های شکل انعطاف پذیر است. در این فصل چهار تکنیک ارائه شده است که می تواند برای یافتن اشکال انعطاف پذیر در تصاویر استفاده شود. اگر شکل قابل انعطاف یا تغییر شکل است ، به طوری که با داده های تصویر مطابقت داشته باشد،ما یک الگوی تغییر شکل پذیر داریم. اینجاست که باید شروع کنیم. بعداً ، به سمت  تکنیک هایی بروید که به دلیل حرکت ماری شکلی که دارند، تکنیک  مارها نامیده می شوند .ماباید دو پیاده سازی مختلف از مدل ماری را توصیح دهیم . اولین مورد بر اساس به حداقل رساندن گسسته، و دومی در تجزیه و تحلیل عناصر محدود می باشد. ما همچنین به تعیین اسکلت یک شکل ، با تجزیه و تحلیل فاصله و تقارن ظاهر آنها نگاه خواهیم کرد. این تکنیک  با جمع آوری شواهد با توجه به ویژگی های بین جفت نقطه هر شکل متقارنی را پیدا می کند. در نهایت ، ما رویکردهایی را در نظر خواهیم گرفت که با استفاده از آمار ظاهر ظاهری یک شکل برای کنترل انتخاب شکل نهایی ، مدل های شکل فعال نامیده می شود.

فصل هفتم : توصیف شی

اشیاء به صورت مجموعه ای از پیکسل ها در یک تصویر نشان داده می شوند. بنابراین ، برای اهداف تشخیص ، ما باید ویژگی های گروه پیکسل ها را توصیف کنیم. توصیف اغلب فقط مجموعه ای از اعداد و توصیف کننده های شی است. از اینها ، می توانیم مقایسه و تشخیص اشیاء به سادگی با تطبیق توصیف کننده اشیاء در یک تصویر در مقابل توصیف کننده اشیاء شناخته شده را انجام دهیم. با این حال ، به منظور مفید بودن برای تشخیص ، توصیف کننده ها باید دارای چهار ویژگی مهم باشد. اول ، آنها باید یک مجموعه کامل تعریف کنند. به این معنا که، دو شیء باید توصیف کننده های یکسانی داشته باشند اگر و فقط اگر شکل یکسانی داشته باشند. ثانیاً ، آنها باید همسان باشند. به این ترتیب ، ما باید بتوانیم اشیا مشابه را تشخیص دهیم وقتی توصیف کننده های مشابهی دارند. ثالثاً ، اگر آنها خواص ثابت داشته باشند، راحت می باشد. برای مثال ، توصیف کننده های تغییرناپذیر چرخشی برای تشخیص اشیاء هر جهت گیری که داشته باشند ، مفید خواهند بود. سایر خواص تغییر ناپذیری مهم به طور طبیعی شامل مقیاس و موقعیت و همچنین تغییر ناپذیری در رابطه و تغییرات چشم انداز است. این دو ویژگی آخر هنگام تشخیص اجسام از دیدگاه های مختلف مشاهده شده بسیار مهم هستند . علاوه بر این سه ویژگی ، توصیف کننده ها باید مجموعه ای جمع و جور باشد یعنی توصیف کننده باید ماهیت یک شی را به شیوه ای کارآمد نشان دهد. به این ترتیب، باید فقط حاوی اطلاعاتی در مورد آنچه که باعث می شود شیء منحصر به فرد، و یا متفاوت از اشیاء دیگر می باشد،باشد. مقدار اطلاعات مورد استفاده برای توصیف این ویژگی باید کمتر از اطلاعات لازم برای داشتن  توضیحات کامل خود شی باشد. متأسفانه مجموعه ای کامل وتوصیف کننده های جمع و جور برای توصیف اشیاء به طور کلی وجود ندارد. بنابراین ، بهترین عملکرد تشخیص با خواص انتخاب شده بصورت دقیق  بدست می آید. به این ترتیب ، فرایند تشخیص به شدت با هر برنامه خاصی که با نوع خاصی از شی مرتبط می باشد.

در این فصل ، ما خصوصیات اشیاء را به دو صورت از توصیف کننده ها ارائه می دهیم. توصیف کننده های ناحیه و شکل ترتیب پیکسل ها در منطقه و ترتیب پیکسل ها درمحیط یا مرز ، به ترتیب مشخص میکنند. این منطقه در مقابل نمایش محیط  در تجزیه و تحلیل تصویررایج است . به عنوان مثال ، لبه ها را می توان بر اساس رشد منطقه (به منطقه برچسب) یا با تمایز (به برچسب محیط) محلی شود،همانطور که در فصل 4 ذکر شده است. در واقع بسیاری از تکنیک ها را می توان برای بدست آوردن توصیف کننده مرزهای یک شی استفاده کرد. در اینجا ، ما فقط بر سه شکل توصیف کننده تمرکز می کنیم: کدهای زنجیره ای و دو شکل بر اساس مشخصات  فوریه. برای توصیف کننده های منطقه باید بین توصیف کننده های اصلی و توصیف کننده های آماری مبتنی برزمان تعریف می شوند، تمایز قائل شویم.

فصل هشتم : تجزیه و تحلیل مبتنی بر منطقه

این فصل به چگونگی توصیف مناطق در یک تصویر اغلب توسط بافت آنها ، می پردازد. ما ابتدا برخی از تکنیک های گروه بندی که برای ایجاد مناطق درون یک تصویر توسعه داده شده است را در نظر می گیریم. اینها اساساً وضوح تصویر را از زیاد به خیلی کم تغییر می دهند. سپس ما منظور از بافت را در نظر خواهیم گرفت و سپس چگونه می توانیم از تکنیک های تبدیل فوریه ، آمار و معیارهای منطقه برای توصیف آن استفاده کنیم. سپس باید به نحوه اندازه گیری های ارائه شده توسط این تکنیک ها نگاه کنیم ،شرح بافت می تواند با هم جمع آوری شود تا بتوان آن را تشخیص داد. در نهایت ، یک تصویررا با توجه به بافت موجود در آن ، برای تقسیم بندی به کلاس ها ی شناخته شده که در تصویر وجود دارد، برچسب گذاری می کنیم.

توصیف اشیاء مستلزم شناسایی گروه های پیکسل در تصاویر است. که در فصل های قبل ، ما نشان دادیم که چگونه تکنیک های ساده ای مانند آستانه و تشخیص لبه می تواند برای مشخص کردن مناطقی که می توانند اشیا را نشان دهند یا برای پیدا کردن قطعات مورد علاقه در یک تصویر استفاده شود. به طور کلی ، فرایند تقسیم بندی پیکسل ها در یک تصویر به شکل مناطقی  به عنوان تقسیم بندی تصویر یا برچسب گذاری پیکسل شناخته می شود. تقسیم بندی تصویریک موضوع بسیار مهمی است و رویکردهای زیادی برای تقسیم بندی تصویر وجود دارد. در این فصل ،ما تجزیه و تحلیل مناطق را با در نظر گرفتن تکنیک هایی که پیکسل ها را بر اساس خواص آنها گروه بندی می کنند ، نشان می دهیم.

فصل نهم : تشخیص و توصیف شیء متحرک

این فصل به چگونگی یافتن و توصیف اجسام متحرک مربوط می شود. این نشان می دهد که ما یک تصویر واحد نداریم ، بلکه دنباله ای از تصاویر (یا فریم های ویدئویی) داریم. اشیایی که ما به دنبال یافتن و توصیف آنها هستیم آنهایی هستند که از مکانی به مکان دیگر یک تصویر به تصویر بعدی حرکت می کنند. ابتدا روشهایی را که اجسام متحرک را استخراج می کند ، آنها را ازپس زمینه خود جدا می کند شرح می دهیم. سپس راه هایی را برای توصیف مسیرهای ساخته شده توسط این اجسام را در نظر می گیریم. سپس راه هایی را برای تجزیه و تحلیل مسیرها با استفاده از حرکت شکل و مسیر آن برای اهداف تشخیص قبل حرکت به کمک تکنیکهای  توصیف اجسام متحرک در نظر خواهیم گرفت .

موضوع توصیف و ردیابی جسم متحرک بسیار وسیع است و مثال های زیادی در این رابطه وجود دارد. بسیاری از این تصاویر مربوط به افراد است زیرا تجزیه و تحلیل حرکت آنها به برنامه های کاربردی زیادی نیاز دارد. فراتر از تجزیه و تحلیل عمومی مبتنی بر بینایی ماشین تجزیه وتحلیل حرکت انسان [Gavrila99 ، Wang03a ، Moeslund06] ، مردم به بینایی ماشین ، تجزیه و تحلیل مبتنی بر ورزش و تجزیه و تحلیل خودکار تصاویر نظارت [Hu04] ، و البته اجسام متحرک در تجزیه و تحلیل تصویر پزشکی علاقمند هستند. رایانه ها اکنون قدرت محاسباتی بسیار بیشتری نسبت به زمان شروع بینایی ماشین دارند و حافظه ارزنتر شده است ، بنابراین علاقه به سرمایه گذاری و بهره برداری از شیوه های پیدا کردن و توصیف اجسام متحرک در توالی تصاویر می باشیم.در اینجا کمی تعصب نیز وجود دارد: مارک اولین متن را در زمینه شناسایی افراد از طریق راه رفتن نوشته است [نیکسون 05] زیرا تیم او از اولین کارگران بیومتریک راه رفتن بود. ما تکنیک های اساسی برای برآورد پیش زمینه را شروع خواهیم کرد، زیرا آن می تواند برای تعیین جسم متحرک در یک صحنه ، قبل از حرکت به رویکردهای مدرن تر برای جداسازی پیش زمینه/ پس زمینه استفاده شود.

فصل 10: مبانی هندسه دوربین

این فصل مربوط به هندسه ای است که نحوه اشیاء را در جهان سه بعدی که به صورت  پیکسل دو بعدی ضبط می شوند، شرح می دهد. این توصیف ها مدل های ریاضی هستند که یک نگاشت  بین اجسام سه بعدی (به طور کلی نقاط) در جهان و اشیاء دو بعدی در یک صفحه که نشان دهنده یک تصویر است، را تعریف میکنند. هدف نهایی این است که بتوانیم اطلاعات سه بعدی را از موقعیت دو بعدی پیکسل ها دریافت کنیم. تکنیک های تجزیه و تحلیل سه بعدی مانند بازسازی یا فتوگرامتری در بینایی ماشین [Trucco98، Hartley01] مورد مطالعه قرار گرفته اند. این فصل تکنیک های بینایی ماشین را پوشش نمی دهد ، اما مقدمه ای بر مفاهیم اساسی هندسه بینایی ماشین ارائه می دهد. هدف آن تکمیل مفاهیم درفصل 1 با افزایش دانش زمینه ای نحوه هندسی دوربین از نظر ریاضی مدل شده ، می باشد. این فصل جنبه های اساسی مدلهای هندسه دوربین معمولی را توضیح می دهد.

اگرچه نگاشت بین نقاط سه بعدی و پیکسل ها را می توان با استفاده از توابع در مختصات اقلیدسی ، نشانه گذاری و توسعه با استفاده از عملیات ماتریسی در فضای نمایشی بهتر بیان  شود. به این ترتیب ، این فصل را با معرفی فضای تعریف شده توسط مختصات همگن و در نظر گرفتن چگونگی تحولات با استفاده از نماد ماتریس تعریف میشود،آغاز می کنیم. ما خواهیم دید که مدلهای مختلفی وجود دارد که می تواند برای نشان دادن فناوری های جایگزین ضبط تصویر یا تقریبی گرفتن تصویر با استفاده از پیچیدگی های مختلف استفاده شود. یک مدل یک نوع کلی از فرایند تشکیل تصویر را تعریف می کند، در حالی که مدلهای خاص برای دوربینهای مخصوص با مقادیری که  به پارامترهای دوربین داده می شود تعریف می شوند. با توجه به تکنولوژیهای ضبط و با توجه به نوع اشیاء موجود در صحنه می توان از مدل های مختلف استفاده کرد. به عنوان مثال ، یک مدل affine می تواند تقریب خوبی از یک مدل فرافکنی در زمانی باشد که اشیاء دور هستند یا در صفحه ای با تراز مشابه نسبت به صفحه دوربین قرار گرفته است (یعنی تصاویری با چشم انداز اندک یا بدون چشم انداز)باشد.

فصل 11: تصاویر رنگی

تصاویر سطح خاکستری از یک مقدار در هر پیکسل استفاده می کنند که به آن شدت یا روشنایی می گویند. همانطور که در فصل 2 گفته شد ، شدت نشان دهنده میزان نور منعکس شده یا ساطع شده توسط یک جسم است، و به ویژگی های مواد شی و همچنین به حساسیت سنسورهای دوربین بستگی دارد. از لحاظ تاریخی ، پردازش تصویر و بینایی ماشین عمدتا از تصاویر سطح خاکستری استفاده می کنند زیرا سنسورهای رنگ بسیار گران و پردازش کامپیوتر بسیار محدود می باشد. همچنین ، تصاویر سطح خاکستری نویز کمتری دارند ، بنابراین برای مکان یابی ویژگی های سطح پایین مانند لبه ها و گوشه ها مناسب است. با این حال ، بااینکه دستگاه ها قدرت پردازشی و توسعه حسگرهای رنگی ارزان با کیفیت بالا را افزایش داده اند،تصاویررنگی در همه جا وجوددارند. بنابراین پردازش تصویرمعمولا برای پردازش اطلاعات رنگی و نه تنها برای توسعه الگوریتم برای درک تصویر و  نمایش صحنه استفاده می شود، بلکه همچنین برای ایجاد تصاویری که برای انسان جذاب است نیز مورد استفاده قرار میگیرد. بنابراین ، پردازش تصویر رنگی به طور فزاینده ای ضروری شده است ، همانطور که در بخش سوپر پیکسل (بخش 8.2.3) دیده شد. علاوه بر این ،  ،همانطور که قبلاً در تشخیص برجستگی مشاهده کردیم. به عنوان مثال ، رنگ یک سرنخ مهم در تشخیص علائم راهنمایی ورانندگی است.

به طور کلی ، پردازش تصاویر رنگی موضوع گسترده ای برای مطالعه است. این فصل فقط مفاهیم اساسی را که برای نمایش و توصیف رنگ ها استفاده می شوند را معرفی می کند. ما می دانیم که یک دوربین رنگ را با توجه به پاسخ های حسگرنشان میدهد. وقتی تصویری نمایش داده می شود ، نمایانگر آن است که  در دوربین  به امواج الکترومغناطیسی تبدیل می شود که ما آنها را به عنوان رنگ درک می کنیم. در این فرایند ، برخی از اطلاعات از بین رفته و تغییر می کنند ، بنابراین به طور کلی ما تصویری را که مشابه یک صحنه مشاهده شده باشد را درک نمی کنیم. هدف یک مدل رنگی این است که بتواند چنین رنگهایی را نشان دهد که یک تصویر نمایشی دقیق از نحوه درک ما از جهان است ، قادر به بازآفرینی رنگها یا ایجاد نمایشی مناسب برای چنین فرآیندهای خاص مانند  انتقال ویدئو باشد. به این ترتیب ، مدل های رنگی چندان به جنبه های ظاهری اهمیت نمی دهند ، ماهیت امواج الکترومغناطیسی (یعنی طیف سنجی) اما تمرکز بر به دست آوردن توضیحات یا کاتالوگ که ویژگی های رنگ را سازماندهی و به تصویر می کشد. بنابراین ، مدل ها ی رنگی  یک نمایش عددی برای یک رنگ خاص ارائه می دهند و آنها را تعریف می کنند رابطه این رنگ با رنگهای دیگر ، اما به نمایش با طیف الکترومغناطیسی ربطی ندارد.

در این فصل ، خواهیم دید که چگونه توصیفی بر اساس نظریه سه گانه و نحوه مدل سازی رنگ های جایگزین و توصیف رنگ ها بدست می آید. ما نشان خواهیم داد که مدل های رنگی هر رنگ را به عنوان مجموعه ای از اجزا توصیف می کنند ، بنابراین هر رنگ می تواند برای پردازش و تکثیر به صورت دیجیتالی ذخیره شود. مدل های رنگی مهم هستند زیرا آنها اجازه تجزیه و تحلیل ومطالعه روابط و خواص رنگ ها را می دهند.

در این فصل ، ما چهار نوع مدل رنگی را تشخیص می دهیم. اولین نوع مدل بر اساس ادراک است. مدل های ادراک رنگ ها را با توجه به شباهت هایی که ما درک می کنیم مرتب می کنند، و آنها توسط آزمایش هایی با هدف ایجاد اندازه گیری پیوند بین رنگها قابل توسعه هستند. نوع دوم از مدل رنگها را با توجه به روشی که در سیستمهای تکثیر استفاده میشود (به عنوان مثال چاپ و نمایش) توصیف می کنند. نوع سوم از مدل به دنبال جداسازی روشنایی از رنگ (رنگدانه) است. این مدلها به دلیل ضرورت عملی انتقال ویدئو ایجاد شده بودند و برای کدگذاری ویدئو بسیار محبوب شده است. آخرین نوع مدل رنگی یک سازمان ادراکی را بوسیله تغییر رنگ سایر مدلها با استفاده از تغییر رنگ ایجاد می کند. هدف این است که چیدمانی ایجاد کنید که حسی تر و آسان تر برای تفسیر باشد.

فصل 12 : فاصله ، طبقه بندی و یادگیری

این فصل به چگونگی توصیف و تشخیص اجسام مربوط می شود. یک انقلاب یادگیری عمیق در سالهای اخیر رخ داده و این بسیار بر بینایی ماشین تأثیر می گذارد. به طور طبیعی ، یک کتاب درسی براساس زمان کنترل میشود و تصویر فوری از موضوع آن ؛ طبق فرایند ، یک کتاب درسی زمانی که انتشار می یابد ممکن است قدیمی شده  باشد. برنارد شاو نوشت: "پیشرفت بدون تغییر غیرممکن است ، و کسانی که نمی توانند نظر خود را تغییر دهند ، نمی توانند چیزی را تغییر دهند ، بنابراین ما یادگیری عمیق را به عنوان راهی جدید برای استخراج ویژگی ها در نظر خواهیم گرفت آنچه که  نشان داده شده این که این روش یک هدف عالی در انبارتکنیک های یادگیری ماشین است . بدون شک ، در یادگیری عمیق ، طیف وسیعی از تکنیک هایی که شامل بینایی ماشین با همدیگر ارائه شده است ، از پردازش سطح پایین تا سطح بالا. ما قبلاً آن را درپایان هر بخش ، و اکنون ما این مطالب را با هم جمع می کنیم. اما انقلاب همچنان ادامه دارد ،بنابراین ما فقط یک عکس فوری در اینجا ارائه می دهیم و یکی در سال 2019 گرفته شده است.


نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد