روش معمول و سنتی بازیابی تصاویر، بازیابی مبتنی بر متن است. در این روش کلمات کلیدی برای توصیف محتوای تصویر استفاده میشوند. تصاویر توسط اطلاعات متنی همراه خود، مانند نام تصویر، نوع تصویر، کلمات کلیدی ، متنی که تصویر به آن مربوط است و غیره در مجموعه داده شاخص گذار ی میشوند وبازیابی از طریق جستجو در این مجموعه داده و بر اساس این اطلاعات متنی صورت می گیرد. بنابراین تکنیکهای معمول برای بازیابی مبتنی بر متن ، همان تکنینهای ارائه شده در زمینه ی بازیابی اطلاعات می باشند.چالشهای پیش رو در این زمینه شامل موارد زیر است :
- ارائه ی مناسبی به منظور سازمان دهی و دسته بندی داده ها در مجموعه داده ،به نحوی که زمان جستجو وبار محاسباتی مناسبی داشته باشد.
- ارائه روشهای چستجوی مناسب ، به نحویکه مرتبط ترین تصاویر با توجه به پرس وجوی کاربر بازیابی شود.
- ارائه ی روشهایی برای در نظرگرفتن بازخورد کاربر به منظور بهبود نتایج
- ارائه ی روشهایی برای فشرده سازی تصاویر در مجموعه داده
- پردازش پرس وجوی کاربر
- تطابق معنایی
یکی از مهمترین چالش های موجود در این زمینه، پردازش پرس و جوی کاربر است. هدف اصلی بازیابی تصاویر، بازیابی تصاویری است که بیشترین ارتباط و شباهت را با پرس و جوی کاربر داشته و مطابق با خواسته ی او باشد. بنابراین اولین مرحله برای بازیابی تصاویر، شناخت دقیق و صحیح پرس و جو ی کاربر است. این کار از طریق روشهای مختلف پردازش زبان ها طبیعی وداده کاوی انجام میگیرد.پرس وجوی کاربر در تکنیک بازیابی براساس متن می تواند به رو ش های مختلفی مانند یک کلمه کلیدی ،ترکیبی از کلمات کلیدی ،جمله ومتن باشد. سیستم های بازیابی باید بتوانند نیاز دقیق کاربر را از پرس و جو استخراج کرده و در اکثر موارد با استفاده از بازخورد کاربر، نتایج کاملا مرتبطی به کاربر ارائه دهند.
از طرف دیگر، سیستم باید بتواند بین واژ ه های مختلف تطابق معنایی مناسب را ایجاد کند. فرهنگ لغاتی که هر کاربر استفاده میکند با کاربران دیگر سیستم و همچنین فرهنگ لغت استفاده شده توسط خود سیستم متفاوت است. سیستم باید بتواند به نحو مناسب این تفاوت و فاصله را بر طرف کند. به عنوان مثال کاربر واژه ”منزل“ راجستجو می کند، در صورتی که در مجموعه داده واژه ی "خانه" برای توصیف اینگونه تصاویر بکاررفته است.
شکل زیر طرح کلی سیستم های بازیابی مبتنی بر متن را نشان میدهد. در این سیستم ها تصاویر توسط کلمات کلیدی در مجموعه داده شاخص گذاری می شوند و سیستم استنتاج توسط ورودی متنی کاربر، مجموعه داده والگوریتم های موجود در آن، تصاویر مرتبط را به کاربر نمایش می دهد.
طرح کلی سیستمهای بازیابی تصاویر بر اساس متن
مشکلات بازیابی تصاویر بر اساس متن
بازیابی تصاویر بر اساس متن مشکلات زیر را به همراه دارد:
1- به منظور توسعه ی سیستم های بازیابی تصاویر بر اساس متن، لازم است که تصاویر از پیش توسط کلمات کلیدی توصیف شوند. به این عمل در اصطلاح حاشیه نویسی تصاویر گفته می شود. در واقع هرتصویری که در این مجموعه داد ه ها ذخیره می شود، باید به همراه خود کلمات کلید ی به عنوان توصیف کننده در مجموعه داده داشته باشد. انجام این کار به صورت دستی و توسط انسان، به دلیل حجم زیاد ورو به افزایش تصاویر (مخصوصًا تصاویر موجود در وب) کاری بسیار مشکل ،طاقت فرسا ،زمان بر وحتی در مواردی غیرعملی است.
2- هر تصویر میتواند از جهات مختلفی تفسیر شود و تمام افراد با مشاهده ی یک تصویر، توصیف مشابهی از آن ندارند. به عنوان مثال تصویری که شامل کوه و جنگل باشد، با واژه های مختلفی مانند کوه،جنگل، درخت، چوب، منظره ی طبیعی ،آب وهوای کوهستانی وواژه های دیگری می تواند توصیف شود. این موضوع به این معنی است که پیش از افزودن یک تصویر به مجموعه داده ی چنین سیستمی ، تصویر باید از جهات مختلف بررسی شود و تمام معانی قابل استنتاج از آن بدست آید، تا سیستم بازیابی کارایی لازم را داشته باشد.
3- کلمات و واژه ها در بعضی از موارد به تنهایی توصیف کننده ی مناسبی برای تصویر به حساب نمی آیند.زیرا هرواژه ای ممکن است مفهومی غیرمستقل و وابسته به موضوع داشته باشد و با توجه به جایگاه بکار رفته معنی دقیق آن مشخص می شود. به عنوان مثال واژه ی "شیر" در فرهنگ لغات فارسی به چند معنی به کار می رود (به عنوان حیوان، به عنوان نوشیدنی و به عنوان یک ابزار). بنابراین توصیف تصاویر با کلمات به تنهایی با مشکل مواجه میشود.
4- کلمات وواژه های مختلفی وجوددارند که توصیف کننده یک مفهوم واحد هستند.به این معنی که یک مفهوم خاص را میتوان با واژ ه ها ی مختلفی توصیف نمود. به عنوان مثال واژه های "آدم" ،"انسان " ،"بشر" و"شخص "همگی برای معرفی یک موجودیت واحد استفاده م یشوند. بنابراین باید روشی برای ایجاد تطابق معنایی بین همه واژهای مختلف ایجاد کرد.
راه حل های پیشنهادی برای رفع مشکلات
همان طور که در قسمت پیش بیان شد، بازیابی تصاویر بر اساس متن دارای مشکلاتی می باشد.به منظور رفع این مشکلات سه راهکار پیشنهاد شده است :
1- حاشیه نویسی خود کار تصاویر
2- بازیابی تصاویر بر اساس محتوای تصاویر
3- بازیابی تصاویر بر اساس ترکیب متن و محتوا
در روش های ارائه شده به منظور حاشیه نویسی خودکار تصاویر از یک فرهنگ لغت استفاده می شود. در این رو شها پس از استخراج ویژگی های بصری از تصاویر،با کمک یک مجموعه ی آموزش و یک روش ماشین یادگیری ، نگاشتی بین ویژگی ها ی بصری استخراج شده و لغات موجود در فرهنگ لغت ایجاد می شود. از این رابطه ی نگاشت برای حاشیه نویسی خودکار تصاویر استفاده میشود.علاوه بر آن تکنیکهای مختلف تقطیع تصویر،به منظور جداسازی نواحی مختلف در تصویر و سپس حاشیه نویسی ناحیه ها، دقت روش را بالا میبرد. این روش ها تا حدودی مشکلات روش های مبتنی بر متن را کاهش داده اند، ولی هنوز هم در این رو شها تصاویر توسط کلمات کلیدی توصیف میشوند و به همان دلائلی که در روش بازیابی مبتنی بر متن ذکر شد،احتمال وجود خطا قابل توجه است. از طرفی اکثر رو ش های پیشنهادی برای حاشیه نویسی خودکار تصاویر به صورت کاملا خودکار عمل نمی کنند، بلکه در بعضی از مراحل آن نیاز به دخالت مستقیم انسان دارند. همچنین انعطاف این گونه رو ش های متکی بر لغت نامه نیز پایین است.بنابراین نیاز به روشی موثر برای دسترسی وبازیابی تصاویر است ،به نحویکه فراتر از بازیابی ساده براساس متن و نظیر کردن دقیق کلمات با اطلاعات ذخیره شده همراه تصاویر باشد.
بازیابی تصاویر بر اساس محتوای تصویر ایده ای دیگر برای رفع مشکلات موجوددرسیستمهای مبتنی بر متن می باشد. در این روش، تصاویر با توجه به محتوای بصری خوددرمجموعه داده شاخص گذاری میشوند وبازیابی نیزبااستفاده از شباهت بصری تصاویر صورت میگیرد.
راه حل سوم، ترکیب متن و محتوای بازیابی تصاویر است . در این رو ش ویژگی ها ی بصری از تصاویر استخراج می شود و سپس با کمک کلمات کلیدی وویژگی های بصری ،ویژگیهای سطح بالااز تصاویر بدست می آید. تصاویر توسط ویژگیهای سطح پایین ، سطح بالا وکلمات کلیدی شاخص گذاری شده وبازیابی توسط آنها صورت میگیرد.