بینایی ماشین – کامران محمودی

بررسی تکنیک‌های تشخیص چهره: HOG در مقابل MTCNN

تشخیص چهره یک کار اساسی در بینایی کامپیوتر با برنامه های کاربردی از سیستم های امنیتی گرفته تا رسانه های اجتماعی است. دو روش محبوب برای تشخیص چهره عبارتند از: هیستوگرام گرادیان های جهت دار (HOG) و شبکه های کانولوشن چند وظیفه ای (MTCNN). در این پست وبلاگ، هر دو تکنیک را بررسی خواهیم کرد و یک نمای کلی از اصول آنها ارائه می دهیم و کد پایتون را برای هر کدام به نمایش می گذاریم.

هیستوگرام گرادیان های جهت دار (HOG)

درک HOG

HOG یک توصیفگر ویژگی است که به طور گسترده برای تشخیص اشیا استفاده می شود. با تجزیه و تحلیل توزیع گرادیان ها در یک تصویر کار می کند و آن را به ویژه برای تشخیص اجسام با اشکال و بافت های متمایز موثر می کند.

چگونه کار می کند

الگوریتم HOG یک تصویر را به سلول های کوچک و همپوشانی تقسیم می کند، جهت گیری گرادیان را در هر سلول محاسبه می کند و سپس یک هیستوگرام از این جهت ها ایجاد می کند. سپس این هیستوگرام ها به هم متصل می شوند تا بردار ویژگی نهایی را تشکیل دهند که برای آموزش ماشین بردار پشتیبان (SVM) یا طبقه بندی کننده دیگر استفاده می شود.

مثال کد پایتون

ما با بررسی تشخیص چهره مبتنی بر HOG با استفاده از OpenCV در پایتون شروع خواهیم کرد. کد ارائه شده یک تصویر را بارگیری می کند، آشکارساز HOG را اعمال می کند، و کادرهای مرزی را در اطراف چهره های شناسایی شده ترسیم می کند.

در GitHub مشاهده کنید

شبکه های کانولوشن آبشاری چند کاره (MTCNN)

آشنایی با MTCNN

MTCNN یک مدل تشخیص چهره مبتنی بر یادگیری عمیق است که برای کنترل جهت گیری ها و مقیاس های مختلف چهره طراحی شده است. این شامل سه مرحله است: تشخیص چهره، رگرسیون جعبه مرزی، و محلی سازی نقطه عطف چهره.

چگونه کار می کند

MTCNN به صورت آبشاری عمل می کند و هر مرحله نتایج مرحله قبلی را اصلاح می کند. مرحله اول نواحی بالقوه صورت را شناسایی می کند، مرحله دوم جعبه های مرزی را اصلاح می کند، و مرحله سوم نقاط عطف صورت را تعیین می کند. اطلاعات ترکیبی تشخیص چهره دقیق را فراهم می کند.

مثال کد پایتون

در مرحله بعد، تشخیص چهره را با استفاده از MTCNN با کمک کتابخانه mtcnn در پایتون بررسی خواهیم کرد. کد یک تصویر را بارگیری می‌کند، آشکارساز MTCNN را اعمال می‌کند و تصویر را با کادرهای محدود در اطراف چهره‌های شناسایی شده نمایش می‌دهد.

در GitHub مشاهده کنید

انتخاب روش مناسب

در حالی که هر دو HOG و MTCNN برای تشخیص چهره موثر هستند، هر کدام نقاط قوت و محدودیت های خود را دارند. HOG قوی و از نظر محاسباتی کارآمد است و آن را برای کاربردهای بلادرنگ مناسب می کند. از سوی دیگر، MTCNN در مدیریت جهت گیری های مختلف چهره برتر است و برای سناریوهایی که ممکن است چهره ها در مقیاس ها و زوایای مختلف ظاهر شوند، مناسب است.

در کد پایتون همراه، نحوه پیاده‌سازی هر دو تکنیک و ارائه بینش در مورد استفاده از آنها را نشان می‌دهیم. با خیال راحت کد را آزمایش کنید و کشف کنید که کدام روش به بهترین وجه مناسب مورد استفاده خاص شما است.

برای توضیح دقیق کد، دستورالعمل‌های استفاده، و بحث در مورد عوامل مؤثر بر دقت تشخیص، به خواندن ادامه دهید.

معرفی
در حوزه بینایی کامپیوتری، تشخیص چهره به عنوان یک کار مهم با برنامه های کاربردی از امنیت و نظارت گرفته تا عکاسی و رسانه های اجتماعی عمل می کند. یکی از تکنیک های قدرتمندی که برای تشخیص اشیا، از جمله چهره ها به کار می رود، هیستوگرام گرادیان های جهت دار (HOG) است. در این مقاله، اصول پشت HOG، متدولوژی آن و پیاده سازی آن در پایتون با استفاده از کتابخانه OpenCV را بررسی خواهیم کرد.

مبانی HOG
HOG چیست؟
HOG یک توصیفگر ویژگی است که توزیع گرادیان های شدت در یک تصویر را ثبت می کند. HOG که توسط Navneet Dalal و Bill Triggs در سال 2005 توسعه یافت، ثابت کرده است که در وظایف تشخیص اشیا، به ویژه برای تشخیص عابران پیاده و چهره، بسیار موثر است.

HOG چگونه کار می کند؟
HOG بر این فرض عمل می کند که شکل و ظاهر محلی یک شی را می توان با توزیع گرادیان های شدت یا جهت های لبه مشخص کرد. با تقسیم یک تصویر به سلول های کوچک و همپوشانی، HOG جهت گیری گرادیان را در هر سلول محاسبه می کند و هیستوگرام هایی از این جهت ها ایجاد می کند. سپس این هیستوگرام ها به هم متصل می شوند تا یک بردار ویژگی را تشکیل دهند که به عنوان نمایشی از ظاهر جسم عمل می کند.

مراحل محاسبه HOG:
محاسبه گرادیان:
شیب تصویر را با استفاده از تکنیک هایی مانند عملگرهای Sobel برای شناسایی لبه ها محاسبه کنید.
تقسیم سلولی:
تصویر را به سلول های کوچک تقسیم کنید تا اطلاعات شیب محلی را بگیرید.
محاسبه هیستوگرام:
هیستوگرام جهت گیری های گرادیان در هر سلول را محاسبه کنید.
عادی سازی بلوک:
گروه‌هایی از سلول‌ها که به بلوک‌ها معروف هستند را عادی کنید تا تغییرات نور و کنتراست را در نظر بگیرید.
شکل گیری بردار ویژگی:
هیستوگرام های بلوک نرمال شده را به هم متصل کنید تا بردار ویژگی نهایی را تشکیل دهید.
پیاده سازی HOG در پایتون
حالا بیایید با استفاده از پایتون و OpenCV به جنبه عملی HOG بپردازیم. اسکریپت پایتون زیر تشخیص چهره مبتنی بر HOG را نشان می دهد:

import cv2

# Load the image

image = cv2.imread(‘path/to/your/image.jpg’)

# Convert the image to grayscale

gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# Create a HOG face detector

hog_face_detector = cv2.HOGDescriptor()

hog_face_detector.setSVMDetector(cv2.HOGDescriptor_getDefaultPeopleDetector())

# Detect faces in the image using HOG

faces_hog, _ = hog_face_detector.detectMultiScale(gray_image)

# Draw bounding boxes around detected faces

for (x, y, w, h) in faces_hog:

cv2.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)

# Display the image with bounding boxes

cv2.imshow(‘HOG Face Detection’, image)

cv2.waitKey(0)

cv2.destroyAllWindows()

ملاحظات و نکات

تنظیم پارامترها:
آشکارسازهای مبتنی بر HOG اغلب دارای پارامترهایی هستند که می توانند برای عملکرد بهتر تنظیم شوند. پارامترهایی مانند ضریب مقیاس و حداقل اندازه اشیاء شناسایی شده را برای دستیابی به نتایج بهینه برای مورد استفاده خاص خود آزمایش کنید.

کارایی محاسباتی:
یکی از نقاط قوت HOG کارایی محاسباتی آن است که آن را برای کاربردهای بلادرنگ مناسب می کند. با این حال، اندازه پنجره تشخیص و پیچیدگی تصویر می تواند بر زمان پردازش تأثیر بگذارد.

محدودیت ها:
در حالی که HOG در بسیاری از سناریوها موثر است، ممکن است با چالش های خاصی مانند تغییرات در شرایط نوری و پس زمینه های پیچیده دست و پنجه نرم کند. درک این محدودیت ها هنگام انتخاب روش مناسب برای برنامه شما ضروری است.

نتیجه
هیستوگرام گرادیان های جهت دار (HOG) به سنگ بنای تشخیص اشیا تبدیل شده است و ابزاری قوی و کارآمد محاسباتی برای ثبت ویژگی های اساسی اشیاء در تصاویر ارائه می دهد. در زمینه تشخیص چهره، HOG یک تکنیک قابل اعتماد و همه کاره است.

با درک مفاهیم اساسی پشت HOG و آزمایش اجرای آن در پایتون، می توانید بینش ارزشمندی در مورد قابلیت ها و محدودیت های آن به دست آورید. مانند هر تکنیک بینایی کامپیوتری، تنظیم دقیق و سفارشی سازی کلید دستیابی به نتایج بهینه برای مورد استفاده خاص شما است.

در قسمت بعدی این مجموعه، روش قدرتمند دیگری برای تشخیص چهره، شبکه‌های کانولوشن آبشاری چند وظیفه‌ای (MTCNN) را بررسی می‌کنیم که درک جامعی از تکنیک‌های مختلف موجود برای این کار حیاتی بینایی رایانه ارائه می‌دهد. گوش به زنگ باشید!

نوشته‌ها

تشخیص چهره با HOG و MTCNN

درک هیستوگرام گرادیان های جهت دار (HOG) برای تشخیص چهره

نوشته‌ها

ابر برچسب