Python ile Yüz Tanıma Sistemleri Nasıl Geliştirilir

By Şefik İlkin Serengil Last updated Aug 31, 2020

Derin öğrenme ile duygu, yaş ve cinsiyet, etnisite gibi konuların analizi hali hazırda yapabiliyoruz. Bu gibi çalışmaları genellikle konvolüsyonel nöral ağlar ile gerçekleştiriyoruz. Temel ihtiyacımız tespit etmek istediğimiz sınıfa ait örneklerin beslenmesine dayanıyor. Örneğin yüz resimlerinden duygu analizi yacaksak yüz resimleri girdimiz iken mutlu, mutsuz ya da sinirli olmak çıktımızı belirtiyor ve nöral ağ bu girdi ve çıktı arasındaki ilişkiyi öğreniyor. Yüz tanıma teknolojilerinde ise işleyiş biraz daha farklı. Bu yazıda ana hatlarıyla Python, TensorFlow ve Keras kullanarak nasıl bir yüz tanıma sistemi geliştireceğimize odaklanacağız.

Yüz tanıma ile gelen zorluk

100 kişiden oluşan bir topluluk için bir yüz tanıma sistemi geliştireceğinizi varsayalım. Her bir personaya ait de 10 resimden öğrenmesini bekleyelim. Nöral ağın girdisi yüz resimleri çıktısı ise 100 kişiden hangisinin olduğu olabilirdi. Ancak topluluğa eklenecek 101. kişinin olması durumunda sinir ağının çıktısının da 101 değerden oluşması gerekecek. Dolayısıyla ağ yapımızı topluluğa eklenecek her bir kişi için değiştirmemiz ve yeniden eğitmemiz gerekecektir. Benzer şekilde zaman geçtikçe eğitimi yaptığımız veri setindeki resimler eskiyecek, ağ belki de genç halinizin fotoğrafından yaşlı halinizi tanıyamayacaktır. Ya da saçını boyatan, kısaltan ya da uzatan kişiler olması durumunda neyle karşılaşacağımızı bilemiyoruz.

Tek seferde öğrenme

Yüz tanıma teknolojilerinde genel kabul tek seferde öğrenmeye (one shot learning) dayanmaktadır. Bazı kaynaklar bu yaklaşıma yüz tanıma (face recognition) yerine yüz doğrulama (face verification) da demektedir.

Size ait bir fotoğrafın bir konvolüsyonel nöral ağ ile özeti (embedding) çıkarılacak, güncel halinizin özeti ile karşılaştırılacak, benzerlikleri bir eşik değerden daha düşükse sizin kimliğiniz ile eşleştirilecektir.

Bu şekilde 100 kişilik bir topluluk için yüz tanıması yapmak istiyorsanız bu 100 kişinin yüz resimlerinin özeti nöral ağımız ile çıkarılacak ve bir veri tabanına kaydedilecek, topluluğa eklenecek 101. kişinin olması halinde sadece bu yeni kişinin yüzünün özeti veri tabanına eklenecek ama nöral ağımız aynı kalacaktır.

Benzerlik kontrolü

Sinir ağımızın çıktısını çıktı boyutunda bir vektör olarak ifade edebiliriz. Örneğin ağ modelimize 224x224x3 boyutunda resimler beslerken 2622 boyutunda çıktılar alıyorsak özet aslında 2622 boyutunda bir vektördür. Dolayısıyla iki yüz fotoğrafını bizler aslında iki vektör olarak ifade ettik.

Vektörler hatırlayacağınız gibi yönü ve uzunluğu olan niceliklerdir. İki vektörün ne kadar benzer olduğunu aralarında açı yani kosinüs benzerliği (cosine similarity) veya aralarındaki uzaklık yani Öklid uzaklığı (Euclidean distance) ile ifade edebiliriz.

İki boyutlu uzayda 2 noktanın arasındaki uzaklığı aşağıdaki şekilde hesaplayabiliyoruz.

Bunu n boyutlu uzaya yansıtırsak da bu formüle sadık kalmış oluruz. İşlemi numpy kütüphanesi ile gerçekleştirirsek radikal şekilde hızlanacaktır. Burada source_representation ve test_representation girdilerinin n boyutlu birer vektör olduklarını göz önünde bulundurun.



"""def findEuclideanDistance(source_representation, test_representation):
    sum = 0
    for i in range(0, source_representation.shape[0]):
        sum += pow(source_representation[i] - test_representation[i], 2)
    sum = math.sqrt(sum)
    return sum"""

def findEuclideanDistance(source_representation, test_representation):
    euclidean_distance = source_representation - test_representation
    euclidean_distance = np.sum(np.multiply(euclidean_distance, euclidean_distance))
    euclidean_distance = np.sqrt(euclidean_distance)
    return euclidean_distance

"""def findEuclideanDistance(source_representation, test_representation):

sum = 0

for i in range(0, source_representation.shape[0]):

sum += pow(source_representation[i] - test_representation[i], 2)

sum = math.sqrt(sum)

return sum"""

def findEuclideanDistance(source_representation, test_representation):

euclidean_distance = source_representation - test_representation

euclidean_distance = np.sum(np.multiply(euclidean_distance, euclidean_distance))

euclidean_distance = np.sqrt(euclidean_distance)

return euclidean_distance

Kosinüs benzerliğinin formülü ise aşağıdaki şekilde ifade edilmektedir.

Bunu da numpy ile aşağıdaki şekilde kodlayabiliyoruz.



"""
def findCosineDistance(source_representation, test_representation):
    sum = 0; a = 0; b = 0
    for i in range(0, source_representation.shape[0])
        sum += source_representation[i] * test_representation[i]
        a += source_representation[i] * source_representation[i]
        b += test_representation[i] * test_representation[i]
    return sum / (math.sqrt(a) * math.sqrt(b))
"""

def findCosineDistance(source_representation, test_representation):
    a = np.matmul(np.transpose(source_representation), test_representation)
    b = np.sum(np.multiply(source_representation, source_representation))
    c = np.sum(np.multiply(test_representation, test_representation))
    return 1 - (a / (np.sqrt(b) * np.sqrt(c)))

"""

def findCosineDistance(source_representation, test_representation):

sum = 0; a = 0; b = 0

for i in range(0, source_representation.shape[0])

sum += source_representation[i] * test_representation[i]

a += source_representation[i] * source_representation[i]

b += test_representation[i] * test_representation[i]

return sum / (math.sqrt(a) * math.sqrt(b))

"""

def findCosineDistance(source_representation, test_representation):

a = np.matmul(np.transpose(source_representation), test_representation)

b = np.sum(np.multiply(source_representation, source_representation))

c = np.sum(np.multiply(test_representation, test_representation))

return 1 - (a / (np.sqrt(b) * np.sqrt(c)))

Yüzün algılanması

Zorunlu olmamakla birlikte yüz tanıma üretim hattının öncelikli adımları yüzün algılanması ve hizalanmasıdır. Yüzün algılaması için çeşitli çözümler bulunmaktadır. OpenCV içerisinde Haar ve SSD yöntemlerini, Dlib içerisinde HoG ve MMOD ve son olarak MTCNN yöntemleri en yaygın methodlardır. Performanslarını aşağıdaki videodan gözlemleyebilirsiniz.

Yüz tanıma modelleri

Yüzün özetini çıkarmak için kendi modelinizi eğitebileceğiniz gibi Oxford Üniversitesi Visual Geometry Group (VGG) tarafından VGG-Face, Google tarafından Facenet ve Carnegie Mellon Üniversitesi tarafından OpenFace modelleri en doğru yüz özetlerini çıkaracak şekilde optimize edilmiştir. Aralarında en başarılı model VGG-Face iken çok kompleks yapısı sebebiyle gerçek zamanlı çalışmalarda doğruluktan feragat edilip OpenFace tercih edilebilir.

VGG-Face mimarisiVGG-Face 224x224x3 boyutunda girdi beklerken (burada 3 renkli resim olması sebebiyle RGB kodlarını ayrı ayrı ifade etmektedir), 2622 boyutlu bir çıktı vektör üretmektedir. Modeli Keras kullanarak aşağıdaki şekilde dizayn edebiliriz.



model = Sequential()
model.add(ZeroPadding2D((1,1),input_shape=(224,224, 3)))
model.add(Convolution2D(64, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(64, (3, 3), activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
 
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(128, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(128, (3, 3), activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
 
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, (3, 3), activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
 
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, (3, 3), activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
 
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, (3, 3), activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, (3, 3), activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
 
model.add(Convolution2D(4096, (7, 7), activation='relu'))
model.add(Dropout(0.5))
model.add(Convolution2D(4096, (1, 1), activation='relu'))
model.add(Dropout(0.5))
model.add(Convolution2D(2622, (1, 1)))
model.add(Flatten())
model.add(Activation('softmax'))

model = Sequential()

model.add(ZeroPadding2D((1,1),input_shape=(224,224, 3)))

model.add(Convolution2D(64, (3, 3), activation='relu'))