但實際情況可不是這樣,每張圖片的物件數量不定,怎麼解決這個問題呢?科學家想出一個很棒的辦法,即利用特定設計的default box來做回歸學習,學術上也稱作anchor,假設anchor的位置和物件真實的位置(ground truth)很接近,那麼就會把學習偵測此物件的工作交由給此anchor學習,如此的動作在學術上稱做Bounding-Box regression
既然要把某個真實物件的座標(ground truth)交由特定的anchor學習,聰明的科學家們就設定出一套定義兩者之間的轉換公式,讓網路學習並定出相對定的label,在學術上稱做encode,而對於已經學習好的網路,拿到輸出並解析出在圖上真正位置稱為decode
論文上的encode 公式定義如下
:代表ground truth box
:代表defaut box
:是default box的索引
:是ground truth box的索引
:代表ground truth box中心點的x座標和defaut box中心點x座標相減並除以defaut box的寬
:代表ground truth box中心點的y座標和defaut box中心點y座標相減並除以defaut box的高
:將ground truth box的寬除以defaut box的寬並取log
:將ground truth box的高除以defaut box的高並取log
:代表由網路預測出第i個defaut box的值
(ground truth中心點座標X-anchor中心點座標X)/anchor的寬
(ground truth中心點座標Y-anchor中心點座標Y)/anchor的高
log(ground truth的寬/anchor的寬)
log(ground truth的高/anchor的高)
而實際上訓練的時候還會把encode後的值再乘上某個參數,按照y、x、w、h的參數順序分別是[10.0, 10.0, 5.0, 5.0],底下為encode完整程式碼
self._scale_factors = [10.0, 10.0, 5.0, 5.0] def _encode(self, boxes, anchors): """Encode a box collection with respect to anchor collection. Args: boxes: BoxList holding N boxes to be encoded. anchors: BoxList of anchors. Returns: a tensor representing N anchor-encoded boxes of the format [ty, tx, th, tw]. """ # Convert anchors to the center coordinate representation. ycenter_a, xcenter_a, ha, wa = anchors.get_center_coordinates_and_sizes() ycenter, xcenter, h, w = boxes.get_center_coordinates_and_sizes() # Avoid NaN in division and log below. ha += EPSILON wa += EPSILON h += EPSILON w += EPSILON tx = (xcenter - xcenter_a) / wa ty = (ycenter - ycenter_a) / ha tw = tf.log(w / wa) th = tf.log(h / ha) # Scales location targets as used in paper for joint training. if self._scale_factors: ty *= self._scale_factors[0] tx *= self._scale_factors[1] th *= self._scale_factors[2] tw *= self._scale_factors[3] return tf.transpose(tf.stack([ty, tx, th, tw]))
ground truth中心點座標X = (anchor的寬 X 網路輸出中心點座標X)+anchor中心點座標X
ground truth中心點座標Y = (anchor的高 X 網路輸出中心點座標Y)+anchor中心點座標Y
ground truth的寬 = e^(網路輸出的寬) X anchor的寬
ground truth的高 = e^(網路輸出的高) X anchor的高
self._scale_factors = [10.0, 10.0, 5.0, 5.0] def _decode(self, rel_codes, anchors): """Decode relative codes to boxes. Args: rel_codes: a tensor representing N anchor-encoded boxes. anchors: BoxList of anchors. Returns: boxes: BoxList holding N bounding boxes. """ ycenter_a, xcenter_a, ha, wa = anchors.get_center_coordinates_and_sizes() ty, tx, th, tw = tf.unstack(tf.transpose(rel_codes)) if self._scale_factors: ty /= self._scale_factors[0] tx /= self._scale_factors[1] th /= self._scale_factors[2] tw /= self._scale_factors[3] w = tf.exp(tw) * wa h = tf.exp(th) * ha ycenter = ty * ha + ycenter_a xcenter = tx * wa + xcenter_a ymin = ycenter - h / 2. xmin = xcenter - w / 2. ymax = ycenter + h / 2. xmax = xcenter + w / 2. return box_list.BoxList(tf.transpose(tf.stack([ymin, xmin, ymax, xmax])))
decode 完成後會在圖上出現大大小小的bounding box以及對應的分類分數,總數根據設計而定,但實際應用的時候不可能把全部的box都畫出來,我們會把分數較高的排在前面,分數低的排在後面,然後設定一個閥值,只把分數大於閥值的box畫出來,因此最後網路呈現的結果就會類似如下:
最後再經由一個演算法,學術上稱做NMS(Non-Maximum Suppression),就可以把一些重複性大的box濾掉,因此最後呈現的就是類似下面這張圖。這整個過程就稱為object detection,各位常看到的人臉定位就是object detection的其中一個應用