YOLO v1:You Only Look Once: Unified, Real-Time Object Detection

将边框作为一个回归问题,直接卷积。选择直接用卷积神经网络来输出预测边框与预测类别准确度,最终输出是一个 7x7x30 的三维矩阵。将整个输入图片分为 S x S(S=7)个网格grid cell,每个网格对应一个30维的向量,前10维为这个grid cell上生成的两个bounding box的五个参数,后20维是该grid cell对应20个类别的条件概率。根据输出的 49x2=98 个bounding box与类别概率,进行非极大值抑制 non-maximum suppression,删除冗余边界框。