YOLO v1:You Only Look Once - Unified, Real-Time Object Detection

将边框作为一个回归问题，直接卷积。选择直接用卷积神经网络来输出预测边框与预测类别准确度，最终输出是一个 7x7x30 的三维矩阵。将整个输入图片分为 S x S(S=7)个网格grid cell，每个网格对应一个30维的向量，前10维为这个grid cell上生成的两个bounding box的五个参数，后20维是该grid cell对应20个类别的条件概率。根据输出的 49x2=98 个bounding box与类别概率，进行非极大值抑制 non-maximum suppression，删除冗余边界框。