一.提出背景
基于FCN全卷积网络的分割面临诸多问题,这篇文章从多尺度入手,提出了金字塔模型来提取多尺度的信息,达到了 State-of-the-art 的结果
论文:PSPnet:Pyramid Scene Parsing Network 【点击下载】
Caffe代码:【Github】
二.算法框架
算法细节比较多,这里我主要强调以下几个关键点:
1)通过多尺度 Pooling 的方式得到不同 Scale 的 Feature,Concat 得到判别的多尺度特征;
2)加入额外的深度监督 Loss
三.数据训练
1)下载 Github 代码
按照 readme 说明文件进行编译和运行,不多说。
原版本支持 cuda7.5 和 cudnn v4,高版本的童鞋可以【下载这个版本】。
下载 matio
./configure $ make $ make install
2)准备训练数据
自己标注训练数据,参考 VOC Segment 格式。
标注工具:
【LabelImgPlus】 风格与LabelImg 一致,可以载入文件夹批量标定;
【Labelme】 MIT的开源工具,单张标注,可以自己扩展;
【CityScapesTool】 CityScapes 数据集自带的脚本,包括 Annotation、格式转换等脚本;
3)准备训练模型
训练模型:下载
注意,如果训练自己的数据,需要准备好初始化 caffemodel,避免过拟合。
四.测试结果
训练完给出~