遥感影像-语义分割数据集：2020年昇腾杯初赛数据集详细介绍及训练样本处理流程

该数据集为2020年华为举办的昇腾杯其中一个赛道，依据现有的遥感地物分类要求，结合现有的地物分类实际需求，参照地理国情监测、“三调”等既有地物分类标准，依据遥感地物“所见即所得”原则，设计地物要素分类体系，共涉及一级大类8种

GIS潮流

686人浏览 · 2024-09-04 10:53:55

GIS潮流 · 2024-09-04 10:53:55 发布

原始数据集详情

简介：该数据集为2020年华为举办的昇腾杯其中一个赛道，依据现有的遥感地物分类要求，结合现有的地物分类实际需求，参照地理国情监测、“三调”等既有地物分类标准，依据遥感地物“所见即所得”原则，设计地物要素分类体系，共涉及一级大类8种。

Key	Value
卫星类型	高分一、二、六号，高景二号，北京二号，以及部分航空等数据源的可见光、多光谱载荷图像
覆盖区域	未知
场景	未知
分辨率	0.1米-4米
数量	100000张
单张尺寸	256*256
原始影像位深	8位
标签图片位深	8位
原始影像通道数	三通道
标签图片通道数	单通道

标签类别对照表

像素值	类别名（英文）	类别名（中文）
1	water	水体
2	transportation	交通运输
3	building	建筑
4	agriculture	耕地
5	grass	草地
6	forest	林地
7	barren	裸土
8	other	其它

数据处理部分

大家是否有这样的困惑，真值标签图片的像素值太小，比如1、2、3······，由于像素值太小，导致看上去标签图片全为黑色，无法看出真值标签与影像图片的像素位置是否对应？如果真值标签的像素值间隔太大，又无法直接作为训练样本。

其实有办法可以解决这个问题，那就是在像素值为1、2、3等的图片上添加一个彩色表，添加的彩色表不会改变图片的像素值，但是可以由彩色的视觉效果展示，如下图所示：

在这里插入图片描述

下面对原始影像及标签进行模型训练前的数据预处理，根据这套数据集的原始信息，原作者整理的已基本接近训练条件，现在需要做的是根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸，比如512*512，另外如果需要检查裁剪后的数据是否一一对应，最好给标签数据添加颜色表，这样就可以轻易看出影像和真值标签是否一致。

下面就是使用代码对原始影像及原始标签进行批量裁剪为512*512大小，并给真值标签添加颜色表，效果图如下所示：

在这里插入图片描述

最后可以直接用于训练的数据集结构如下所示

/path/to/
├── train
│   ├── images
│   │   ├── 2522_0_0.tif
│   │   ├── 2522_0_512.tif
│   │   └── ......
│   └── labels
│       ├── 2522_0_0.tif
│       ├── 2522_0_512.tif
│       └── ......
└── val
    ├── images
    │   ├── 2522_512_512.tif
    │   ├── 2523_0_0.tif
    │   └── ......
    └── labels
        ├── 2522_512_512.tif
        ├── 2523_0_0.tif
        └── ......