健康资讯 > iclr2020 | 如何解决图像分类中类别不平衡的问题? 尝试分离学习

iclr2020 | 如何解决图像分类中类别不平衡的问题? 尝试分离学习

2020-05-13 17:00阅读(68)

。 采样策略包括以下常见采样方法: 样本均衡采样:此方法是最常见的,即每个训练样本都有相等的机会概率要选择,即上式中的q = 1。 分类均衡采样:每个分类具有

1

采样策略包括以下常见采样方法:

样本均衡采样:此方法是最常见的,即每个训练样本都有相等的机会概率要选择,即上式中的q = 1。 分类均衡采样:每个分类具有相同的选择概率,即每个分类均等选择,然后从该分类中选择样本,即上式中的q = 0。 平方根采样:本质上,它是前两种采样方法的变体,通常将概率公式中的Q设置为0.5。 渐进式平衡采样:根据训练中的迭代次数t(时期),引入一种新的采样模式,其中同时引入IB和CB采样并调整适当的权重。 公式为

,其中t是数据集训练迭代的总数。

分类器学习

分类器学习本研究还研究并概括了单独分类器的训练:

再训练分类器(CTRT):保持表示固定,随机重新初始化分类器并对其进行训练。 最近类别均值分类器(NCM):首先计算所学习的每个类别特征的平均值,然后执行最近邻居搜索以确定该类别。 τ-归一化分类器:作者建议使用此方法对归类器中的分类边界进行重新归一化,以实现平衡。

实验结果

通过以上观察和学习分裂,本研究在几个公共长尾分类数据集中修改了头类和尾类分类的决策边界,并采用了不同的采样策略进行交叉训练实验。 下图显示了不同分类器之间的比较结果:同时,在地点LT,Imagenet LT和inarialist 2018的三个开放标准数据集上,本研究中提出的策略也实现了比分类器更高的分类精度。 去年同期,并取得了新的SOTA结果:

通过各种比较实验,该研究获得了以下观察结果:

1解耦表示学习和分类在这两个过程中均取得了很好的结果,并打破了人们固有的“ 样本均衡采样的最佳学习效果,具有长尾分类的最通用特征表示。 重新调整分类边界以实现具有长尾巴分布的物体识别非常有效。

3。 将本研究提出的解耦学习规则应用于传统网络(如resnext)仍然可以取得良好的效果,这表明该策略对于长尾分类确实具有一定的指导意义。

这项研究针对行业和学术界经常遇到的长尾样本分类问题,并建议解构传统的“分类器表示的联合学习”范式,这从另一个角度提供了新的思路:调整分类 表示空间中的边界可能是一种更有效的方法。

是一个新的研究思路,实验结果也具有代表性。 对于研究长尾巴分类的学者或工业工程师而言,除了在传统采样模式下“为表层添加更多水,为表层添加更多水”的经验之外,这还提供了其他思路。 目前,该研究的相关代码已在GitHub上开源,感兴趣的读者可以下载它以进行更多尝试。

代码实现

研究人员在GitHub项目中提供了相应的培训代码和必要的培训步骤。 整个代码是相对基本的分类训练代码,易于实现。 至于递归模型的训练,笔者还提出了一些注意点。

1。 在表示学习阶段,网络结构(例如,在全局池化之后,不需要额外的完整连接层),超级参数选择,学习率与批处理大小之间的关系与常规分类问题(例如Imagenet)一致 ,以确保表征学习的质量。 类均衡采样:使用多GPU实现时,需要考虑使每个设备具有更均衡的类采样,以避免卡上的采样类型太单一,从而进行BN的参数估计 不准确。 渐进均衡采样:为了提高采样速度,采样方法可以分为两步。 第一步是从类别中选择所需的类别,第二步是从相应类别中随机选择样本。

在分类器学习阶段重新学习分类器(CTRT):在学习阶段随机重新初始化分类器或继承该特征以表示分类器。 重点是确保将学习率重置为初始大小并选择余弦学习率。 Tau归一化:在验证集上选择τ。 如果没有可以从训练集中模仿平衡验证集的验证集,请参阅原始论文的附录B.5。 学习参数缩放(LWS):学习速率的选择与CTRT相同。 在学习过程中,应该固定分类器参数,并且仅应学习缩放因子。

这是机器的心脏。 请联系官方帐户进行授权。