数据集中存在错误标注怎么办置信学习帮你解决

雷锋网AI开发者按,如果你曾经使用过诸如 CIFAR、MNIST、ImageNet 或 IMDB 之类的数据集,那么你可能会假设类标签是正确的。令人吃惊的是,ImageNet 中可能至少有 10 万个标签有问题。为什么我们不早点找到它们?在海量数据集中描述和发现标签错误的原则性方法非常具有挑战性,解决方案也很有限。

在这篇文章中,作者讨论了一个新兴的、原则性的框架,用于识别标签错误、描述标签噪声,并使用被称为置信学习(CL)的噪声标签进行学习,该框架是开源的 cleanlab Python 包。

剪枝以搜索标签错误。例如,通过损失重加权使用软剪枝,以避免迭代重标记的收敛陷阱。 对干净数据进行统计训练,避免在不完全预测概率的情况下重新加权损失(Natarajan et al.,2017),从而避免学习模型权重中的错误传播。 对训练期间使用的示例进行排序,以允许使用不规范概率或 SVM 决策边界距离进行学习。

稀疏性(Q 中零的分数)概括了这样一个概念,即现实世界中的数据集,如 ImageNet,有一些类不太可能被错误地标记为其他类,例如 p(tiger,oscilloscope) ~ 0 in Q。如上表中突出显示的单元格所示,与 Mixup、MentorNet、SCE-loss 和 Co-Teaching 等最新方法相比,CL 显著增强了对稀疏性的鲁棒性。这种鲁棒性来自于直接建模 Q,即噪声和真实标签的联合分布。

在添加标签噪声的 CIFAR 中标签噪声的良好表征

出于弱监督的目的,CL 包括三个步骤:

为了加强重点地区新冠肺炎的防控工作,李国华先后根据山西省卫健委及单位的安排对出现不明感染来源病例的地方及疫情较重的晋城市、沁水县和平遥县进行了疫情防控和流行病学调查指导。关键时刻,她总是深入一线,靠前指导,及时发现和解决基层存在的问题,确保疫情防控工作落实到位。

雷锋网版权文章,。详情见转载须知。

此次新冠肺炎疫情开始以来,李国华便带领传染病防控科全体人员一直奋战在抗击疫情一线。他们第一时间全员行动起来,迅速进入实战状态,开始了收集疫情信息、学习国家防控、监测方案和相关文件。

理论上,论文给出了 CL(定理 2:一般的逐例稳健性)准确地发现标签错误并一致地估计噪声和真实标签的联合分布的现实条件。我们的条件允许每个例子和每个类的预测概率中有错误出现。

注意:虽然这简化了本文中使用的方法,但抓住了本质。

学校新型冠状病毒肺炎防控工作指导视频录制现场。受访者供图 摄

在高噪音和高稀疏的情况下,平均来说,CL 提高了 10% 以上高噪声学习水平和 30% 以上的高稀疏学习水平。

左:置信计数示例,这是一个不正常的联合估计;右:有三类数据的数据集的噪声标签和真标签的联合分布示例

李国华作为山西省疾控中心的首席专家更是身体力行,从首例病例的信息收集、研判,到全省疫情信息收集、病例及病原携带者流行病学调查、密切接触者的判定与管理等各项工作的安排和协调,接受采访、为各级领导提供专业意见。

彭志勇:武汉大学中南医院重症医学科主任。从年前开始他就坚守在岗位上,大年三十和同事们一起在医院吃了顿盒饭。他的科室成功治愈了一位已经使用了ECMO(体外心肺循环系统)的危重病人,这也是全省第一例。笑起来的时候,他正在说:“所有的朋友们,你们好我们才安心!你们好我们压力才小一些。”

描述标签噪声 查找标签错误 学习噪声标签 发现本体论问题

2012 年 ILSVRC ImageNet 训练集中通过置信学习确定的前 32 个标签问题。标签错误用红色框表示,绿色表示本体论问题,蓝色表示多标签图像

在 Amazon 评论中存在的标签错误的例子,使用置信学习来识别不同的数据模式和模型

CL 是在处理噪音标签的文献中制定的原则之上建立起来的:

潘频华:中南大学湘雅医院呼吸内科主任医师。整个春节,潘频华都在各地忙着抗击新冠病毒。来武汉对他来说,不过是又换了一个战场。说到最开心的事,他说:“肯定是病人好起来了!最低的死亡率、最高抢救成功率、最高出院率,这是我们的心愿!”

CL 通过直接估计标签噪声的联合分布,自动发现数据集中类的本体论问题。在上表中,我们显示了在我们估计单类数据集 ImageNet 的标签噪声联合分布时最大的偏离对角线。每行都列出了噪声标签、真标签、图像 id、计数和联合概率。因为这些是非对角的,所以噪声类和真类必须是不同的,但是在第 7 行中,我们看到 ImageNet 实际上有两个不同的类,它们都被称为 maillot。

深夜还在分析疫情。受访者供图

在上图中,每种方法的直线上的每个点,从左到右,描述了训练的准确性,去除了 20%、40%…、100% 的估计标签错误。黑色虚线用所有例子描述了训练时的准确性。当移除少于 100k 个训练示例时,使用 CL 在清洗过的 ImageNet 训练集上训练(不添加合成噪声),观察 ResNet 验证精度的提高。当超过 100k 个训练实例被移除时,观察使用 CL 相对于随机移除的改善,如红色虚线所示。

带噪标签与不带噪标签置信联合与估计联合分布的置信学习过程及实例,其中,y~ 表示观察到的噪声标签,y* 表示潜在的未损坏标签

王青霞:中南大学湘雅医院消化内镜护士长。5年前曾赴西非国家塞拉利昂抗击埃博拉病毒。新冠肺炎病毒疫情暴发后,她也第一时间请战。开朗、乐观的她相信一定能完成任务,大家都平平安安回到湖南。她最开心的事是:“我终于接通了女儿的视频,可以看她一眼。”

从上图右侧的矩阵中,估计标签问题:

李国华所带领的流调组还承担着省际、省内各市间密切接触者的协查任务,通过200多份函件的接收与发送,及时传递密切接触者的流行病学调查信息,较好地协调解决了密切接触者跨区域管理的问题。

置信学习是如何工作的?

置信学习(CL)已成为监督学习和弱监督的一个子领域,可以被用于:

1月22日,在山西省政府新闻办举行的新闻发布会上,作为山西省卫生健康委新型冠状病毒疫情应对专家组成员,李国华介绍了新型冠状病毒相关知识和疫情形势,并从传染源的管理和公众如何做好个人等方面做了重点介绍。

直接估计噪声和真标签的联合分布 适用于多类数据集 查找标签错误(错误按最有可能到最不可能的顺序排列) 是非迭代的(在 ImageNet 中查找训练标签错误需要 3 分钟) 在理论上是合理的(现实条件下准确地找到标签误差和联合分布的一致估计) 不假设标签噪声是随机均匀的(在实践中通常行不通) 只需要预测概率和噪声标签(可以使用任何模型) 不需要任何真实(保证不损坏)的标签 自然扩展到多标签数据集 作为 cleanlab Python 包,它是免费、开源的,用于描述、查找和学习标签错误

为了了解 CL 是如何工作的,让我们假设我们有一个包含狗、狐狸和牛的图像的数据集。CL 通过估计噪声标签和真标签的联合分布(下图右侧的 Q 矩阵)来工作。

估计给定噪声标签和潜在(未知)未损坏标签的联合分布,以充分描述类条件标签噪声 查找并删除带有标签问题的噪音示例 去除训练误差,通过估计潜在先验重新加权实例

李国华就是这群人中的代表,她是山西省疾病预防控制中心传染病防控科(疫苗临床试验评价室)科长,民盟山西省十一届委员会委员,民盟山西省卫生系统支部主委。

郭琴:武汉大学中南医院急救中心护士。38岁的郭琴到中南医院15年了,或许是长期呆在急救中心,她对于高强度的工作、忘我的付出没有任何抵触情绪,她管这个叫“急诊科的素质。”感染新冠病毒治愈后,她心疼同事们太忙,再三申请回到工作岗位。她笑着说,喜欢大家一起工作的感觉,“你鼓励我,我鼓励你,团结一致往前走”!

雷锋网(公众号:雷锋网)雷锋网雷锋网

黄燕:中南大学湘雅医院感染病科副主任。2月7日到来武汉之前,她一直在湖南长沙抵抗疫情、救治患者。黄燕说,她有足够的经验和心理准备应对疫情。但是说到家人,她笑着说“感谢”、说“愧疚”,笑着笑着眼泪流了下来。

我们鼓励阅读论文原文来理解公式中的符号,这里的中心思想是,当一个例子的预测概率大于每个类的阈值时,我们自信地认为这个例子实际上属于该阈值的类。每个类的阈值是该类中示例的平均预测概率。这种阈值形式将 PU 学习中众所周知的鲁棒性结果(Elkan&Noto,2008)推广到多类弱监督。

李国华赴晋城现场指导开展流行病学调查工作。受访者供图

除了完成指令性工作,作为山西省疾控中心首席专家,李国华还要应对大量的临时性的紧急任务,参与撰写全省疫情分析及防控建议、新冠肺炎病例密切接触者检测筛查方案、新冠肺炎重点人群筛查方案、新冠肺炎疫区管理方案等等,一个接着一个都要求在规定的时限内完成。

ImageNet 本体论问题中类命名问题的自动发现

论文的理论和实验结果强调了置信学习的实用性,例如识别 ImageNet 和 CIFAR 中的许多标签问题,并通过在清洗过的数据集上进行训练来提高标准 ResNet 的性能。置信学习促使人们需要进一步了解数据集标签中的不确定性估计、清洗训练集和测试集的方法以及识别数据集中本体论问题和标签问题的方法。

上图显示了 CIFAR 中标签噪声联合分布的 CL 估计,标签噪声增加了 40%。观察(b)中的 CL 估计与(a)中的真实分布有多接近,以及(c)中矩阵中每个项的绝对差的低误差。概率被放大 100 倍。

与大多数机器学习方法不同,置信学习不需要超参数。我们使用交叉验证从样本中获得预测概率。置信学习还有许多其他优点:

使用置信学习,我们可以使用任何合适的模型在任何数据集中找到标签错误。下面是常见数据集中的其他三个实际示例。

2月12日,为了做好山西省新冠肺炎近期流行态势研判,李国华从晚上8点一直到第二天早上7点,与同事们一起工作了整整一个通宵,而且此项任务刚刚结束,新的任务已经在等着她。

目前,疫情形势依然严峻,防控任务艰巨而光荣,李国华已经作好了充分的思想准备,将一如既往,勇担重任,牢记使命和初心,坚决打赢抗击新冠肺炎这场战“疫”,守护公众健康。(完)

上图显示了使用置信学习发现的 2012 ILSVRC ImageNet 训练集中的标签错误的例子。为了便于解释,我们将使用 CL 在 ImageNet 中发现的标签问题分为三类:

使用标签噪声的联合分布查找标签问题

大家都说,爱使人勇敢、使人坚强。我相信,无论面对多么大的难处,只要还有能让你笑起来的人和事,为了守护那些让你笑起来的人和事,我们一定会更加努力,也一定会取得胜利!

上表显示了 CIFAR-10 上带噪声标签的多类学习的 CL 与最新方法的比较。在高稀疏性(见下一段)和 40%、70% 的标签噪声的情况下,CL 的表现优于 Google 表现最好的 MentorNet、Co-Teaching 和 Facebook 研究院的 Mix-up,性能超过它们 30%。在使用置信学习之前,对这一基准的改进要小得多(大约只有几个百分点)。

吴安华:国家卫健委院感防控专家组成员。他最想对大家说的话是,对于传染病,预防永远都是第一位,得了病之后治疗才是第一位。1月21日来武汉的时候,低调严谨的他因为意外流出的车票火了一把。他笑着说没想到收到这么关心和问候,非常感谢。“既然来了,就把事情做好。尽自己的力量,做到最好!”

山西省疾病预防控制中心是全省新型冠状病毒肺炎疫情防控的重要技术部门,传染病防控所承担的工作更是重中之重。而作为传染病防控科科长,山西省疾控中心新型冠状病毒肺炎防控流调组组长,李国华肩上的担子可想而知。

你可能对它的数学过程比较好奇,好吧,这个计数过程采用的是下面的公式:

“工作过程中经常没有了时间概念,加班加点已成为常态。”在疫情应对的紧急关头,数据的收集、汇总和分析是领导决策的重要依据,为了按时收集、汇总、分析各种流行病学相关数据,她们经常是工作到深夜。

多标签图像(蓝色):在图像中有多个标签 本体论问题(绿色):包括“是”或 “有”两种关系,在这些情况下,数据集应该包含其中一类 标签错误(红色):数据集别的类的标签比给定的类标签更适合于某个示例

将联合分布矩阵乘以示例数。让我们假设我们的数据集中有 100 个示例。所以,在上图中(右边的 Q 矩阵),有 10 个标记为 dog 的图像实际上是狐狸的图像。 将 10 张标记为 dog 的图片标记为标签问题,其中属于 fox 类的可能性最大。 对矩阵中的所有非对角项重复此操作。

有关 CL 算法、理论和证明的全部内容,请阅读这篇论文。这里,我总结一下论文的主要观点。

学校是人群聚集的场所,也是新冠肺炎疫情防控的重点场所之一。为了科学指导山西省各地各校科学有效地抵御新冠肺炎,山西省教育厅联合山西省卫健委决定提前录制山西省学校新冠肺炎预防线上培训专题视频,希望通过视频对山西省各级各类学校做好新冠肺炎预防起到宣传和指导作用。接到这项任务,李国华又是一番准备和忙碌,保证了视频的如期录制和播放。

继续我们的示例,CL 统计 100 个标记为 dog 的图像,这些图像很可能属于 dog 类,如上图左侧的 C 矩阵所示。CL 还统计了 56 幅高概率标记为 fox 的图像和 32 幅高概率标记为 cow 的图像。

cleanlab 是一个带有标签错误的机器学习和深度学习框架,和 PyTorch 类似。在 cleanlab 文档中了解更多信息。

愿疫病早去,愿笑容长留!

样本外预测概率(矩阵大小:类的样本数) 噪声标签(矢量长度:示例数)

从第1例疑似病例开始,他们承担起了每天新冠疫情资料收集整理和分析、病例流行病学调查和密切接触者的隔离和管理、对疫情和流行病学调查资料总结和研判、向上级领导提出意见和提交报告等疫情防控中的主要任务。同时,指导全省各级疾控业务人员对病例的流行病学调查和密切接触者的排查工作,为尽快发现和管理潜在传染源,迅速阻断疫情传播发挥着重要作用。

从上图可以看出,CL 需要两个输入:

全力抗击新冠肺炎疫情“战役”中,有这样一群“战士”,他们虽然不在临床一线,却和病毒面对面拼力“交战”。他们的职责不是抢救感染的病人,而是让更多的人避免感染,守护公众的健康。他们有个共同的名字——疾控人。

CL 基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。在这里,我们在 Angluin 和 Laird 分类噪声的假设基础上,将 CL 泛化到直接估计给定噪声标签和无噪声标签之间的联合分布。