版权归原作者所有,如有侵权,请联系我们

[科普中国]-机器如何区分芒果的酸甜?分类和聚类需了解

科学为你解疑释惑
原创
最热门的科学话题,我们为你解疑释惑。
收藏

在日常生活中,人们去超市购买芒果,通常想把甜的芒果和酸的芒果分开,最终只买甜的芒果,挑选芒果的这个过程就是一个分类过程。随着信息化时代的发展,我们希望机器能够帮助人类区分芒果的酸甜,这样的需求催生了机器学习学科的出现。

在机器学习领域中,不仅有分类的概念,还有聚类的概念,在机器学习领域中其为两种不同的存在。其中,分类是指根据一些给定的已知类别标记的样本数据,训练得到模型,使模型能够对新的未知类别的样本进行预测分类。用上文的例子来说,想要机器区分芒果究竟是酸还是甜,首先要告诉机器什么样的是酸芒果,什么样子的是甜芒果。一般来说,酸芒果和甜芒果会表现出不同的特征,比如说表皮颜色,软硬程度、芒果是否有香味等,因此如果我们想让机器自动区分不同的芒果,首先我们要将甜芒果的特征告诉机器,即当一个芒果表现出黄色外皮,且芒果软硬适中,并伴随水果香味时,机器就判定该芒果是甜芒果,否则就是酸芒果。当机器学会了对这些特征进行判别,才能去对新的芒果进行酸甜的区分。

聚类是指事先并不知道样本属于哪个类别,通过一些算法,按照“物以类聚”的原理,将一组未知类别的样本划分成若干类。通常,人们按照样本间的距离或相似性等标准来定义聚类,把距离近的(相似的)样本聚为一类,把距离远的(不相似的)样本划分为其它类别,不同类别中样本差异越大越好。用上文的例子来说,我们希望机器区分芒果的酸甜,但是我们不告诉机器什么样的芒果是酸的,什么样的芒果是甜的,让机器自己去区分新的芒果属于哪个类别,但是我们要告诉机器需要分成多少个类别,比如分为2类。那么我们得到的聚类结果可能是机器按照芒果的颜色进行分类,把橘色的芒果分成一类,把青色的芒果分成另一类。

归纳来说,分类和聚类的最大的区别就是,分类会让机器先对已知酸甜的芒果进行学习,即会先让机器去学习已知酸甜的芒果是什么样子的,再对未知酸甜的芒果进行类别划分;聚类是直接让机器对未知酸甜的芒果进行类别划分,但是要告诉机器,需要划分成几类。我们希望买到甜的水果,想要使用分类算法,必须事先有一些知道酸甜的水果(即已知类别的样本),能够让机器进行学习。但是,很多时候我们可能并没有这些水果(已知类别的样本)。那么,为了仍然能够对水果进行划分,我们可以使用聚类算法,先把未知类别的水果划分为几类,再分别对每个类别进行辨别,来确定其到底是酸是甜。如此,机器就可以区分芒果的酸甜。

随着机器学习在各个领域的应用,分类和聚类也应用的越来越广泛。在有的领域,有已知类别的样本,就可以直接使用分类算法对未知类别的样本进行类别划分。而有的领域,已知类别的样本很少或者没有,就可以使用聚类算法对未知类别的样本进行类别划分。分类和聚类的思想在很多领域都有应用,知道了它们的区别,就便于人们更好的针对问题选择不同的方法来进行预测。

本文由东北大学计算机科学与工程学院副教授信俊昌进行科学性把关。