鱼类监测对于可持续渔业管理至关重要。科学家们可以通过监测鱼类种群的大小、分布和增长率来评估渔业资源的状况,制定合适的渔业政策和管理措施,确保渔业资源的可持续利用,防止过度捕捞和渔业资源的衰竭。不过,传统的鱼类监测方法存在多方面问题,主要表现在高度侵入性、可视性受限、数据处理繁琐以及难以适应大范围监测的挑战。
“海洋与湿地”(OceanWetlands)小编注意到,前段时间在《水生生态学》期刊上发表了一篇名为《摆脱阴影:声学相机自动鱼类检测》的文章,由澳大利亚的格里菲斯大学(Griffith University)海岸与海洋研究中心主任罗德·康诺利教授(Rod Connolly)领导的团队发表。这项研究为水生态学家提供了一种新的方法,利用计算机深度学习技术对声学相机拍摄的水下视频进行自动鱼类监测,从而促进了保护和管理工作的进行。
该文指出,虽然计算机视觉技术在监测水中动物方面取得了一定的成就,但在夜晚或水域混浊的情况下,这些方法可能无法发挥作用。反而观之,声学相机则能够在这些条件下持续“看到”物体。该研究团队展示了一款名为“FishID”的软件,能够可靠地从声学相机的图像中检测出鱼类、并进行计数,尤其是通过它们的声学阴影来进行。这一技术的应用,可以大幅减少使用声学相机进行监测所需的时间、人力和成本。为助力全球环境治理、并供我国学者了解最新研究动态信息,编译分享信息如下,供感兴趣的读者们参阅。
自动声学相机中的鱼类检测
在这项研究中,作者团队首先就开门见山介绍了研究的背景和动机。监测鱼类种群对于有效的管理至关重要,而传统的视频监测方法在混浊的水域中无法使用。而声学相机通过使用声波反射生成运动图像,成为了传统方法的重要取代方案。然而,声学相机和标准视频监测方法一样,会产生大量的图像数据,手动提取数据的过程既耗时、又昂贵。所以,为了解决这一问题,该研究团队使用了深度学习的一种形式——卷积神经网络(CNNs),对声学相机拍摄的双频识别声纳(DIDSON)数据集进行鱼类检测。
研究团队比较了直接声学检测、声学阴影检测以及直接和阴影的组合三种检测方法。结果显示,深度学习模型在使用声学数据进行鱼类检测的准确性非常高,而加入阴影的检测方法在数量的准确性上取得了显著提升。
上图:声学图像上深度学习模型的流程图,用于检测鱼类和鱼类的阴影。在后期处理中,仅计算直接检测和阴影检测的数量和最大数量(MaxN),然后合并以计算直接检测或阴影检测的综合数量和最大数量。图片来源:Connolly, R. M., et al.
这项研究为水下声学数据分析的自动化提供了强大的工具。通过使用深度学习技术,声学相机的监测效率得到了显著提高,为未来水生态学研究和保护工作提供了更多可能性。该研究团队呼吁,应进一步拓展测试范围,包括更多鱼类的形状、大小和数量,以实现物种(或“形态物种”)的自动识别和计数。
作者团队详细介绍了声学相机在监测鱼类的优势,以及深度学习技术在处理声学数据时的应用。研究团队使用了具有双频识别声纳的数据集,并通过自动化后处理步骤选择每个图像中鱼类或阴影检测的最大计数,从而生成“组合”计数。他们还讨论了模型在视频中鱼类最大数量(MaxN)方面的准确性。为了达到研究目的,研究团队选择了一组包含瓦利鱼和鲤鱼的专业标记声学数据集,并使用卷积神经网络进行模型训练和检测。
研究方法
在这项研究中,科学家们采用了深度学习技术中的卷积神经网络(CNN)来进行水声图像中的鱼类检测。具体而言,使用了Faster-RCNN模型,采用ResNet50配置,并使用ImageNet1k数据集进行预训练。该模型通过Microsoft Azure Data Science Virtual Machine上搭载NVIDIA V100 GPU进行训练、测试和预测。为了减轻过拟合,研究采用了提前停止(early-stopping)技术。
上图:DIDSON图像示例,其实测鱼类数量为2。检测结果以绿色(直接)和黄色(阴影)显示,附有概率,并在70%和85%的置信度阈值(CT)下给出计数。图a仅包含直接检测,对鱼类数量的估计较低;而图b将直接和阴影检测结合,正确估计了70%的CT下的鱼类数量,并在85%的CT下低估了一个。图片来源:Connolly, R. M., et al.
研究的目标是在水声图像中自动检测鱼类,通过两个关键的鱼类丰度指标进行性能测试:每图鱼数(count-per-image)和每段视频最大鱼数(MaxN)。对于这两个指标,研究使用了两个性能指标,即精度(Precision)和召回率(Recall),并在置信阈值从5%~95%的范围内以5%的间隔进行了评估。“置信阈值”是指预测所需的确信水平,精度衡量了正确检测的鱼类中有多少是正确的;而召回率衡量的是实际存在的鱼类中有多少能够被正确地检测到。
研究的总体性能评估使用了F1分数,这个分数代表了“精度”和“召回率”之间的平衡。此外,研究还通过比较对真阳性、假阳性和假阴性的物体的大小和与摄像机的距离的系统性偏差来检查错误检测是否存在系统性偏差。
上图:图a展示了每张图像的鱼类组合检测的精确度和召回率,图 b 展示了每个视频的最大数量(MaxN)组合检测的精确度和召回率。置信区间以5%的增量显示,比较性能时设置了70%和85%的置信阈值。图片来源:Connolly, R. M., et al.
研究结论
结果表明,该CNN模型能够成功地在水声图像中自动检测鱼类,无论是通过直接检测、阴影检测还是二者结合。阴影检测在一些情况下提高了模型的性能,特别是在直接检测遗漏时。在特定的置信阈值下,阴影检测对每图鱼数和每段视频最大鱼数的F1分数都有所提高。
在论文的讨论部分,作者们指出了“阴影检测”在声学图像中的潜在用途,以及该方法在减少手动计数成本和时间方面的潜在价值。阴影检测的引入,使得模型在特定情况下表现更好,对于诸如鱼类迁徙和通行的生态学研究非常的有用。此外,研究人员还建议,未来的工作应该包括更高鱼类密度、以及物种识别的考虑,这样就能更全面地测试这个模型的性能。
据介绍,研究提出的这种自动化方法颇具意义,可用于声学图像中的鱼类检测,有望在未来的声学监测和生态学研究中提高效率。通过引入阴影检测,研究者改进了模型的性能,为将深度学习技术应用于声学数据分析提供了一个可行的途径。这对于生态学、水域管理和渔业资源评估等领域都有潜在的应用前景。
海洋与湿地·小百科
卷积神经网络(CNNs)
卷积神经网络(CNNs)是一种深度学习神经网络,专为处理网格结构数据而设计,最为典型的应用领域是图像和视频识别。其核心结构包括卷积层和池化层,通过学习局部特征和逐渐降低空间尺寸的方式,实现对输入数据的高效特征提取和抽象。CNNs的全连接层进一步将这些抽象特征映射到最终输出层,使其成为在图像处理任务中取得优异成果的强大工具,如图像分类、物体检测和语义分割。这种网络结构的成功应用在计算机视觉领域推动了深度学习的发展,为解决复杂的视觉问题提供了有效的解决方案。
声学相机
声学相机(acoustic camera)是一种利用声波进行水下成像的先进设备,在我国也被称为声相(像)仪。不同于传统光学相机,声学相机可以通过高频声波在水中传播并与目标交互的方式,来捕捉目标反射的声波,通过处理和分析生成清晰的水下图像或视频。这项技术在科学研究和水下监测领域发挥着关键作用,可用于观察海洋生物、研究水下地质结构,以及监测水下设施和管道。声学相机的稳定成像能力使其成为深入理解水下环境的有力工具,为科学家和工程师提供了可靠的数据支持。
置信度阈值
置信度阈值(Confidence threshold)是在机器学习和深度学习中使用的一个参数,用于确定模型对其预测结果的信心水平。该阈值表示模型在生成预测时所需的确信度水平,通常以百分比的形式表示。通过调整置信度阈值,可以控制模型生成的预测结果的可信度,高置信度阈值将导致模型只接受那些非常确定的预测,而低置信度阈值则允许更多的不确定性。这一参数的选择取决于特定任务的要求,通过调整阈值,可以在模型的准确性和鲁棒性之间找到平衡点。在本研究中,置信度阈值用于确定深度学习模型对于声学图像中鱼类及其阴影检测的预测(通过调整置信度阈值,研究人员可以控制模型生成的预测结果的可信度)。
思考题 | 举一反三
总的来看,这个研究成功地展示了卷积神经网络(CNNs)在声学图像中自动检测鱼类的潜力,为声纳监测提供了一种有效的自动化方法,可用于节省时间和成本,特别是在低鱼类密度条件下。这对于渔业资源评估和水域生态学研究具有重要意义。不过,也有几个问题,是值得咱们读者们思考的。欢迎感兴趣的“海洋与湿地”(OceanWetlands)读者在文末留言,分享您的灼见
Q1. 在低密度鱼群的声学图像中,该研究中CNN模型表现良好,但对于高密度的鱼类,模型是否能够可靠地进行自动跟踪和计数?也即是说,模型准确性的局限性:在高密度情况下,个体鱼类相互遮挡是否会对模型的性能产生负面影响?
Q2. 另外,就是阴影检测的普适性问题:这项研究发现,在某些情况下,包含阴影信息可以显著提高模型的准确性。但是,是否可以推广这一发现到更广泛的声学图像中?阴影的效果是否受到摄像机与底床的角度、底床复杂性和鱼类行为的影响?这对于不同环境和物种是否具有普遍性呢?
Q3. 虽然这个模型在检测鱼类的存在方面表现出色,但,对于物种识别的准确性如何?声学数据的特性是否会导致某些物种的识别困难?是否有可能通过分析鱼类的行为特征来改善物种识别,例如尾拍频率或其他行为模式?
END
本文仅代表资讯,不代表平台观点。
欢迎转发(请注明来源)。
编译 | 王芊佳
审核 | Sara
排版 | Sara
参考资料略