大数据主要来源于大联网、大集中、大移动等信息技术的社会应用,不但是信息技术从单项应用到多项融合的结果,而且是信息技术从前端简单处理向后端复杂分析演变的表现,更是社会高度信息化的必然产物。大数据将给我们带来更大的视野和更新的发现,进而改变我们的生活、工作和思维方式。许多科学家预言,在21 世纪,无论是自然科学领域还是社会科学领域,大数据都将带来无限的发展机遇。
计算机技术应用于农业已有30 多年的历史了,经历了从起步、普及、提高、推进等一系列阶段。进入21 世纪以来,农业与农村信息技术的研究和应用进入高速发展阶段,已成为现代农业的重要标志。农业领域中每一项技术的进步,都从某种程度上加深了农业大数据存在和研究的必要性。
我国是农业大国,一直非常重视全国性的农业科技信息资源数据资源建设。农业领域是大数据产生的无尽源泉,具有浩大的数据基础。随着各种智能传感终端在农业领域的应用,农业数据来源更加广泛、新颖、迅速,类型更加多样,农业数据体量大、结构复杂、模态多变、实时性强、关联度高,利用大数据技术进行农业相关应用研究,其意义将非常明显。
一、大数据
与云计算的横空出世非常相似,大数据似乎也在一夜之间家喻户晓。但略有不同的是,云计算发展早期主要由企业推动,而大数据则几乎同时得到了政府、企业、学术界等各界的共同青睐。大数据最早是由著名未来学家阿尔文·托夫勒在1980 年提出的,他在《第三次浪潮》书中,将大数据称为“第三次浪潮的华彩乐章”。大数据具备3 个基本特征:体量浩大(volume)、模态繁多(variety)、生成快速(velocity),或者就是简单的“3V”,即庞大容量、极快速度、种类丰富的数据。
二、农业大数据
(一)农业大数据内涵
农业数据主要是对各种农业对象、关系、行为的客观反映,一直以来都是农业研究和应用的重要内容,但是由于技术、理念、思维等原因,对农业数据的开发和利用程度不够,一些深藏的价值关系不能被有效发现。随着大数据技术在各行各业广泛研究,农业大数据也逐渐成为当前研究的热点。
农业大数据解决的问题不是存量数据激活的问题,而是实时数据的快速采集和利用的问题;农业大数据解决的问题不是关系型数据库集成共享的问题,而是不同行业、不同结构的数据交叉分析的问题。农业大数据至少包括下述几层含义:
基于智能终端、移动终端、视频终端、音频终端等现代信息采集技术在农业生产、加工以及农产品流通、消费等过程中广泛使用,文本、图形、图像、视频、声音、文档等结构化、半结构化、非结构化数据被大量采集,农业数据的获取方式、获取时间、获取空间、获取范围、获取力度发生深刻变化,极大地提高农业数据的采集能力。
跨领域、跨行业、跨学科、多结构的交叉、综合、关联的农业数据集成共享平台取代了关系型数据库成为数据存储与管理的主要形式,基于数据流、批处理的大数据处理平台在农业领域中的应用越来越频繁,交互可视化、社会网络分析、智能管理等技术在农业生态环境监测、农产品质量安全溯源、设施农业、精准农业等环节大量应用。
农业产业链各个环节的政府、科研机构、高校、企业达成竞争与合作的平衡,农业大数据协同效应得到更好的体现。农业大数据形成一个可持续、可循环、高效、完整的生态圈,数据隔离的局面被打破,不同部门乐于将自己的数据共享出来,全局、整体的产业链得以形成,数据获取的成本、渠道大大降低。
大数据的理念、思维被政府、企业、农民等广泛接受, 海量的农业数据成为决策的依据和基础,天气信息、食品安全、消费需求、生产成本、市场价格等多源数据被用来预测农产品价格走势,耕地数量、农田质量、气候变化、作物品种、栽培技术、产业结构、农资配置、国际市场粮价等多种因素用来分析粮食安全问题,政府决策更加精准,政府管理能力、企业服务水平、农民生产能力都得到大幅度提高。
(二)农业大数据获取
农业大数据获取是指利用信息技术将农业要素数字化并进行有效采集、传输的过程。目前,农业领域的数据积累还处于相对初级阶段,达不到电信、金融、互联网等领域的数据积累水平。然而农业数据采集方式的变化,自动化、智能化、人工化信息终端的大量涌现,数据的实时、高清以及长久保存等需求,使得农业大数据成为可能。农业大数据源来自农业生产、农业科技、农业经济、农业流通等方方面面,不同的数据源,对应不同的数据获取技术。从目前情况分析,农业大数据获取主要包括以下几方面。
1.农业生产环境数据获取
农业生产环境数据获取是指对与动植物生长密切相关的空气温湿度、土壤温湿度、营养元素、CO2 含量、气压、光照等环境数据进行动态监测、采集,主要依靠农业智能传感器技术、传感网技术等。随着多学科交叉技术的综合应 用 , 光 纤 传 感 器 、 MEMS(micro-electro mechanical systems)微机电系统、仿生传感器、电化学传感器等新一代传感器技术以及光谱、多光谱、高光谱、核磁共振等先进检测方法在植物、土壤、环境信息采集方面广泛应用,农业生产环境数据的精度、广度、频度大幅度提高。与此同时,传感器终端的成本逐渐降低,大范围、分布式、多点部署成为现实,数据量呈级数增长。
2.生命信息智能感知
生命信息智能感知是指对动、植物生长过程中的生理、生长、发育、活动规律等生物生理数据进行感知、记录, 如检测植物中的氮元素含量、植物生理信息指标,测量动物体温、运动轨迹等。常用的生命信息感知技术包括光谱技术、机器视觉技术、人工嗅觉技术、热红外技术等。生命信息智能感知改变了原有的、以经验为主的、人工检测模式,使生命信号感知更加科学、更加智能,实时性、动态性、有效性得到大大提高。农业生命信息是对农业生产对象本身的数字化描述,是对生命个体进行监测管理的重要依据,具有典型的时效性。
3.农田变量信息快速采集
农田变量信息快速采集主要是对农田中的土壤含水量、肥力、土壤有机质、土壤压实、耕作层深度和作物病、虫、草害及作物苗情分布信息采集,一般分为接触式传感技术、非接触式遥感技术。国内在农田空间信息快速采集技术领域已经积累了较丰富的理论基础和实践经验,已设计出便携式土壤养分测试仪、基于时域反射仪(TDR)原理 的土壤水分及电导率测试仪、基于光纤传感器土壤pH 值测试仪,并在作物病虫草害的识别、作物生长特性与生理参数的快速获取等方面开展了有益的探索。精准农业是农业信息化的重要方向,快速、有效采集和描述影响作物生长环境的空间变量信息,是精准农业的重要基础。高密度、高速度、高准确度的农田信息具有数据量大、时效强、关联度高等特点。农田变量信息主要服务于精准农业生产,强调实时性、精准性等特点,属于局部、微观、持续的农业数据。
4.农业遥感数据获取
农业遥感数据获取是指利用卫星、飞行器等对地面农业目标进行大范围监测、远程数据获取,主要采用遥感技术。遥感技术是一种空间信息获取技术,具有获取数据范围大、获取信息速度快、周期短、获取信息手段多、信息量大等特点。农业遥感技术可以客观、准确、及时地提供作物生态环境和作物生长的各种信息,主要应用在农用地资源的监测与保护、农作物大面积估产与长势监测、农业气象灾害监测、作物模拟模型等几个方面。农业遥感数据能反映大面积、长时间的农业生产状况,属于宏观、全局层面的农业数据。
5.农产品市场经济数据采集
农产品市场经济数据采集是指对农产品生产、质量、需求、库存、进出口、市场行情、生产成本等数据进行动态采集,涉及农业流通、农产品价格、农产品市场、农产品质量安全等,具有较强的突发性、动态性、实时性、变化性,一般由“智能终端+通信网络+专业群体”组成。随着科学技术的发展,移动终端诸如手机、笔记本、平板电脑等随处可见,加上网络的宽带化发展以及集成电路的升级,人类已经步入了真正的移动信息时代,基于智能终端的农产品市场经济数据采集越来越频繁,数据量越来越大,图片、视频等数据格式激增。基于3G 的基层农技推广平台等是农产品市场经济数据采集的典型应用。
6.农业网络数据抓取
农业网络数据抓取指利用爬虫等网络数据抓取技术对网站、论坛、微博、博客中涉农数据进行动态监测、定向采集的过程。网络爬虫(网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,有广度优先、深度优先2 种策略。农业网络数据是在互联网层面对农业各方面的客观反映,具有规模大、实时动态变化、异构性、分布性、数据涌现等特点。搜农、农搜等搜索引擎都是基于主题爬虫的农业数据获取平台,在农业网络数据获取方面具有一定基础。
(三)农业大数据现状
1.农业大数据重要性日益凸显
经过多年的发展,农业数据库、农业信息系统、农业专家系统、农业遥感、农业物联网等现代信息技术在农业生产活动中应用取得了非常显著的成果。云存储、数据仓库等技术为数据的海量存储提供了可能,传感器、遥感数据、移动终端、网络等都积累了大量的农业数据。伴随着大数据技术的飞速发展,农业信息化的发展必然从“技术驱动” 向“数据驱动”转变。目前,农业领域都在积极部署农业大数据相关方面的研究,农业大数据重要性日益凸显。中国农业科学院农业信息研究所发起了信息联盟,旨在促进涉农信息资源与专家队伍的集成、共享,联合推进农业信息云服务;山东农业大学发起了农业大数据产业技术创新战略联盟(http://www.nydata.com.cn/),以期促进大数据在山东农业领域研究及成果应用发展。2014 年,科学数据大会举行,专门设立农业与农村信息化大数据技术与应用分论坛。
2.农业大数据积累初具规模
我国农业信息化研究长期以来一直非常重视农业数据的积累,目前农业大数据已经具备了一定的规模,数据的存储格式以结构化数据为主,视频、图片等数据量也在不断攀升。农业科学数据共享中心(试点)项目于2003 年正式启动,重点采集作物科学、动物科学与动物医学类科学、农业科技基础数据等农业科技类基础数据。截至2012 年,农业科学数据中心数据总量448.93GB。全国基层农技推广信息化平台,构建了粮食作物、经济作物、蔬菜、果树、畜牧等农业技术数据库,面向全国70 万农技员提供服务,总记录超过10 万条,视频数据超过5000 个。中国科学院计算机网络中心研发的地理空间数据云平台(http:// www.gscloud.cn/),现有地学遥感数据资源约280 TB,以中国区域为主,覆盖全球地理范围。中国作物种质资源信息网(CGRIS),拥有粮食、纤维、油料、蔬菜、果树、糖、烟、茶、桑、牧草、绿肥、热作等200 种作物,41 万份品种、种质、基因信息。
3.农业大数据研究具备了一定基础
农业信息化研究工作一直与农业数据密切相关,相关方面的研究主要集中在监测与预警、数据挖掘、信息服务等方面,基于数据的农业信息处理分析具备了一定的基础条件。据不完全统计,目前全国与农业相关的主要监测、预警系统共有84 个,其中食物保障预警系统12 个,食品安全监测预警系统18 个,市场分析与监测系统35 个,作物分析与预警系统19 个;中国搜农作为国内首款农业垂直搜索引擎,持续稳定运行6 年,获取了海量的农业信息,信息总量超过100TB,信息更新周期平均为30min,目前每周平均信息增长量3GB,每天监控3 万多个农业网站发布的场的2 万多个农产品品种的价格、供求等信息。超过 2 万多个农产品批发、集贸市
三、农业大数据应用展望
基于大数据的理论和技术,不断推进传统领域创新与应用实践,为国家经济社会发展提供了新的生长点。在农业信息化不断发展的过程中,已有部分领域完成了大数据积累,具备了利用大数据理论与技术进行深入数据分析和价值发现的条件。根据当前农业信息化发展的现状,笔者认为大数据在农业领域的应用主要集中在以下几个方面。
(一)精准农业可靠决策支持系统
变量决策分析是精准农业技术体系中的核心,致力于根据农田小区作物产量和相关因素,在农田内的空间差异性,实施分布式的处方农作。高密度的农田信息获取后, 怎样根据这些不同角度的农田信息,推出一整套具有可实施性的精准管理措施,是需要多学科交叉的研究课题。专家系统、作物模拟模型、作物生产决策支持系统传统的生产决策技术取得了一些成果,但效果并不理想。利用大数据处理分析技术,集成作物自身生长发育情况以及作物生长环境中的气候、土壤、生物、栽培措施因子等数据,综合考虑经济、环境、可持续发展的目标,突破专家系统、模拟模型在多结构、高密度数据处理方面的不足,为农业生产决策者提供精准、实时、高效、可靠的辅助决策。
(二)国家农村综合信息服务系统
国家农村综合信息服务,按照“平台上移,服务下延” 的思路,集成与整合各分散的信息资源与系统,在全国范围实现信息资源的共享,数据资源体量大、数据处理流程复杂、信息服务模式多样,需要实现海量农业信息化数据获取、传输、加工、服务一体化处理。利用大数据处理分析技术,研究复杂多样、动态时变用户需求的快速聚焦与大规模服务及用户动态需求组合的学习和进化机制模型,突破农户需求智能聚焦技术,实现信息服务按需分配以及云环境下大规模部署的智能系统服务与庞大“三农”用户群的多样性、地域性、时变性等个性化需求快速对接。
(三)农业数据监测预警系统
农业数据监测预警是指对农业生产、市场运行、消费需求、进出口贸易及供需平衡等情况进行的全产业链信息采集、数据分析、预测预警与信息发布,其主要任务包括感知市场异常波动、实时监控生产风险、及时应对突发事件、推动管理关口前移等。2002 年以来,农业部开始建立农产品市场监测预警系统,启动了稻谷、小麦等关系国计民生的7 种重点农产品的市场监测预警工作。目前,监测预警技术已在农产品质量安全、农业病虫草害、农产品价格、农产品市场等领域进行了广泛应用。利用大数据智能分析和挖掘技术,实现农业信息流监测、农业数据关联预测、农业数据预警多维模拟等,大幅度提高农业监测预警的准确性。
(四)天地网一体化农情监测系统
农情信息遥感监测主要是指利用遥感等信息技术对农业生产情况信息,如作物面积、长势和产量信息、农业灾害信息、农业资源信息等进行远程监测和综合评价,辅助农业生产决策的过程。基于遥感-地面-无线传感网的一体化农情信息获取体系,在解决了数据时空不连续的难点的同时,也带来了海量农情数据融合处理的问题。与此同时,遥感技术飞速发展,特别是传感器分辨率的提高、新型传感器的应用等,遥感影像的数据量急剧增加,海量数据的存储、快速产生、信息提取、融合应用等,为遥感数据分析带来了挑战。利用大数据分析处理技术,研究天地网一体化农业监测系统中的多源多类数据的智能融合与分析、定量化反演以及网络化集成与共享关键技术,实现全局数据发现与跨学科的数据集成和互操作,为农业遥感信息的深入分析提供支撑。
(五)农业生产环境监测与控制系统
农业生产环境监测与控制系统属于复杂大系统,贯穿农业信息获取、数据传输与网络通信、数据融合与智能决策、专家系统、自动化控制等于一体,在大田粮食作物生产、设施农业、畜禽水产养殖等方面广泛应用。随着传感器技术的不断发展,农业信息获取的范围越来越广,从农作物生长过程中的营养数据、生理数据、生态数据、根系发育数据以及大气、土壤、水分、温度等农作物生产环境数据,到针对畜禽个体、群体的生长发育、环境和健康数据以及动物个体行为、群体行为、动物监控状况数据等,数据传输精度越来越高、数据传输频率越来越快、数据传输密度越来越大、数据综合程度越来越强。利用大数据技术,能够突破多源数据融合、数据高效实时处理等方面的瓶颈, 实现农作物生长过程的动态、可视化分析与管理以及畜禽养殖的个性化、集约化、工厂化管理。
伴随着农业信息化的深入推进,云计算、物联网、移动互联等信息技术在农业生产、经营、管理、服务各方面深入、广泛应用,智慧农业不断发展,大数据理论与技术农业应用已经具备了基础。在农业现代化的建设中,应该极度重视农业大数据的作用,密切跟踪国际大数据前沿技术, 结合国家现代农业建设的基本情况,制定国家层面的农业大数据发展与应用战略,梳理农业大数据重点发展领域, 凝练农业大数据关键技术,推动大数据技术与理念在农业中的应用。
作者:王文生 郭雷风