[科普中国]-信息内容审计-

简介

如何加强网络中信息安全管理，保证网络信息内容的合法性、健康性和安全性，已成为网络通信领域亟待解决的重大问题。在此情况下，网络信息内容审计应运而生，为应对网络信息安全问题提供了有效对策。目前，网络信息安全审计作为一种有效的管理措施和取证手段已经被许多国家所接受，并得到多数的认可，成为保证网络安全不可或缺的重要组成部分，其相关理论技术研究也越来越得到人们的重视。基于网络信息的内容审计技术可以通过对网络上传输的内容进行审计，发现问题，及时切断连接，并保留日志。不仅可以防止网络上传输的不良信息的泛滥和公司内网涉密信息或商业信息的泄露，而且可以为出现不良信息传播和涉密信息泄露的情况下提供线索和证据1。

网络信息内容审计与信息检索等研究具有一定相似性，两者均以文本为主要的处理对象，都按照一定规则进行分析并得出有益的结果。但两者也存在较大区别，在系统模型、数据源、分析规则、应用需求等方面存在差异。网络信息内容审计涵盖了计算机网络、自然语言处理、数据挖掘、人工智能、复杂网络等多个学科领域，涉及的研究内容较多，目前还没有相关方面的综合性论述文献2。

审计模型在内容审计研究初期，系统模型为主要研究内容，已有结构模型主要有单一主机集中式结构及监听与审计分离的分布式结构等。

单一主机集中式结构采用单一主机完成数据包提取、内容审计、报警等功能，该结构实现简单，主要应用于低带宽网络环境、小规模网络及算法研究与测试。

分布式结构将监听与审计模块分布实现，同时会采用均衡算法对流量进行分流。文献研究了一种网站内容安全监管系统的框架，采取提取、搜索、滤除和审计4个步骤进行内容检查;文献提出了一种分布式网络内容监控审计系统，采用一台主机作为数据接收机，并根据负载均衡的策略，进行数据包处理和内容审计。文献介绍了一种基于内容安全的局域网监控系统。另外，还有不少文献也描述了相似的系统模型。

从总体上来看，已有的分布式结构具有较好的可实施性及可扩充性，但主要还是面对局部网络的内容审计，对于大规模网络环境下的应用还存在不足。并且这些结构在审计细节上描述较为粗略，离实用还有一定距离。

概括来讲，已有系统模型主要是针对局部网络区域的内容审计，难以满足大规模网络环境下的复杂多变的审计要求。同时，由于网络流量的增长速度已远远高于处理器处理能力的增长速度，因此使用负载均衡算法来应付大流量内容审计是必须的，但已有的分流技术存在不足，不能实现真正的负载均衡，需要进一步完善数据负载均衡算法。审计体系对系统自身的安全性能考虑较少，在审计系统内部模块的通信安全以及系统自身抗攻击能力等方面存在缺陷，极易受到有经验网络使用者的攻击。

文献描述了一种适合于大规模网络环境的分布式、可扩展的高性能内容实时审计系统模型。该系统模型在审计性能和安全性方面都有较大的提升2。

关键技术获取数据包后，审计系统对其内容进行深度分析，此过程涉及模式匹配算法、文本语义分析、热点话题发现、不良图像内容识别等关键技术。

模式匹配算法审计系统利用多模式精确匹配和多模式相似匹配算法搜索数据包中是否存在敏感模式串，并统计模式串出现的频率，为后续的文本内容分析提供支持。

与其他应用环境相比，内容审计中的多模式匹配有如下特点:一是中英文混合环境，由于编码的原因，数据包中与协议相关的部分通常是英文字符，与内容相关的则主要是中文字符，而且两者会交替出现。就中文而言，由于汉字有简繁体之分，文本中会包含2种或2种以上编码的字符。二是不良信息内容发布者会人为在信息中加入干扰字符。另外，由于中英文语言存在比较明显的差异，如中文语言是大字符集语言，字母表数量庞大，词语字符长度较短；英文语言的字母表小，字符长度较长等，这些差异使得在中英文混合环境下进行内容审计的模式匹配算法要求也不同。

研究文献提出的经典DFSA算法应用于英文字符环境时效率很高，但直接应用于中文字符匹配时，构建中文字符的完全Hash表时存在存储空间膨胀问题。通过分解中文字符内码构造组合状态自动机，解决了中文字符构建完全Hash表时的空间膨胀问题，但它在中英文混合环境下，会导致字节错位问题。

采用加“标记”方法来防止匹配中的错位问题，该方法解决了中英文混合环境下字节错位的问题，但需要对待匹配文本串进行预扫描，匹配效率较低，而且该算法没有考虑ACSII，GB，BIG53种编码混合的情况。通过对中文字符内码的高低字节进行Hash运算，将中文字符映射到大小为65536的集合中进行匹配，该算法避免中英文混合环境下的字节错位问题，也适用于3种编码混合的情形，但对每个中文字符的映射运算，影响了算法的匹配效率。给出并证明了中英文混合环境下多模式匹配算法的性能定理，提出了一种适合于中英文混合环境的多模式匹配算法，该算法在中英文混合环境下能够进行正确高效的匹配，而且不存在空间膨胀问题。

涉及到中文的多模式相似匹配会更加复杂。已有多模式相似匹配算法允许在模式串的任意位置插入字符，但一个中文字符的两个字节中间不允许插入字符，在包含m个汉字的字符串中存在m个禁止插入位，因此在中英文混合环境下，已有多模式相似匹配技术会导致错误的匹配结果。文献提出了一种适合于中英文混合环境的多模式相似串匹配算法，该算法把所有模式串转换为多个有限自动机，并利用模式串建立一个状态驱动器，依次用待匹配串的字符驱动状态驱动器，再由状态驱动器驱动各个有限自动机。

文本内容分析技术文本内容分析在内容审计中用于深度识别可疑文本，同时发现当前信息流中的热点信息。目前文本内容分析技术大多以词语为基本元素，构建文本表示模型，分析文本相似度并采用分类等方法确定其属性。

中文词语之间没有明确的隔断标志，需要进行分词处理。目前最常用的中文分词方法有基于统计的机械分词方法及基于规则的知识分词方法。机械分词方法首先查询字典进行匹配，然后利用词法规则进行分词歧义校正。在文献中提出了机械分词方法的形式化描述模型，此模型可简单描述机械分词方法所采用的具体算法策略。知识分词方法不仅通过词典匹配，还利用词法、句法甚至语义等方面的知识，利用知识的范围更广，同时还可通过人工智能技术进行推理，并将分词与歧义校正合为同一过程。

将已有分词算法应用到网络信息内容审计中时，存在分词速度慢，缺乏权威、专业的分词语料库支持、鲁棒性较差等问题，需要深入研究适合于内容审计的分词方法。

在中文分词基础上，进而采用VSM(vector space model)模型对文本进行形式化建模，计算文本的相似度。为了便于计算文本之间的相似度，通常进行特征选择处理。常用的特征选择算法有χ2统计、文档频数、期望交叉熵和文本证据权等。进行文本相似度建模后，可进一步采用类中心分类法，贝叶斯、KNN和神经网络等分类算法，实现对文本内容的判别。

对于普通完整文本，文本分类系统的效果主要取决于中文分词的准确度、特征选择、分类算法和训练文本。而在内容审计系统中，分类对象为数据包中的片断文本，对于这样的特殊需求，现有文本分类算法均有不足。

文献针对这一问题，考虑数据包报文分段对文本分类的影响，在KNN算法的基础上，提出了一种基于上下文的模糊K-最邻近文本分段分类算法。该算法比KNN算法有着更高的查准率、查全率及正确率，并且分类所需时间也更少。

近年来，随着网络舆情分析研究的逐渐兴起，网络话题识别与跟踪成为研究热点。目前相关研究集中于挖掘Web文本(新闻、博客等)中的话题信息，同时也有部分研究者针对网络流量内容数据，应用文本内容分析技术分析话题信息。文献基于网络流量内容中话题的流相关特性，采用聚类算法分析网络热点话题信息；文献针对短信流量内容中的突发性热点话题，提出基于特征关联的短信息热点话题发现算法。这些研究虽然仍处于起步阶段，但为网络内容审计技术拓展出了新的研究方向。

不良图像内容识别不良图像作为色情信息的重要载体，一直是内容审计的重点对象之一。色情图像的识别属于基于内容的图像过滤范围，但又具有一定独特性，很难用一个简单模型把色情图像所有的特征表现出来，但色情图像也具有比较独特明显的特征，即皮肤裸露。概括来讲，不良图像内容识别主要包括肤色区域检测及敏感特征提取等技术。

肤色检测通常采取颜色空间变换、肤色区域建模两个步骤建立肤色统计模型，实现对肤色区域的检测。肤色在颜色空间的分布相当集中，但受光照和人种的影响很大，通常需选择合适的颜色空间来进行肤色检测。文献讨论了颜色空间选择问题，并对所选空间的最优性进行了论证。但是由于肤色检测问题的复杂性，只能根据不同的性能指标选择相对最优的颜色空间。

肤色范围建模通过划定人体肤色取值范围，并设定相应阈值区分图像中的肤色区域；文献采用单峰高斯模型对肤色进行建模区分；文献为离散化的颜色空间中的单位区域设定一个概率值，采用规则化查找表或贝叶斯分类算法对肤色区域进行检测。

在肤色检测的过程中，需要进行纹理分析来去除类似肤色的区域。文献采用基于DCT变换和Gabor小波变换两种方法提取皮肤纹理特征。文献使用灰度共生矩阵来提取纹理特征。文献根据色情图像肤色区域的纹理特征，建立粗细度模型检测皮肤纹理。

获得肤色掩码图像后，进一步提取色情图像的检测特征，构建识别特征向量，将色情图像识别转换成分类问题，然后选择合适的分类器进行识别。文献综合考虑了人体部位结构、部位之间的关联以及颜色与纹理等因素，提出了人体敏感部位的识别方法；文献将SVM分类算法应用于色情图像内容识别；文献在提取人体肤色的基础上加上了面部检测的模块，并结合图像轮廓、面积等多项图像特征进行识别。文献通过建立人体躯干模型，确定图像中人体躯干的大概位置，在此基础上提取色情图像的分类特征。

评估与处理经过上述内容分析后，审计系统根据审计结果，对一定时间内、一定网络范围内的内容安全态势进行评估与预测，在必要时与网络安全防火墙进行安全联动，实施在线阻断等安全防护措施，并向网络管理者提交可订制的内容安全审计报告。

内容安全态势评估与预测通过综合分析一定周期内的审计结果，对当前网络信息内容的安全态势进行评估，并对未来的内容安全趋势进行预测，实现对不良信息内容大范围传播的有效控制，一方面根据事态严重程度采取应对措施，遏制事态的发展；另一方面可以评估已采取措施的有效性，为后续措施选取提供依据。

近年来，在网络安全研究领域，安全态势评估正成为一个研究热点，被国内外研究者广泛关注，文献提出了一种基于免疫的网络安全风险检测模型，实现对网络系统面临攻击时的实时风险评估；文献提出了一个由风险网络和风险传播算法构成的风险传播模型。上述研究大多专注于网络化系统自身的物理安全，针对网络信息内容的安全态势评估的研究还较少。与网络系统安全评估不同，内容安全态势评估的数据来源为内容安全警报记录和可疑文本的类别信息及信息传播过程的规律，更注重网络使用者思想层次的规律研究。

在评估内容安全历史状况的基础上，还需对内容安全态势变化的趋势进行预测。尤其是Web社会网络、IM社会网络等新型社会网络模式，为网络信息快速传播的拓扑基础。

从本质上讲，网络内容安全态势问题是用户在此类社会网络上对热点信息关注并传播的问题。针对这一问题，研究者一方面研究基于传染病模型和流言模型，建立关注并传播热点不良信息用户规模趋势的预测模型；另一方面针对社会网络中用户关注热点不良信息的行为趋势，研究了相应的预测模型。文献研究了社会网络边的非均匀性和网络结构对SIR模型传染病传播的联合影响，文献提出了一个基于二维小世界网络的流行病预警SI模型，文献提出了小世界网络中的流言传播模型，并对流言在网络中的传播过程进行了描述，文献提出了无尺度网络中的流言传播模型。文献研究了用户年龄、性别、居住地等属性与用户行为趋近的关联关系，文献研究了网络用户的行为特征，提出了预测用户是否关注并传播热点信息行为的动态概率模型。上述研究为网络内容安全态势的趋势预测提供了重要理论依据，在其基础上，可构建内容安全趋势预测的数学模型。

在线处理与阻断当发现违反安全策略的信息内容后，审计系统会根据策略实施相应的在线处理措施，部分措施在审计系统内部完成，如重点监控、证据保留、关键词敏感度提升等；部分与防火墙等环节协同完成，包括危险流量阻断、网络通信限制，其机制与入侵检测和防火墙的联动机制相似。

内容审计系统中的在线阻断技术具有较大的实现难度。首先，对传播不良信息的数据包的准确判定具有较大难度，满足怎样的条件可以被认定为恶意数据包，是很难确定的。其次，使用在线阻断对网络流量进行过滤，会造成网络数据传输效率的下降，可能会严重影响正常流量的传输。一般只在网络安全态势严重时才采取在线阻断策略。

网络安全联动响应机制可以发挥不同安全技术的特点，从而取得更好的网络安全防范效果，研究重点是信息的收集与分发机制及信息格式的规范化。目前，主要有IETF的入侵检测信息交换格式IDMEF和事件对象描述交换格式；DAPRA的通用入侵检测框架协议组和开发接口；DMTF的通用信息模型。目前，国外有一些研究机构开始这方面的研究，但都不够深入，还没有形成成熟的技术。

审计研究的热点与难点流媒体视频内容审计网络视频具有内容丰富、感观性强等特点，已经成为不良信息在互联网上传播的主要方式之一。如何及时、准确地识别此类视频流量，并采取有效的监管措施，已经成为十分紧迫的问题。内容审计系统需要对不良视频流媒体数据实时检测与阻断，目前还没有很好的实时审计检测方法。现有的检测方法大多需要提取完整视频文件的帧图像，然后采用不良图像内容识别的方法进行检测。这些方法无论是实时性还是准确度都无法满足内容审计的需求。

动态信息流的特征分析现有内容审计研究在分析流量中不良信息时，侧重于网络中不良信息的出现情况。通过对流量内容中的敏感词汇进行模式匹配，统计并显示一个节点处的不良信息传输态势。这样的处理过程较为被动，只有当不良信息大量扩散，并造成恶劣影响后，内容审计系统才能作出一定响应。

信息在网络流量中看似以混沌模式、无规则地向网络中各个节点传播，但研究发现其传播具有规律性，特别是一些热点信息的传播。在具体研究中，可以从流量信息的核心内容及传播链路等方面入手，研究热点信息的兴起、传播、扩散过程，并研究信息传播过程中表现出来的特征，从而挖掘出流量中所隐藏的信息流。对信息流的研究可分为两个方面:一是研究热门信息的内容特征；二是研究信息流的传播模式。第2方面的研究建立在第1方面研究的基础上。在研究中，可以通过对信息流传播模式的分析、建模，预测出未来网络中信息流发生并传播的情况，并且推测出现实社会中舆论走向和可能发生的群体行为。

关键词列表动态更新在已有的内容审计系统模型中，几乎都是采取人工建立关键词表，然后将数据包内容同关键词匹配，以查找可疑数据包。由于很难建立一个全面、客观、及时更新的关键词表，使得传统的处理流程局限性很大。特别是在知识爆炸的年代，网络上每天都会产生许多新兴的热点词汇，例如“超女”、“神舟”等，并且与这些热点词汇相关的网络内容大多具有较强的舆论价值。因此，有必要通过一些技术手段，动态追踪网络新兴词汇的产生及发展。

新兴词汇的特征是在短时间、较小区域内重复大量出现，因此，可以通过对数据包内容进行分词处理，并统计词频信息，将短时间内以较高频率出现的词汇提取并提交给分析人员处理。通过人工的分析，找寻出可能的新兴关键词汇，并用以扩充更新内容审计系统中关键词列表。

主动式内容传播检测随着P2P技术的大量应用，越来越多的P2P用户使用相应软件共享文字、图片、视频等数据，这些文件数据中可能存在大量不良信息，如何跟踪P2P协议数据中不良信息的传播成为很有意义的问题。现有网络内容审计系统的常见模式是对网络中不良信息传播的被动检测与处理，缺乏全局有效的跟踪策略，对于利用P2P网络传播不良信息缺乏有效控制手段。

实现主动式的不良内容传播检测，可首先伪装成不良信息的获取与传播者，然后解析不良信息种子的相关属性，进而发现这些不良种子的网站发布源，并进入到这些种子的下载任务中，获取使用该种子的网络用户规模及IP地址分布，从而实现对不良信息传播过程的跟踪监控。

信息内容动态迁移研究信息传播过程中，在不同时间将呈现出不同的关注焦点，针对信息焦点内容的动态迁移过程，研究焦点内容的识别方法，并研究其演变模型，是网络内容审计技术的前沿研究方向之一。针对该项研究，可根据热点信息传播中关注焦点内容具有阶段性的特点，并且新的关注内容呈现出由前一个或两个关注内容所决定的规律，将关注焦点内容看作各个不同的不良信息状态，研究不良信息状态之间的迁移规律，并采用隐Markov模型等手段对信息焦点内容的迁移过程进行建模。