问:今天谈文本大数据,还请您先给我们介绍一下文本大数据挖掘的基本情况。
**作者:**大数据的概念在最近的几年迅速升温,成为最热门的一个概念。企业和政府机构都纷纷加大对大数据领域的投入,但是普遍存在着应用的焦虑,甚至是有些茫然。大数据带来的不仅仅是大的机遇,同时也是大的挑战,这需要我们对大数据挖掘的意义进行更加深刻的探索。
大数据挖掘的根本意义在于从数据中提炼出有价值的信息,针对这些信息创造出洞察,再根据这些洞察并结合现状做出决定,依决定去执行,将大数据带来的机遇变为收获和成就。
大数据是一个非常大的概念,我们在这里把讨论范围聚焦在文本大数据上。相对于传统的结构化数据,业界已经做了大量的积累,对于数据的获取、存储、处理、检索等已经具备了相当多的技术储备。但是对于非结构化的大数据,特别是文本大数据,业界正在持续加大投入。
在文本大数据的源头方面,除了企业或机构内部的数据,互联网是一个巨大的来源。从互联网受众来讲,中国互联网拥有全球人数最多的网民。据中国互联网信息中心CNNIC发布的第37次《中国互联网络发展状况统计报告》中显示,截至2015年12月,中国网民规模达6.88亿,互联网普及率为50.3%;手机网民规模达6.2亿,占比提升至90.1%。在当今的这个自媒体时代,信息的传播也发生了巨大的改变,不仅量发生了爆炸式的增长,内容也更加多样化。
文本大数据处理的第一个环节就是能够迅速地获取这些数据,不论是机构内部的数据,还是互联网上相关的数据,在第一时间获取这些数据,并且是全量的数据,才是数据挖掘的根本。第二个环节就是在这些数据中进行挖掘,通过各种创新的分析工具和手段将其整合为有价值的分析结果。
问:您刚才谈到,文本大数据在大数据应用领域已经取得了一定的进展,那么,您认为文本大数据挖掘都有哪些应用场景?
**作者:**文本大数据的应用领域非常广泛,政府机构和企业非常关心的互联网舆情监测与预警,已经成为一个比较普遍的应用。企业口碑监测分析、竞争情报分析、精准营销、人物画像、企业画像、行业市场研究、客户满意度分析、风险评估、产品及业务流程优化等等多个应用场景也是以文本大数据挖掘为核心的。
问:互联网舆情作为文本大数据重要的应用领域之一,您给大家介绍一下当前互联网舆情应用情况,好吧?
**作者:**好的,从舆情监测市场来说,我国对舆情监测系统需求较大的大致可以分为党政机关和政府组织、企业、学校和科研单位等。根据2014年全年舆情系统招标信息的发布数据统计,32.3%的舆情监测系统需求来自政府组织,27.9%来自企业单位,党政机关占17.6%,科研单位13.2%,学校比例8.82%。而对舆情监测需求最大的区域前三名分别是北京、浙江和贵州,达到20%和10%的水平。市场对舆情监测的要求也越来越高,主要从信息采集的及时性、覆盖面及预警的精准度及发现危机后应对机制上有了更高的要求。
问:刚才您提到人物画像、企业画像等画像技术应用,画像技术可以带来哪些价值?实现过程是什么样的?
**作者:**在互联网逐渐步入大数据时代后,每个参与到互联网的人或企业都不可避免的留下行为记录,或者是发布在互联网上,或者是沉淀在各个日志环节中,所有的这些行为都将是“可视化”的。画像技术就是对这些数据进行挖掘,企业专注于如何利用其为精准营销服务,政府机构则专注于如何利用其为公共治理进行服务,改善公共服务,指导决策。
我们这里说的画像技术包括人物画像和企业画像。人物画像就是通过公开的数据,对人物上网行为分析,对其不同的属性进行标记,从而能够区别其喜好等特点,这些属性包括:人口属性、社交关系、兴趣偏好、消费行为、情感的倾向性,甚至是个人信用度等方面。人物画像技术可以让客户精确地了解其客户群的分类特点,从而能够选择精准的营销策略。
企业画像就是通过互联网的公开数据针对企业进行描绘,例如工商注册信息、知识产权信息、司法裁判信息、行政机构审核信息、企业及其品牌的互联网声量信息和美誉度信息等。这类信息能够让人们迅速地对一家企业的背景和经营现状进行判断,可以广泛地应用在企业监管、尽职调查、投资评估、营销等领域。
画像技术的实现可以分为这几个部分:
- 首先,收集到人物或企业所有的相关数据并将数据划分为静态信息数据、动态信息数据两大类,静态数据就是相对稳定的信息,如人物的性别、地域、职业、消费等级等,企业的工商注册、专利、软件著作权等,动态数据就是不停变化的行为信息,如人物的自媒体言论,浏览网页行为、搜索商品、发表评论、接触渠道等,企业的新闻报道,用户评价等。
- 其次,通过剖析数据为人物或企业贴上相应的标签及指数,标签代表用户对该内容有兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率等;
- 第三,用标签建模,对于人物或企业进行分类。
我们目前所实现的人物画像,已经应用到了公安的网监领域,在企业方面,也应用于意见领袖遴选、客户精准营销等方面。
问:前面您给我们分享了文本大数据以及其典型的应用场景,我想问一个更具体的应用问题,如何利用互联网大数据实现品牌监测和****分析?
**作者:**企业品牌信息的传播对于企业的营销至关重要,这些品牌相关信息出现在新闻报道,网站宣传,电商平台,以及众多自媒体信息中:博客、论坛、微博、微信公众号等。在进行监测和分析时,通过对所有这些信息源进行数据获取,从中过滤出相关品牌的信息,再进一步分析。分析维度主要包括:
- 所监测各品牌的传播总量排名分析
- 高频热词的排名
- 行业整体口碑分析,包括正负面的比例,以及相关的热词
- 地域分布分析
- 产品多维度观点分析,比如对于汽车润滑油产品,可以包括价格、油耗、动力性、性能等多个方面的属性
通过对自己和竞争对手产品的品牌传播分析,能够做到知己知彼,了解行业内的机会和威胁,及时调整品牌和产品策略,获取竞争中的优势。
问:刚才我们讲了****文本大数据挖掘在企业营销方向的应用,文本大数据挖掘还可以哪些行业得到深度应用?
**作者:**文本大数据挖掘的应用非常广泛,在未来的几年中,将会在电子政务,金融,电信,医疗卫生等领域得到推广和普及。我们目前正在实施的应用方向包括:
- 智慧城市:主要是综合分析各个方面的数据,提供城市形象指数监测,跨部门文本数据分析,公共治理的辅助决策等。
- 证券市场:结合企业画像技术,为投资商,量化交易的操作人员提供企业画像信息,企业监测信息,相关互联网声量信息,从而可以帮助其更快更准确地获取所需的信息。
- 电信:通过跟运营商的合作,为其广大的企业客户提供精准化信息服务。
- 银行:依据其内部的投诉数据,以及来自互联网的网民评价数据,建立其服务质量指数评估体系。
本文作者:白剑波
北京智慧星光信息技术有限公司总裁。北航计算机专业硕士。曾经担任翰云时代科技有限公司总裁,NOKIA位置服务部门大中国区产品总监,甲骨文顾问咨询服务部中国区实施总监,Sun公司ISV工程部高级经理,北航教师。