没有合适的资源?快使用搜索试试~ 我知道了~
的确良是什么面料
4 浏览量
2025-08-07
09:02:53
上传
评论
收藏 59KB DOC 举报
温馨提示
百度 仅此一节,福特森就独得23分,而当他站上罚球线时,广厦队的球迷也开始齐呼MVP来为他加油助威。
大数据的十大来源及其应用价值.doc
资源推荐
资源详情
资源评论






























大数据的十大来源及其应用价值
当你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,
这种体验是不是很棒?如果赌场老板把发牌人忘记付给你的 20 美元亲自送还给你,你的心
里是不是有点儿小激动?如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这
世界会不会变得很美妙?你是不是要下调汽车保险费率?大数据能让这一切变成现实。
网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。除此之外,
还有很多大数据源,它们都有各自的使用价值。其中一些广为人知,而另一些几乎没有名气。
我们在此要借用本章的篇幅一起来回顾除网络数据以外的其他 9 种大数据源以及它们的用
途。我们将站在一个较高的层次上讲解这部分内容,意图是在简单描述各类数据源的基础上,
回顾每种大数据源的应用与商业含义。
我们发现了一个非常明显的趋势,各行各业虽然生成了许多大数据源,但其底层的支撑技术
却是相同的。而且,不同行业还可以使用相同的大数据源。大数据并非只有单一的用途,它
的影响将会非常深远。
我们将要讨论以下几种大数据源。
汽车保险业:车载信息服务数据的价值。
多个行业:文本数据的价值。
多个行业:时间数据与位置数据的价值。
零售制造业:RFID 数据的价值。
电力行业:智能电网数据的价值。
博彩业:筹码跟踪数据的价值。
工业发动机和设备:传感器数据的价值。
视频游戏:遥测数据的价值。
电信业与其他行业:社交网络数据的价值。
汽车保险业:车载信息服务数据的价值
车载信息服务在汽车保险行业中的关注度非常高。车载信息服务是通过汽车内置的传感器和
黑盒来收集和掌握车辆的相关信息。我们可以配置不同的方案,使用黑盒来监测所有的汽车
数据。我们可以监测车速、行驶里程,以及汽车是否安装了紧急制动系统。车载信息服务数
据能够帮助保险公司更好地理解客户的风险等级,并设置合理的保险费率。如果彻底地忽略
隐私问题,车载信息服务装置可以跟踪到汽车去过的所有地点、何时到达的、以多快的速度、
使用了汽车的哪些功能等。
车载信息服务可以潜在地降低司机的保险费率,并提升保险公司的收益。它是怎样做到在降
低费率的同时提升收益呢?答案就在于保险公司要根据风险评估来进行保险定价。传统的风
险评估方法使用的是年龄、人口统计特征以及个人意外伤害历史这类数据,它们只能提供高
层次的概要信息。对于驾驶记录没有任何问题的车主,传统方法根本没办法把他们和附近的
其他人区分开。

保险公司要未雨绸缪,并做好最坏的打算。它们要弄清楚哪些人放在哪个风险范围上是最安
全的,一般情况下,它们会先假定这些人的风险是位于该风险范围较高的一端。汽车保险公
司对车主的行为习惯和实际风险了解得越详细,风险范围就会越窄,同时认定范围内出现需
要提升费率的最坏情况的可能性就会比较小。这就是为什么可以同时降低保险费率和提升收
益的原因。如果保险公司认为投保个体的风险较好,那么保险公司将可以更好地了解每个人
的风险状况,预计必须支出的保费就不会发生太大变化。
全球很多国家的保险公司都在使用车载信息服务,而且数量越来越多。早期项目的注意力放
在从汽车上收集最少的信息,例如,它们并不关心汽车去过什么地方。早期项目跟踪的是汽
车开了多远、什么时候开的车、是否超速和是否使用了大量的紧急制动。这些信息都是非常
基本的信息,不牵涉到个人隐私,是故意设计成这样的。因为避免了收集高度敏感的信息,
所以才会被广泛地接受。这个道理也同样适用于商业车队。如果保险公司了解到公司车队更
多的用车情况,那么它为公司车队确定保险费率也就更容易。
车载信息服务数据最初是作为一种工具出现的,它可以帮助车主和公司获得更好的、更有效
的车辆保险。再过一段时间,等到许多交通工具都安装了车载信息服务装置后,那时保险业
以外的行业也可以使用车载信息服务数据了。现在,公共汽车已经有了车载计算机管理系统,
但是车载信息服务设备可以将其提升到一个新的层次。车载信息服务数据还有一些有趣的应
用,我们来看一下这些应用。
使用车载信息服务数据
如果车载信息服务真的开始大规模应用,一定会出现许多令人兴奋的分析应用。想象一下,
以后全国有数以千万计的汽车都安装了车载信息服务装置,那时候第三方研究公司会以匿名
的方式为客户收集非常详细的车载通信数据。与为保险收集的有限数据不同,这时数据收集
是以分钟或秒为频率,且收集内容包括但不限于速度、位置、方向和其他有用的信息。
无论交通是否阻塞,无论什么日期,这种数据反馈方式都会提供大量的车载通信信息。研究
人员可以知道每辆车在道路上的行驶速度,他们还可以知道车流开始的时间、结束的时间,
以及持续的时间。这种真实的交通流信息视图将会多么令人惊讶!试想这会对交通阻塞和道
路系统规划的研究产生多么大的影响!
无心插柳柳成阴
车载信息服务数据的多种用途只是一个例子,它说明了可以用最初预见不到的方式来使用大
数据。对于某种特定的数据源,我们最后发现它最有效的用途可能与其创建之初的用途大相
径庭。面对我们碰到的每一类大数据源,我们要开拓思路,多想想常规之外的其他用途。
如果研究人员能够掌握大量汽车在每一个高峰时段、每一天、每个城市中的动向,他们就能
非常清晰地判断出车流产生的前因后果。此外,还能查明下述问题的答案。
一个在路中央的轮胎会对交通产生什么影响?
左侧车道堵车会发生什么?
如果路口的交通灯不同步,会产生何种结果?

哪些十字路口虽然按照预期设定方式工作,但通行时间的设计仍然不合理?
如果某条道路堵塞,堵塞会以多快的速度蔓延到其他道路?
即使我们集中精力投入到昂贵的测试中,现在要想有效地研究诸如此类的问题也几乎是不可
能的。除非我们安排人手来实际地监测每一条道路,记录下所有的信息,只有这样我们才能
解决交通堵塞的问题。或者,我们可以安装大量的传感器来监测过往的车辆,还可以安装视
频摄像头,但这些选择因为成本问题被严重限制了推广。
交通道路工程师做梦都想得到我们所讲的车载通信信息。如果车载通信装置变得随处可见,
那任何交通拥堵的地方都能被发现。城市道路和交通管理系统的革新,以及城市道路建设规
划,都将惠及普通大众。车载通信刚开始出现时是为了满足保险定价的需求,但有了它还可
以缓解交通压力和驾驶员堵车时焦急等待的心情,它的存在终将使高速公路的管理模式发生
革命性的改变。
多个行业:文本数据的价值
文本是最大的也是最常见的大数据源之一。想想我们周围有多少文本信息的存在,电子邮件、
短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。
文本数据是现在结构化程度最低的,也是最大的大数据源。幸运的是,我们在驾驭文本数据、
利用文本数据来更好地做商业决策方面已经做了很多工作。
文本分析一般会从解析文本开始,然后将各种单词、短语以及包含文本的部分赋予语义。我
们可以通过简单的词频统计,或更复杂的操作来进行文本分析。自然语言处理中已经有很多
诸如此类的分析了,这里我们就不再赘述。文本挖掘工具是主流分析套件中一个不可或缺的
组成部分。此外,我们还能找到许多独立的文本挖掘工具包。其中一些文本分析工具使用基
于规则的方法,用户需要调整软件才能找到自己感兴趣的模式。另一些工具则使用机器学习
和其他算法自动地发现数据模式。每种方法都各有利弊,其相关论述已经超出了本书的范围。
我们关心的是如何使用生成的结果,而不是使用工具产生结果的过程。
做完文本解析和分类以后,我们就可以分析这些过程所产生的结果了。文本挖掘过程的输出
结果通常是其他分析流程的输入。例如,如果能够分析出客户使用电子邮件的情感,就能利
用一个变量将客户的情感标记为正面情感或负面情感。这种标记本身是一种结构化的数据,
可以作为分析流程的输入。使用非结构化的文本创建结构化的数据,这个过程通常称为信息
提取。
另一个例子是,假定我们能够在客户与公司往来的邮件中识别出他们对公司某些产品的评价,
我们就能利用一系列变量来标识客户的产品评价。这些变量本身也是结构化的度量指标,可
以用来做分析。上述这些例子解释了如何捕获非结构化数据片段,并从中提取出相关的结构
化数据。
从非结构化文本中提取结构数据
文本分析的例子很好地说明了该过程:获取非结构化数据,然后处理该数据,最后创建出可
以用于分析和报表过程的结构化数据。驾驭大数据的一个重要部分是,利用这种创造性的方
式将非结构化数据和半结构化数据变成可用于分析的数据。

解释文本数据实际上是相当困难的。强调的词汇和语境不同,同一个单词表达出来的意思就
不同。面对纯文本,我们根本不知道重点在哪里,也不知道整个语境。这说明我们得事先进
行一些假设,我们会在第 6 章中更详细地讨论这个问题。
文本分析既是一门艺术,也是一门科学,总会存在一定的不确定性。文本分析往往会有分类
错误和含义模糊的问题。没错,如果我们在文本集合中发现了更好的决策支持模式,那就应
该使用它。文本分析的目标是改进你的决策,但并不是令你的决策变得完美。文本数据可以
有效地提升决策效果,它能提供比没有它时更好的结果,即使数据有噪音或含义模糊时,这
一点也成立。
使用文本数据
一种目前很流行的文本分析应用是所谓的情感分析。情感分析是从大量人群中挖掘出总体观
点,并提供市场对某个公司的评论、看法和感受等相关信息。情感分析通常使用社会化媒体
网站的数据。以下是情感分析的几个例子。
公司或产品的口碑怎么样?
大家正在讨论的是公司的哪些活动?
大家对公司、产品和服务的评价是好是坏?
如前所述,文本分析的难点在于词汇和语境是相关的。我们要考虑到这个问题,但大量的评
价会让客户情感的倾向变得明确。如果我们可以解读出人们在社交媒体上所说内容、与客服
互动信息的趋势,这会对规划下一步的工作有很大的价值。
如果公司可以掌握每一个客户的情感信息,就能了解客户的意图和态度。与使用网络数据推
断客户意图的方法类似,了解客户对某种产品的总体情感是正面情感还是负面情感也是很有
价值的信息。如果这名客户此时还没有购买该产品,那价值就更大了。情感分析提供的信息
可以让我们知道要说服这名客户购买该产品的难易程度。
文本数据的另一个用途是模式识别。我们对客户的投诉、维修记录和其他的评价进行排序,
期望在问题变大之前,能够更快地识别和修正问题。产品首次发布,然后开始出现投诉,文
本分析可以识别出客户在哪些方面存在问题。我们甚至可以做到在客服电话接二连三打进来
之前,先把问题识别出来。这样我们就能更快地、更积极地做出响应。公司可以及时地做出
反应,解决产品未来发行版本中同样的问题,也能主动与客户进行接触,缓解他们当下遇到
困难时的焦躁情绪。
欺诈检测也是文本数据的重要应用之一。在健康险或伤残保险的投诉事件中,使用文本分析
技术可以解析出客户的评论和理由。文本分析可以将欺诈模式识别出来,标记出风险的高低。
面对高风险的投诉,需要更仔细地检查。另一方面,投诉在某种程度上还能自动地执行。如
果系统发现了投诉模式、词汇和短语没有问题,就可以认定这些投诉是低风险的,并可以加
速处理,同时将更多的资源投入高风险的投诉中。
法律事务也会从文本分析中受益。按照惯例,任何法律案件在上诉前都会索取相应的电子邮
件和其他通信历史记录。这些通信文本会被批量地检查,识别出与本案相关的那些语句。例
剩余16页未读,继续阅读
资源评论


智慧安全方案
- 粉丝: 3921
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 数据挖掘技术的应用研究与发展现状论文.docx
- 过程控制与自动化仪表.pptx
- 2023年全国计算机等级考试一级教程讲义精讲.doc
- 专升本《电子商务》-11001150试卷-20160512142952.docx
- 嵌入式系统概述.ppt
- 基于C语言的教务管理系统.doc
- 煤矿系统集成综合监控平台操作手册.doc
- 高新技术企业及软件企业税收优惠政策课件.doc
- 施工进度计划网络图.docx
- 质量管理体系在项目管理中的应用.doc
- (源码)基于React框架的项目管理器.zip
- 工作总结赛特易冠SenderEasyIrri农田灌溉无线网络自动化监控系统用户手册.docx
- 单片机原理课程设计基于AT89C52的电子时钟设计.doc
- 服饰有限公司营销网络建设项目建议书.pptx
- 怎样做好工程项目管理工作.docx
- 网络营销-优化培训课件.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
