大规模数据流通的缘由详解
lzzyok小精灵
2024-04-23 22:36
随着大数据在驱动企业成功中越来越有决定性作用,数据分析也变得越来越受欢迎。然而,一些领导者对数据分析扮演的角色和它所起的作用仍然不是很了 解,就像很多时候领导者不知道怎么从大数据中抽取有用的信息,虽然很清楚的知道这些大数据是很可信的。他们的脚步落后了——他们的眼光在大数据的利用上其 实是模糊的。
近期数据API接口服务逐渐兴起,正因数据API服务允许需求方“挑数据”,并具备“开箱即用”以及降低交易成本与门槛等优点,将会成为数据能力开放与交易流通的重要手段。但数据API从当前的实践来看远非完美,运营不慎会导致类似金融领域洗钱行为的“洗数”活动出现,并在隐私保护、计费方面存在不足,因此本文提出了“增强型数据交换导向API”的概念,使得数据API经济能在深思熟虑的顶层设计下运行。本文将从一个寓言故事引出上述探讨。
在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。定性数据分析又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
水的寓言故事:自古以来,水资源都是分布不均的,大多数湖泊、河流系统互不相通,人们自发地从附近的水源地打水灌溉、饮用。然而远离水源的居民要么亲自跋山涉水取得用水,要么从水商人处购买用水–生活在水源附近的居民慢慢发现,水源的水除了自身使用以外,原来还能对外开放卖钱。逐渐有经济头脑、希望将自身水资源变现的水商人出现了,最早的水商人将水放到水车里面直接整车水出售,但逐渐发现这种方法效率低下,因为用户即使仅仅需要一点点水做饭,也不得不买回整车水。这时候,一个聪明的水商人发明了自来水–直接将水从水源地通过水管接入用户家,打开水龙头就能用水了,并按使用量收费,大大减少了运输成本,也为用户提供了按需使用的便利。
看到这个巨大的商机,越来越多的水商人开始发展自来水服务,希望能把自己的水龙头接到用户家。面对同质化竞争,相信大家也会想到结果:逆向选择产生了。部分水商人们开始以次充好,通过接入有污染的水源降低成本从而取得市场,诚信的水商人逐渐被赶出市场,脏水最终充斥于管道中。人们不得不额外购买净水设备,最终成本一算还不如直接整车买水,整个自来水市场陷入崩溃。这时候,国王出来了,制定了自来水供应的标准规范,规定了水源质量标准、水管用料、水龙头性能、水表构造等一系列通用标准,并强制水商人按标准使用,逐渐杜绝了自来水逆向选择现象,人们最终用上了安全、放心的廉价自来水。
数据API服务的划时代意义
如果把数据比作水资源的话,数据交易与流通最原始的形态,就是以数据集为交易单位的批数据交易与流通,如同寓言故事中水商人将水整车出售。然而采取整批数据交易与流通的方式无疑是低效的,首先数据的价值具有较强的相对性,假设有一个包括中国13亿人的兴趣爱好标签数据集需要流通,实际上大部分企业只需要其中的一部分数据,让数据需求方把全体数据买回去无疑是不经济的,数据交易与流通需要给予数据需求方“挑数据”的能力。其次,整个数据集的流通必然带来很大的数据应用难度–需求方还需要额外对数据集进行数据处理、分析、挖掘才能获取其中的价值,无法达到数据“开箱即用”的便利性;最后,批数据交易方式本身,同时抬高了交易成本与门槛。毕竟这种一锤子买卖的方式将购买方置于信息不对称的一端,在获取到数据之前通常很难准确判断其真实价值,就如同购买玉石原石一样,在切开前仅能凭经验与运气判断其成色,无疑大幅提高了交易因为信息不对称导致的交易成本。
而数据API接口的产生,赋予了数据交易与流通犹如“拧水龙头”一样的使用方式,相对完美地解决了上述数据交易与流通中“挑数据”、“开箱即用”以及降低交易成本与门槛三个关键问题。了解IT技术的人都清楚API(Application Program interface,应用程序接口)是关于两个不同主体(如数据供需双方)程序间“交流”和“交换”数据方式的规范,通过API规范能实现主体之间数据的精确交换。如一个典型的“三元验真”数据API是这样的:
业务场景:帮助金融机构核实申请人的身份准确性,具体而言金融机构拥有申请人的姓名、身份证以及手机号三个元素,希望有途径核实三者是能对应上的,从而防范虚假身份申请。
数据源:运营商的实名制数据恰好能匹配这个需求。
数据API形态:金融机构向运营商传输一组申请人的姓名、身份证以及手机号,API返回是否匹配的结果。
这种犹如“拧水龙头”的数据使用方式,对于需求方来说可谓完美地解决了 “挑数据”的需求,并赋予了需求方直接挑数据项的精度;同时也是一项“开箱即用”的数据服务,相信这点无须论述,需求方唯一需要做的仅是部署简单的本地程序;而最为有意义的是,数据API大大降低了数据交易的成本和门槛,对激活交易市场非常有帮助,因为一方面数据API是按需消费,无需购买全量数据,同时很大程度地减少数据质量的争议。如果需求方查询了几个数据发现都不可靠,那就自然不会继续使用了。这不仅有利于减少需求方对数据质量的疑虑,同时倒逼供给方做好数据质量。
正因为数据API具备如此显著的优势,目前已经成为业界试水数据开放与交易的最热门方式。除传统BAT外,京东、海南航空等业界巨头在数据能力开放中均使用了数据API作为数据交换标准,另外更出现了如聚合数据等平台性玩家,汇聚跨行业数据API打造数据交易生态体系。下表是部分典型数据API开放接口运营商的信息,大家可自行体验感受下。
实际上,API并不是一个新鲜事物,早在2012年谷歌已经创造了每天通过API处理50亿笔交易的记录,而著名SaaS提供商Salesforce年收入中有一半是通过API产生的,“API经济”早已成为科技界的一个热词,只是过去API接口交换的内容更多是标准化的应用能力而非数据,但从目前尚存的蛛丝马迹中可依稀看到,大规模数据流通的未来新星也将会是数据API范式。在过去我们清晰看到,越来越完善的IT架构、尤其是云计算的普及让企业的商业模式核心能力已经充分IT化甚至云化,通过API接口实现了商业模式核心能力的外延大大扩充。如地图服务提供商通过API接口实现了GIS能力的开放,使得合作伙伴能便利接入GIS能力并基于此开发出价值更丰富的应用,并共同分享价值,而这种逻辑同样适用于数据能力的外延扩充。如果说PaaS平台实现了流计算、并行机器学习等重型大数据武器的轻量化的话,数据API将实现企业数据能力的精准推送与变现,这是解决大数据应用模式“最后一公里”的关键手段。
在中国,尽管网络营销的概念很火,但网络营销的效率低于一些发达国家也是事实。无论是门户广告、搜索引擎广告,还是广告联盟,从行业平均转化率上看,都要低于国外较为成熟国家的水平。据估计,国内的Bounce rate(蹦失率,即用户只浏览第一页即离开的比例)介于90%~99%之间,而欧美的Bounce rate则是70%左右。诚然,国内的网络营销环境处于发展之中,环境不那么尽如人意,但中国互联网络信息中心分析师孙秀秀认为,出现这种情况的很多责任在投放广告的企业方,在于对营销背后的数据分析工作的不重视,没有精确定位有效的客户群,导致大量的展示给了不相关的网民。通常,广告投放前的数据分析可以分为两步走。第一步:描述目标群体。比如,目标群体是18~25岁,上网购物的年轻女性。第二步:描述此群体的网络活动轨迹。也就是说,知道目标客户群上什么网站、做什么事、在什么时间地点能够找到他非常重要。实际上,论覆盖面,网络营销还远远赶不上传统媒体。2009年底中国的互联网普及率为28.9%,而同期中国电视的普及率却已经超过80%。但是,仍旧有很多有远见的企业选择网络营销。其中的一个重要原因是,网络营销的全过程都可以被追踪到,通过数据分析可以随时调整投放方式。
数据API经济的潜在风险
我们看到数据API在构筑未来大规模数据跨业态流通方面的巨大潜力,以及数据API作为一种数据交换规范方面本身难以替代的优点,但通过深入观察我们可以发现,当今的数据API规范远非完美,在今后推动数据流通中将会浮现各种问题和潜在风险,其中最典型的就是“洗数”活动的出现。
问题一:当前数据API规范缺乏数据鉴权能力,将导致“洗数”活动泛滥。我们知道,数据API的本质是数据能力的DaaS化,即将复杂庞大的泛化数据资产根据特定的业务场景进行预处理与挖掘,并通过API接口规范输出为精确的数据应用推送。典型的案例如上文介绍的三元验真API服务,是一种范化数据到具象化应用的转移。因此我们发现,数据API应用本身也是一个数据降维的过程,在获得满意结果的同时,我们实际上看不到原始数据的任何特征,包括原始数据的实际权属,属于数据“可见不可得”的应用方式。如此一来,各类地下黑市数据就有机会堂而皇之地被转化、包装为数据API服务,被洗白后出现在各类数据交易平台之中,而实际上需求方没有太多办法分别其中的猫腻。
假设有人通过数据地下黑市获取了大量个人房地产交易数据(而事实上现在数据黑市的主要数据买家除了诈骗者、黑客以外,就是各类大数据公司),这些灰色数据在被获取以后,很容易整合、处理为金融机构尤其是互联网金融迫切需要的个人征信类数据API,具体返回查询对象名下房产的数量或者市值等级。通过这样的降维处理及出售方式转化(整批数据违法出售变为单个数据查询),数据就被洗白一遍了,另外如果加入其它数据通过更为复杂的模型处理并转变为更为高层次的结果输出后,其数据的违法性几乎会被洗白得无法追踪。这个过程就犹如金融中的洗钱活动一样,可以预见随着数据API经济的兴起,“洗数”活动将会逐渐出现,毕竟黑市数据价格与数据API售价差异的暴利摆在那里。
正如开篇寓言故事中水龙头商人以次充好的行为,“洗数”活动的实质,相当于把看不见的地沟油和病猪肉做成香喷喷的香肠,表面上刺激了数据交易与流通,提高了供给侧数据产品的多样性,但实质上是让大量不及格的数据流入了市场服务中,长期上损害了市场本身,最终导致逆向选择的出现毁掉了数据API交易经济。
问题二:缺乏对个人隐私数据查询的保障。如果说上文介绍过的个人用户三元验真API服务已经涉及到个人用户隐私边界的话,那目前个别如身份证头像校验、学历查询、电商消费者画像查询等数据API则已经大张旗鼓地进入了个人隐私保护的禁区。我们知道,第三方机构查询个人用户央行征信报告前,是需要得到个人用户明确书面授权的,其中的法理非常简单,因为这些数据可能会为当事人带来不利的影响。在未来,我认为数据API将需要建立类似的个人用户授权体系,要求查询方在得到用户明确授权后才能获取相应的隐私敏感性查询结果,否则与倒卖个人数据的贩子没有本质区别,充其量只是通过API接口这种相对隐蔽的方式去做而已。但目前来看,业界对于隐私类数据API的查询授权是严重缺失的。
问题三:不具备丰富的计费模块,无法实现差异化数据定价。当前数据API提供商在计费模式上,基本采取小流量查询按次计费,部分包量查询(如xx元xx次),大流量查询(大客户)线下议价的方式进行。但事实上数据交易与流通的定价与计费是非常复杂的一个课题,原因在于数据具有错综复杂的价值相对性,对于主体A一文不值的数据,放到主体B那里则犹如金子般珍贵。将来随着数据API经济进入爆发式增长时期,可以预见,灵活计费、对数据进行差异性定价将会成为数据API运营的一大重要抓手,数据API运营平台甚至需要具备类似电信运营商计费系统的复杂计费能力,才能有效匹配数据API经济的发展。
由于集众多优点于一身,数据API将会成为数据大规模交易与流通的重要方式,甚至是将来数据流通的事实标准。但从目前数据API实践来看仍存在众多问题,究其原因,主要在于目前数据API接口这件事情本身被大家定位为数据交换的技术手段,并未更深入去耦合各种数据交易典型场景,如隐私保护、鉴权与计费,但这些场景元素在数据交易中是必不可少的甚至是前提条件,它们的缺席将催生大量如“洗数”等乱象,就如开篇寓言故事中无序发展的自来水市场。而这时候需要有一套权威的数据API交换标准,正如故事中国王的强制性自来水标准,让数据API经济在深思熟虑的顶层设计下运行。而这套权威的数据API交换标准,本文先暂时称为“增强型数据交换导向API”,即EDO-API(Enhance Data-exchange Oriented Application Program interface)。
增强型数据交换导向API与大规模数据流通
增强型数据交换导向API,即EDO-API是本文提出的创新概念,其目的是以技术为核心驱动力,旨在完善现在基于数据API接口的数据交易与流通中的种种不足,并整合为一套具备权威性的数据API流通标准性接口产品。具体设计上应高度耦合关键性数据交易元素,至少解决以下问题:
智能数据鉴权能力–EDO-API作为数据交换标准,提供智能化数据鉴权能力,杜绝将灰色数据加工为数据API服务的“洗数”行为。诚然,数据鉴权是个复杂性问题,尤其是在个人数据盗卖已成完整产业链的当今,防范数据API被作为灰色数据洗白变现的窗口实际上是个很有难度的事情。科学鉴权需要涉及到完备的数据源审核流程与认证体系,EDO-API需要具备这样的模块,从而保障认证的数据流通于阳光之下,而其中的市场价值也是显而易见的。
个人隐私数据查询授权功能–数据鉴权是为了杜绝灰色数据的洗白变现,而在数据API经济中,正规的个人类查询数据在获得授权下是应该允许流通交易的,正如央行个人征信数据在获得当事人授权后允许第三方查询。EDO-API里面,可内嵌一套个人用户授权IT解决方案,如标准化个人数据查询授权电子协议接口,互联网金融机构可将这份电子协议嵌入自身的用户协议中,用户同意后将生成一个授权token,允许这家机构通过EDO-API查询电子协议中用户授权范围内的个人数据。
综合性计费模块–上文已经论述过为什么说丰富的计费模式对于数据的交易与流通将具备极其重要的意义,另外有效运营是数据API经济中不可或缺的核心抓手,而运营离不开的是大而丰富的盈利模式,而盈利模式在IT端则反映为计费问题。如何通过强大的计费系统去支撑数据API经济的有效运营,如支持各种API调用次数的阶梯包月套餐、查询费用促销(打折、限免)、闲时流量(鼓励用户在API提供方服务器并发量低时查询),甚至创新性的按实际数据效果付费等收费方式,是EDO-API需要提供的一个核心能力。
总体而言,EDO-API需要搭建一套规范性的数据流通环境标准,同时提供计费、数据隐私保护及数据安全等一系列中间件,可以迅速帮助企业主体建立完善的数据开放与流通的环境,大幅度降低数据提供方的部署成本以及需求方的交易成本,从而形成完善的数据交易与流通生态系统,支撑数据API经济的未来。正如故事中国王的强制性自来水标准,数据的大规模流通,特别是数据API经济也需要一套标准,这就是EDO-API的定位。目前市场上缺的从来不是数据,而是让数据交易在阳光下流通的标准方法。
最后,简单谈谈数据交易标准以及我们亚信的Datahub
目前已经有一些机构在推动数据交易标准的建立,但我认为数据交易标准不应该仅仅是一纸文档或者行政命令,而是一套能真正解决市场中数据交易问题的技术性标准。正如我们回顾互联网流量交易的发展,可以发现真正的推动力量并不是各种乱七八糟的广告联盟公约、广告投放标准,而是扎扎实实的流量交易技术,比如计算点击率的大规模并行逻辑回归、反作弊引擎。正是这些接地气、能解决流量交易实际业务问题的技术所构成的整体交易架构,才是真正的交易标准。–我们看到百度、谷歌等都用类似的技术架构在运营广告,这是技术使然。
个人感觉相比互联网流量交易,数据交易的技术驱动特性将更为深刻,谁能设计出一套能支撑数据交易中隐私保护、鉴权、计费与定价等业务问题的技术标准,则会成为未来大数据领域的一匹耀眼独角兽。而目前我们亚信的Datahub作为目前业界几乎唯一瞄准做数据交易与流通标准平台的产品,正走在一条光明的道路上,并应该瞄准这个终极目标前进,期待能融入更多实际解决数据交易核心业务问题的技术能力,正如上文构想的EDO-API的一些特性。
随着数据变化速度的加快,经常也会有新的发现和问题出现,数据分析员应该对那些变化敏感、对新发现好奇,并且找出应对新问题的方法。他/她也要热情的及时相互沟通,从新问题中探索新产品的思路和解决方案,成为产品创新的驾驭者。
还有更多详细内容,尽在编程学习网教育,我们期待您的咨询!
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341