数据类型
“数字识别0.0028元/次”,“人脸融合0.0153元/次”,“人脸对比3000元/月”,“无包装蔬菜数据集按需收费”……这些是山西数据交易平台上数据API明码标价。目前,平台已经引入数据服务供应商超1100家;经过数据脱敏,上线AI数据集169个,接入API数据接口147个,总数据量超过1.3亿条,涵盖语音识别、文字识别、人脸识别、自动驾驶、自然语言处理等多种数据场景。
数据的价值,经常被类比为“石油”。而数据产品在数据交易中是为了发挥自己的数据价值来辅助用户更优决策的一种形态,不同的数据交易平台,侧重用户的需求点不一样,则产品类型与服务内容也不相同。目前,主流的数据交易平台产品类型包括API、块数据、数据包、数据集、数据报告、数据应用、解决方案等。南都大数据研究院观察对比了国内外多家知名的数据交易机构,看看主要数据交易所、交易平台提供哪些数据产品?都有哪些供应者与合作伙伴?会以什么方式交付?
什么类型数据能上架交易?
来源合法、加工得当,且完成质量评级
据南都大数据研究院观察,不是所有数据都可以在这些数据交易平台挂牌交易。一般需进行合规审查,确认数据来源合法、加工得当,同时由质量评估机构经过质量评级后,有关数据与产品才能上架。
究竟哪些数据能最终进行交易?主要来源于五个范畴:一是政府公开数据;二是已获得授权的合法企业内部数据,一般由企业经过生产、积累所留下的合法、合规的数据;三是数据供应方,根据平台交易规则和需求方的需求,提供自己所生产或拥有的数据;四是合作伙伴的数据,一般指平台的联盟或合作企业所供给的相关数据;五是通过网络爬虫,从互联网上所爬取的数据。
国内数据交易平台的交易数据来源比较广泛。例如,聚合数据提供企业内部数据、网页爬虫数据、互联网开放数据等。数据堂的数据来源包括政府公开数据、企业内部数据、特定供应方提供的数据、网页爬虫数据等。上海数据交易所、北京国际大数据交易所、洞见科技等则主要通过数据供应方、合作方等获取相关数据。
相比之下,国外数据交易平台更倾向于由特定供应方与数据社区提供相关数据。例如,美国的BDEX、Mashape以及加拿大的Quandl等,也有少部分通过网络爬虫抓取公开数据,如美国知名大数据交易平台Factual,近一半产品来自由爬虫获取的地理位置数据。
交易数据来自什么行业?
覆盖金融、交通、旅游、能源、气象、企业服务等
相关数据来自什么行业?南都大数据研究院针对部分数据交易平台进行了统计与梳理。目前,大数据交易平台主要分为综合数据服务平台、第三方数据交易平台。其中,国内大部分平台属于综合数据服务平台,会供应多个领域、多个行业的数据产品。例如,湖南大数据交易所的数据产品分布在金融、保险、物流、地理信息等领域,视界信息的产品属于经济、教育、人文、商业等行业,数据宝则提供司法、经济、交通、金融、保险、通信、税务等数据。
但是,也有国外平台深耕单一领域,如综合数据服务平台Factual只提供地理有关的数据产品,第三方数据交易平台Quandl上架交易的产品都属于经济、金融范畴。
数据显示,目前国内落地交易场景已实现覆盖金融、交通、旅游、能源、气象、企业服务等行业领域,2021年交易额超1亿元。有专家分析落地应用场景交易额占比发现,以金融类、企业服务类产品为主,其中金融类产品交易额占比最高,以采购风控类、营销类数据产品居多,交易对象主要为金融机构,如银行、保险公司以及资管公司等;企业服务类产品交易额位居第二,交易对象以信息科技行业公司居多,主要为企业提供数字化解决方案,包括联邦数据网路搭建、大数据建模产品等。
平台有多少数据产品供交易?
上海数据交易所上架44个数据产品与服务
那么,这些平台有多少数据产品可供交易呢?梳理统计发现,截至2018年3月贵阳大数据交易所可交易的数据产品近4000个,涵盖金融、通信、医疗、农业、传媒等行业类别。山东数据交易中心完成了100余种相关数据产品的交易市场上架,包括政府网站&新媒体服务合规性监测、DCMM贯标服务等。上海数据交易所从去年年底开始,分两批上架共44个数据产品与服务,有航班资源宝、中移洞察、数库产业链图谱、高德路呈等,例如新华融合媒体科技发展(北京)有限公司的“水晶球源数据”、上海生腾数据科技有限公司的“启信宝企势数达”、中国东方航空股份有限公司的“航班资源宝”等。京东万象则提供超过1000种数据接口应用,囊括手机号验证、银行卡和身份核验、企业风控查询等。
平台提供什么交易产品?
API数据接口、数据包是最常见的产品类型
数据交易平台以什么方式交付数据服务?据南都大数据研究院观察,一般包括以下五个产品类型。API数据接口、数据包是最直接,也是最常见的产品类型。按照要求,提供标准化、定制化的数据,往往能满足客户最直接的数据需求。也有平台会提供个性化的数据产品和数据服务,例如北京国际数据交易所提供包括数据增值、交易保障、数据中介在内的多元服务,能满足不同数据交易场景的服务需求。数据堂搭建数据标注平台,支持语音、点云、图片、视频、文本等专业数据标注,并提供相关的训练集和AI数据集。
还有平台提供个性化的应用场景解决方案与数据报告。北京国际数据交易所明确,能为需求方提供基于统计、建模、分析等处理后的数据报告产品。聚合数据为华东某市搭建了专属的社会治理现代化指挥平台。数据堂根据不同应用场景,设计智能驾驶、游戏与娱乐、智能家居和新零售等领域的解决方案。中国电信上海公司的“翼知时空”大数据服务,是一款基于中国电信上海公司大数据平台能力打造的,能为客户提供时空数据洞察的行业定制类数据服务。上海国有资本运营研究院通过上海数据交易所完成了该服务的交易,未来将利用其定向精确完成上海商业地块的价值分析研究。
数据供应机构规模如何?
湖南大数据交易所吸纳意向会员单位150余个
哪些机构提供了交易数据?知名数据交易平台的数据供应机构规模如何?根据媒体公开报道,截至2018年3月贵阳大数据交易所已经接入225家数据源。湖南大数据交易所采取会员制规则,数据资源提供商、数据技术服务商、数据产品供应商及数据需求方,均可申请注册成为交易所会员,入驻交易所平台,已经吸纳意向会员单位150余个。山东数据交易中心则与以企业画像数据、机票数据、发票数据、大宗商品数据、运营商数据、消费数据等为代表的20家社会数据源企业确定了合作关系,完成100余种相关数据产品的交易市场上架。
南都大数据研究院重点分析上海大数据交易所、北京国际大数据交易所的数据供应机构。2021年3月31日成立的北京国际大数据交易所,被称为开启全国数据交易所2.0时代的标志性机构。这家机构通过交易联盟发挥各类成员单位在数据要素流通市场领域的协同作用,推动数据资源的网络化共享、集约化整合、协作化开发和高效化利用,目前该联盟包括国有企业、金融机构、互联网企业、技术公司、科研院所、数据交易服务机构、社团组织、跨国公司等60余家单位。
而成立于2021年11月25日的上海数据交易所,首批签约“数商”为100家,既有央企、地方国企,也包括民企,行业维度则包括交通、金融、能源、贸易、商业、地产等十多个领域。具体来看,不仅包括中国联通、中国电信等通讯行业央企,更有高德地图、京东等知名互联网企业。
数据是否有统一定价标准?
上海数据交易市场主体可依法自主定价
数据产品如何定价,怎样衡量不同数据的价值?大数据流通与交易技术国家工程实验室常务副主任、复旦大学教授黄丽华在接受媒体采访时表示,数据产品可分为公共数据和非公共数据(商业数据)。具体来讲,公共数据定价一般采用加工成本加适当利润的方法,形成政府指导价格;商业数据产品定价常用的有成本加成定价法、需方收益定价法和市场定价法。
南都大数据研究院观察了部分公开了价格的大数据产品。山东数据交易中心上架的数据产品中,只有山东贝赛信息科技有限公司提供的四个产品进行明码标价。其中,文本内容分析、微博数据抓取和博主分析这三项服务访问价格为每次0.20元,根据关键词所获得的互联网全网数据集定价2万元。其他服务与方案均需要与数据供应商进行具体协商。
京东万象提供了超过800个付费数据接口的访问服务,大部分价格集中在0.01元-1元/次之间,例如VIN码精确解析、企业开庭公告核验等服务定价为1元左右/次,银行卡OCR识别、关键词搜索量等服务为0.1元以下。有个别定制化服务的定价较高,例如企业法人对外投资核验、企业族谱核验等法人相关资质的验证服务,单次查询价格超过10元。
更多数据交易平台没有公开价格,究竟如何为数据“定价”?《上海市数据条例》第五十七条规定,从事数据交易活动的市场主体可以依法自主定价。市相关主管部门应当组织相关行业协会等制定数据交易价格评估导则,构建交易价格评估指标。上海市数据交易所副总裁卢勇在接受南都采访时特别指出,数据交易议价中应遵循三个法则:一是成本法则,卖方生产的数据产品需要多少成本,在此基础上进行调整、定价;二是收益法则,买方使用该数据产品之后,最后会取得多少收益;三是市场法则,也就是产品多次交易后形成一个相对稳定的市场价格。
数据来源:上海数据交易所、北京国际数据交易所等国内外大数据交易平台官网、天眼查、媒体公开报道等(统计截至时间为2022年3月3日)