温馨提示:关于市场中出现假冒我司名义对外诈骗的免责声明 查看公告
网店托管,网店代运营

如何利用大数据构建电商领域企业知识图谱

标签: 大数据服务品牌数据银行 作者:广州大麦 2018-09-29

随着云计算时代的来临,大数据也日渐吸引人们的关注。在数据量呈爆炸性增长的今天,数据的形态、数据来源、以及数据之间相互关联的形式,都在逐渐发生变化。那么在此背景下,本文将介绍如何利用全网丰富的数据维度,构建淘宝天猫中的企业店铺的知识图谱,从而为电商相关企业筛选优质企业商户提供辅助决策。

正文:

什么是知识图谱?知识图谱就是一个知识库,通俗地讲,知识图谱就是将不同种类的数据信息汇聚在一起构成的网络结构。在构建企业店铺知识图谱的过程中,由于存在数据来源以及形态各异、数据之间关联形式多样化等问题,因此,本文将着重介绍“如何关联店铺与企业工商实体”,“如何构建企业店铺知识图谱”,以及“如何进行辅助决策”以下三点。


一、     如何关联店铺与企业工商实体

构建企业店铺知识图谱,首先需要解决的问题是如何将店铺与企业实体进行相关联。

以天猫店铺XXX旗舰店为例,其对应的企业实体名称并非就叫XXX旗舰店公司,我们希望找到的是,该旗舰店所对应企业工商实体,因此我们可以这样做:在进入店铺首页之后,在页面左上方的店铺名称处,鼠标悬停几秒后,即可查看到网店经营者营业执照信息。


在网店经营者营业执照这块信息中,我们可以看到企业注册号和企业名称这两个维度信息,这两个维度的信息至关重要,原因有两点:

一、这两个维度可以将店铺与其工商注册实体相关联,企业的注册号的作用就像人的身份证号一样,可以唯一确定一个企业。而企业名称由于存在企业曾用名等问题,在唯一确定一所企业的功能性方面相对比企业注册号要弱一些。

二、如果将该企业散布在全网的数据比喻成一座座没有联结的孤岛,那么,这两个维度就是通往各个孤岛的船票,在后续对多源数据进行联结的阶段,这两个维度将起到重要的作用。

将店铺与其对应的企业工商实体进行关联后,我们就可以利用全网丰富的维度数据,通过数据方案定制、寻求外部数据合作等一系列手段,逐步构建企业店铺知识图谱。

二、     如何构建企业店铺知识图谱

接下来,本文将综合全网主流的数据源及其相关的维度,逐步展示如何构建企业店铺知识图谱。首先对维度进行定义,我们主要划分了以下几个方面的维度信息,它们分别为:工商基本信息、工商年报信息、近期招聘信息、投融资信息、知识产权相关信息、官网建设相关信息等。


在明晰我们需要重点关注的维度信息后,我们需要在全网的数据源中进一步地评估和选定数据源,为了降低后续数据方案实施落地的成本,选定的数据源应该具有数据全、维度填充率高、更新及时、准确率高、数据获取成本相对低廉等特点。

在上述定义的维度中,除却企业招聘信息和投融资信息需要在第三方数据源获取外,其他板块信息均可以在各级政府公示网站中获取。当然,除了下图罗列的数据源外,当前也有不少的数据供应商提供整合好的数据,如果需要快速地获取整合后的数据,也可以考虑直接对接相应的数据供应商。


在确定维度与对应数据源后,我们需要制定相对应的具有流程化、明细化、以及可实施的数据方案,明确上游数据源的输出和下游数据源的输入,以便相关人员对数据的整体流向有一个明确的了解,下图为简易数据流方案图。

如图,起始数据源为淘宝或者天猫,在获取到店铺营业执照相关信息后,可以从中提取企业店铺的注册号以及企业全称,作为下游数据源的输入。为了流程更加明细,图中的节点还可以进一步细化,细化到具体的数据源。当需要新增维度及数据源时,应该在相应的维度定义板块中增加相应的维度,以及在数据流方案图中增加相应的数据源。


在数据方案实施前,为了对后续更好地对数据的整体情况及质量进行控管,应该有相应的数据运维人员制定好相应的数据运营目录,对数据源及其维度作进一步细化的定义。

对于数据源而言,可以记录数据源名称、数据源更新频率、该数据源含括的维度等信息;对于具体的维度而言,可以记录维度的名称、维度值的清洗规则、维度值的规范等信息。在数据方案实施过程中,应该定期对数据质量作监控,监控的指标可以有每个源的数据总量、新增数据量、每个维度的填充率等等,并生成报表以通知相关人员,以免给后续业务人员使用数据时“埋坑”。


三、     如何进行辅助决策

在数据开始产出后,业务人员可以根据业务需要对数据进行分析以辅助自身的决策。需要明确的是,在不同的业务场景中,维度的重要性也有所差异。

对于专门提供商标注册服务平台而言,尚未注册商标保护自身品牌价值的店铺是潜在的客户群体之一,因此这类公司会相对侧重使用“知识产权相关维度“来筛选自身的潜在客户。

对于企业建站公司而言,尚未建站或者有建站需求的企业店铺将是其潜在的客户群体之一,因此业务人员可能会侧重于使用“官网建设相关维度“+“招聘信息维度“来筛选目标客户群体,重点考察那些没有自身官网且在近期的招聘计划中有招建站相关技术人员的企业店铺。

对于希望筛选优质商家作为服务对象的电商服务商而言,可以使用“注册资本”、“注册时间”、“企业人员规模”等指标筛选出首批潜在服务对象,随后可以结合企业近期招聘信息,即近期有无招聘电商运营相关人员以筛选出近期有业务扩展需要的企业,随后可以结合招聘岗位的招聘薪酬和人数进行排序,以筛选出业务投入程度和业务扩展速度较高的企业作为潜在的优质服务对象。

对于一些通用性较强的指标,如企业联系方式、电子邮箱等,则可以用于后期提高销售的触达率。


需要注意的是,随着业务的增多与发展,会出现以前构建的知识库无法支撑业务发展的问题。因此,知识库需要保持一定新鲜度,除此之外,还应该不断地增加维度和扩展数据源,以适应不断发展的业务。即使在当前知识图谱满足业务需求的阶段,也不应该满足于现状,在作好数据战略储备计划的同时可以积极寻求外部合作,尽可能地扩展数据的用途及发挥数据的潜在价值。

总结:

周涛在《为数据而生:大数据创新实践》中曾说:“大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、教育理念、生活方式和观念形态上的颠覆性变化的综合。”

在我看来,在数据即资产的时代,企业应当提升自身的数据储备能力和数据创新能力。对于有销售环节的企业,构建潜在客户的知识图谱只是其中的一小步。事实上,对于生产环节的每一个步骤,都应该考虑是否有必要将其数据化,以为后续的决策提供数据支撑,甚至可以帮助企业从数据间接辅助决策阶段过渡到直接辅助决策阶段。

 

文章参考:

ü  维基百科:Google知识图谱

ü  周涛:为数据而生:大数据创新实践

输入店铺信息,获取专业全方面分析

* 您的信息将被严格保密,请放心填写