当前位置:首页 > 运营 > 正文

关于数据采集你需要了解这些信息(关于数据采集你需要了解这些)

导读:通过上一系列《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系》,我们了解了目前较为流行的几种发生在企业业务活动中数据存储方式的区别与联系。有了“锅碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我们就需要进行数据采集。

关于数据采集你需要了解这些信息(关于数据采集你需要了解这些)  第1张一、数据采集的必要性

数据采集是数据分析挖掘的根基:

数据分析与挖掘过程中比较基础且重要的一个环节是数据采集,再好的特征选取,建模算法,没有了优质的元数据,也会“巧妇难为无米之炊”。

采集的数据决定了数据分析挖掘的上限:

经验告诉我们怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。

如下图所示,garbage in , garbage out(垃圾进,垃圾出),指如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。(该谚语在数据分析领域也同样适用)

关于数据采集你需要了解这些信息(关于数据采集你需要了解这些)  第2张

garbage in garbage out(垃圾进垃圾出)

二、数据采集方式

数据采集方式按照线上采集,线下采集两大类进行分类,下面对于每种采集方式及相关技术进行简单的介绍。

关于数据采集你需要了解这些信息(关于数据采集你需要了解这些)  第3张关于数据采集你需要了解这些信息(关于数据采集你需要了解这些)  第4张

笔者曾接到过这样一个任务,获取某市所有的禁止机动车左转,禁止机动车右转,禁止机动车掉头的路段,在没有条件获取准确的数据时,我们可以通过高德或百度的地图开放平台的API接口,分别在路口处设置起讫点,通过对比机动车与步行的路径规划距离来分析该路口是否禁左,禁右,禁掉头,如下图所示为百度开放平台,我们可以在这里通过API接口,完成各类数据采集。

对应的功能有相应的服务文档讲解如何使用,大家有兴趣可以打开网址进行尝试。

关于数据采集你需要了解这些信息(关于数据采集你需要了解这些)  第5张

2)用户访谈

用户访谈是用户研究中非常常用的一种方式,运用有目的,有计划,有方法的口头交谈向用户了解事实的方法。一般用户访谈的步骤为:确定调研的目标与内容——确定用户和样本——确定访谈与提纲——进行访谈——汇总报告

三、采集数据类别

当我们通过上述方式采集数据后,获取的数据一般有三种类型,即结构化数据,非结构化数据,半结构化数据。关于结构化与非结构化数据,我们在上文《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(二)》提过,大家有兴趣可以点击查看。

那么何为半结构化数据呢?

半结构化数据,顾名思义就是介于结构化数据(关系型数据库)和非结构化数据(声音,视频)之间的数据。半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。下图所示就是JSON简单实例,我们可以观察发现其存储这某些书籍信息,一般日志文件,XML文档,JSON文档等就是半结构化数据。

关于数据采集你需要了解这些信息(关于数据采集你需要了解这些)  第6张四、小结

本文带领大家快速了解各类数据采集方式,各类采集技术固然重要,但要结合所在行业,所在企业规模情况进行选取,减少“杀鸡焉用牛刀”的情况出现。

随着国家安全重要性及居民个人隐私观念的提升,在保证数据采集的精确性的同时,更应注意数据采集中如何保护用户隐私问题的情况以及涉及到国家关键基础设施相关数据的安全性。

笔者在写这篇文章时,朋友正好像我推送微信公众号的一片关于Flightradar24涉及信息安全违规下架的文章,笔者与朋友对无线电以及AIS系统较为感兴趣,深知此类数据的重要性。

本篇文章就写到这里,关于数据分析,数据产品相关的知识笔者会继续与大家分享交流,文中不准确的地方欢迎并希望大家批评指正。

本文由 @快乐的给予 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Pexels,基于 CC0 协议

取消
扫码支持 支付码