SA分析师认证课程 - 第二章 了解数据采集基础📚

在第一章的学习中,我们踏入了数据分析的大门,了解了数据分析的基本概念、流程和方法。如今,我们来到了第二章——了解数据采集基础。
数据采集是数据分析的源头,它的准确性和完整性直接影响着后续分析的质量。就像建造高楼大厦,稳固的地基是关键,而数据采集就是数据分析这座大厦的坚实根基💪。
在SACA(Sensors Analytics Certification - Analyst,神策分析师认证)课程的这个章节里,我们将深入学习数据采集的相关知识,为成为优秀的分析师继续努力前行🚀!
如果你对SACA课程还不太了解,可以点击神策学堂查看更多详情,这里有专业的课程体系和丰富的学习资源,能帮助你在数据分析的道路上越走越远。

第二章课堂笔记

一、课程核心内容回顾

(一)数据基础结构

1. 用户行为记录
  • 在神策分析中,使用事件模型(Event模型)描述用户行为,涵盖事件(Event)和用户(User)。
  • 一个完整的事件包含Who(参与事件的用户)、When(事件发生时间)、Where(事件发生地点)、How(用户触发事件的方式)、What(用户所做事件的具体内容)等关键因素。
  • 例如,购买事件可能需记录商品名称、数量、金额等字段。每个用户还有各种属性,如年龄、性别、会员等级等。
2. 数据模型
  • 神策有三个数据模型,即event实体、user实体和item实体。
    • Event实体指用户在某个时间点、某个地方,以某种方式完成了某个具体的事情;
    • User实体是用户的长期属性;
    • Item实体对Event - User模型进行补充。
  • Event模型能提供比传统PV模型更全面具体的信息,可满足精细化分析需求,且仍可完成PV统计。
  • 相关文章:【数据分析】多维事件模型详解之 Event 模型、User 实体、 Item 实体
3. 事件和属性概念
  • 事件:用于记录用户的每一个行为,如浏览、点击、离开、停留等。有预置事件和自定义事件,预置事件如$pageview(SWeb浏览页面)等,自定义事件如“浏览商品详情页”等,每个事件都有对应的属性。
  • 属性:用来描述行为、用户的动作、状态、信息。分为公共属性(所有事件携带的属性)、自定义“事件”属性(描述事件发生时的信息)、自定义“用户”属性和预置属性(以$开头,描述用户信息)。预置属性包含distinct_id(用户ID)、time(时间)、$app_version(应用的版本)等众多字段。
4. 用户关联

(二)指标体系搭建

1. 指标体系介绍
  • 指标是反映某一个业务现象或业务场景的量化特征。
  • 指标体系是由若干个反映企业业务情况数量特征的相对独立又相互联系的统计指标所组成的有机整体。
  • 搭建指标体系可统一公司口径、提升组织效率、了解业务现状、科学决策业务。
  • 好的指标体系分为描述现状、分析现状、预测未来、改善未来四个层次。
2. 搭建步骤(OKF模型 关键因素分解法)
  • 明确业务目标(北极星指标)
    • 考虑产品定位和核心价值、行业发展阶段、产品阶段等维度选取。
    • 如电商公司在特定阶段,第一目标可能是营收型指标,如GMV。
  • 拆解关键因素
    • 通过乘法和加法进行拆解。
    • 如GMV = 购买人数 * 客单价 = 访问人数 * 购买转化 * 笔单价 * 复购率。
    • 拆解需符合业务主流程、对上级指标有解释力、有优化可能性且足够重要。
  • 罗列业务度量:各部门收到拆解目标后,梳理用户旅程,明确策略和具体执行动作,根据用户行为确定节点和触点并加以影响。
3. 相关文章:

(三)事件设计思路

1. 从需求指标逆向推导事件
  • 指标指导事件:根据业务目标确定需要关注的指标,进而确定相关事件。
    • 基于业务需求确定事件,根据业务流程和用户关键行为来设计事件。
    • 例如在电商网购流程中,可将浏览商品、加入购物车、支付订单等每一个步骤设置为一个事件。想得到日活数,需设置启动App事件;想得到日注册数,要设置用户注册事件;想得到日订单数,则设置用户下单事件。
  • 丰富事件属性:为事件添加合适的属性,以便更全面地分析数据。
    • 为事件添加属性:不同的事件需要记录不同的信息,这些信息就是事件属性。
    • 比如对于“购买”类型的事件,可能需要记录商品名称、商品类型、购买数量、购买金额、付款方式等字段;对于“搜索”类型的事件,可能需要记录搜索关键词、搜索类型等。应该采集哪些事件,以及每个事件采集哪些事件属性,完全取决于产品形态以及分析需求。
  • 查缺补漏:检查事件和属性是否完整、合理,确保能满足分析需求。
    • 聚合处理事件:神策分析在做埋点需求设计时,针对所有类似的触发机制和场景的事件,会做聚合处理。
    • 例如将“APP页面浏览”作为一个事件,通过增加“页面名称”这个属性来区分究竟浏览的是哪个具体的页面,这样可使企业的事件量通常维持在30 - 50个左右,配以归类机制,极大方便企业进行事件管理,给业务人员带来极强的易用性。
2. 采集方法
  • 全埋点:可以自动采集用户的一些基本行为数据,无需手动进行大量的埋点操作。
  • 可视化埋点:通过可视化的界面进行埋点设置,降低了埋点的技术门槛。
  • 日志导入:可以将服务器日志等数据导入到神策系统中。
  • 代码埋点:允许开发人员通过编写代码的方式,精确地采集特定的用户行为数据。

(四)数据上线

1. 数据接入:

神策分析支持多种数据接入方式,包括客户端(如iOS、安卓、Web/H5、微信小程序)采集、服务器日志采集、业务数据库采集、历史数据导入以及对接CRM、ERP等第三方系统数据。还提供了客户端SDK、服务端SDK、外部数据导入工具及API导入等方式。例如客户端采集主要用于分析UV、PV、点击量等基本指标;服务器日志采集具有更强的采集能力,能更好地支撑精细化分析场景。

2. 数据校验:

数据采集发送到神策平台后,需要确保采集的数据准确无误。检测事件是否齐全,保证没有遗漏重要的用户行为事件;检查属性是否缺失,确保每个事件的相关属性都被完整记录;对比行为触发的次数与测试时记录的是否一致,验证数据的准确性;确认触发行为的用户和时间是否记录正确,保证数据的关联性和时效性。

3. 基础配置:

快速上手正式环境的基础配置,如元数据管理、账号权限管理等。元数据管理可对事件、属性等信息进行管理;账号权限管理可根据不同角色分配不同的操作权限,保障数据的安全性和使用规范性。

(五)数据呈现

1. 图表介绍
  • 线形图:一般用以表达变化趋势。
  • 柱形图:一般用以表示总值的变化。
  • 饼状图:一般用以表示各属性的占比量。
  • 表格:一般用于单属性多个值时的展示。
  • 留存图:一般用以表示用户的留存状况。
  • 分布图:一般用以对用户的分层。
  • 漏斗转化:一般用以表示流程中的转化率。
2. 概览配置:
  • 神策提供可视化组件用于直观、清晰地展示数据分析的过程与结果。
  • 在神策系统中,概览的创建方式有多种,除了直接新建添加外,还可以将常用的分析场景保存为书签,然后直接将书签添加到概览中,方便快速查看和使用。
3. 报表
  • 报表是数据分析结果或看数思路的呈现,用于向读者传达清晰有效的数据信息和业务简介。
  • 报表支持拖拽调整大小和位置,有管理权限的报表可通过右上角“编辑报表”进入编辑页面调整内容和布局。可添加组件,编辑图表组件时可选择业务模型来配置图表,需注意实时类型的报表仅支持使用实时的业务模型,离线类型的报表仅支持使用离线的业务模型。
4. 预置概览
  • 预置概览是基于神策数据全埋点和少量用户自定义自动生成的数据概览群,大体分为整体概况、用户获取、活跃与留存、事件转化、用户特征五类。
  • 可帮助系统全面地了解产品整体的健康情况,管理员可进行设置和修改,非管理员账号只有查看权限。

二、总结

本次课程围绕数据基础结构、指标体系搭建、事件设计思路、数据上线和数据呈现等方面展开,通过课程内容和互联网扩展知识,我们深入了解了神策分析在用户行为分析、数据建模、用户关联以及指标体系构建等方面的原理和应用。在实际应用中,企业可根据自身业务需求和发展阶段,合理运用神策数据平台的各项功能,搭建有效的指标体系,实现数字化运营和增长。

第二章考试题目及解析

(AI生成,仅供参考)

一、单项选择题

  1. 在神策分析中,描述用户行为的事件模型包含的两个核心实体是( )

    • A. 事件和物品
    • B. 事件和用户 ✅
    • C. 用户和物品
    • D. 以上都不对
      解析: 在神策分析中,使用事件模型(Event 模型)来描述用户在产品上的各种行为,该模型包括事件(Event)和用户(User)两个核心实体。
  2. 神策分析采用的事件模型相比于传统的 PV 模型,优势在于( )

    • A. 只能完成 PV 统计
    • B. 无法满足精细化分析需求
    • C. 能提供更全面且具体的信息 ✅
    • D. 只能分析页面访问量
      解析: 神策分析采用的事件模型可以提供更全面且更具体的信息,满足产品和运营的精细化分析需求。
  3. 以下哪种不属于业务 ID 的分类( )

    • A. 设备 ID
    • B. 特定生态的 ID
    • C. 临时 ID ✅
    • D. 业务相关的标识
      解析: 业务 ID 包括设备 ID、特定生态的 ID、业务相关的标识,临时 ID 不属于业务 ID 分类。
  4. 搭建指标体系时,将企业第一目标拆解到各部门的方法是( )

    • A. 只能用乘法
    • B. 只能用加法
    • C. 用乘法和加法 ✅
    • D. 随机拆解
      解析: 拆解方式可以用乘法和加法,如 GMV = 购买人数 × 客单价 = 访问人数 × 购买转化 × 笔单价 × 复购率。

二、多项选择题

  1. 一个完整的事件(Event)包含的关键因素有( )

    • A. Who ✅
    • B. When ✅
    • C. Where ✅
    • D. How ✅
    • E. What ✅
      解析: 完整的事件包含 Who、When、Where、How、What 这些关键因素。
  2. 神策数据根基平台的功能包括( )

    • A. 多源采集 ✅
    • B. 数据治理 ✅
    • C. 数据仓库 ✅
    • D. 智能引擎 ✅
    • E. 私有云平台 ✅
      解析: 神策数据根基平台具备“采、治、存、查、智”能力,包含上述所有功能。
  3. 神策分析的功能有( )

    • A. 用户分析洞察 ✅
    • B. 市场获客优化 ✅
    • C. 产品监测运营 ✅
    • D. 企业经营分析 ✅
      解析: 神策分析支持用户分析洞察、市场获客优化、产品监测运营、企业经营分析等功能。

三、简答题

1. 简述神策分析中用户关联的重要性及常见的关联方案。

答案: 重要性:选取合适的用户标识对于提高用户行为分析的准确性有非常大的影响,尤其是漏斗、留存、Session 等用户相关的分析功能。通过用户关联可以贯通一个用户在不同设备、不同阶段的行为数据,方便系统地进行用户行为分析。 常见关联方案:简易用户关联有一对一和多对一两种方案,一对一关联即一个设备 ID 关联一个登录 ID;多对一关联可使一个登录 ID 关联多个设备 ID。全域用户关联可以将同一用户的不同 ID 打通,支持用户标识之间的自由关联,同时直接解绑用户标识,明确了用户标识的语义,所有用户标识都需要先定义,再使用。