数据处理 (FineBI)
字段图表含义
数据处理
所谓的【数据清洗】就是提前对数据进行一系列的操作,为满足实际业务场景中数据的处理需求。这些操作能够从杂乱无章的数据中整理出有序的、可靠的数据,为后续的分析和决策提供有力支持。
场景一:
临近放假,老师准备对全班的同学成绩进行一些分析.于是找来了之前录入的考试成绩表,但是在开始分析前就遇到了一个难题,如图所示
常见数据处理顺序
很多数据由于未经过处理,不方便用来直接制作图表。
我们可以将数据添加到主题后,在主题中先对数据进行分析,然后用分析后的数据再制作图表会比使用原数据表更方便。
以数据成绩表 1 为例
姓名 | 考试结果 | 录入时间 |
---|---|---|
滑玛 | 语文90 数学80 英语80 | 2/12/2020 16:30 |
阿里和卓 | 语文91 数学 英语85 | 2/12/2020 16:31 |
福伦 | 语文54 数学78 英语66 | 2/12/2020 16:32 |
令妃 | 语文78 数学63 英语95 | 2/12/2020 16:43 |
语文73 数学75 英语88 | 2/12/2020 17:57 | |
滑玛 | 语文90 数学88 英语80 | 2/12/2020 17:30 |
- 首先进入我的分析
- 创建新的文件夹
数据处理_测试
- 接着导入
成绩表1.xls
的数据并创建新的分析主题 - 修改分析主题名称
数据处理1
后进入编辑
信息
误操作可以通过右边数据来源进行删除回溯
重复行操作
- 系统的一些问题带来的两条完全一样的数据,直接去重
- 有业务含义的,需要有选择的去重,先【排序】再【删除重复行】。
例:姓名是唯一字段,相同的姓名只留下一条
信息
删除时,是删除处在下方的数据,以更新成绩为例:
假设同一个人的成绩第一次登记的作废,需要留下第二次输入的,那么可以将时间设置为【降序】,这时先登记的成绩在下,后更新的成绩在上,这样就能保证数据的准确性。
删除空值
空值作为一个必定会遇到的问题,在不同的业务场景下会有截然不同的处理方式。
- “大海里的一滴水”,放着不管,问题不大
- 害群之马不可留”,通过过滤,删除含null的数据
- 灵活分析要保留,有业务含义时,打上【标签】,方便分析时过滤:
- 方式一: 【新增公式列】
- 方式二: 【条件标签列】
示例 1 删除空值行
点击上方功能栏的过滤进行筛选操作
示例 2 快捷删除空值列
点击表头右侧的三角形表示进行快捷过滤
数据结构
调整数据结构:
把数据处理成要分析的维度和指标
相关功能:【更多】中找到【拆分行列】、【行列转换】,进行字段设置
示例 1 拆分考试结果
使用拆分行列,行列转换,字段设置对考试结果进行处理
- 首先使用拆分行把成绩按照空格进行第一次拆分
- 随后使用拆分列对结果按照字符数为2进行拆分,生成前两列
- 然后通过字符设置对不用的列和不符合属性的列进行隐藏和修改
- 最后对语数英三列进行列转行即可
信息
通过新增公式列对于需要保留的空缺列可以添加标识行例如IF(${数学}=null||${语文}=null||${英语}=null,"缺考","出席")
多表合并分析
场景二:
在完成数据处理后,老师觉得只分析自己班游局限性,又要来了同年级另外两个班的数据…..
年级主任还补充,近几年鼓励学生全面发展,现在把体育,美术,课外实践也归纳成一门综合素质评定.
1)多个表格上下扩展,分析指标不变,只是行数增加,就用【上下合并】
2)多个表格左右扩展,分析指标变多,只是列数增加,先考虑【其他表添加列】也可以使用【左右合并】
示例 1 上下合并(增加行)
- 在导入成绩表 2 后数据来源选中数据表 1 回溯操作到第一步
姓名 | 考试结果 | 录入时间 |
---|---|---|
夏紫薇 | 语文90 数学80 英语80 | 2/12/2020 18:30 |
福尔康 | 语文91 数学 英语85 | 2/12/2020 18:31 |
永琪 | 语文54 数学78 英语66 | 2/12/2020 18:32 |
小燕子 | 语文78 数学63 英语95 | 2/12/2020 18:43 |
然后选中上下合并
选中数据来源最后的操作即可把合并后的数据按照原先的操作自动再操作一遍
示例 2 左合并(增加列)
- 首先导入产品成本表和产品销售表
产品成本表:
产品 | 成本额 |
---|---|
苹果 | 40 |
香蕉 | 35 |
栗子 | 38 |
产品销售表:
产品 | 销售额 |
---|---|
苹果 | 90 |
香蕉 | 70 |
橘子 | 70 |
- 以产品成本表为主表,产品列为依据,进行左合并,则合并产品销售表的所有销售额到产品成本表的最右列。
- 如果合并表没有主表所包含的依据列则其值为空
- 如果主表没有合并表所包含的依据列则不合并该值
示例 3 右合并(增加列)
- 以产品成本表为主表,产品列为依据,进行右合并,则合并产品销售表的所有销售额到产品成本表的最右列。
- 如果主表没有合并表所包含的依据列则其值为空
- 如果合并表没有主表所包含的依据列则不合并该值
示例 4 并集合并(增加列)
- 以产品成本表为主表,产品列为依据,进行并集合并,则合并产品销售表的所有销售额到产品成本表的最右列。
- 合并所有的值
- 如果主表没有合并表所包含的依据列则其值为空
- 如果合并表没有主表所包含的依据列则其值为空
示例 5 交集合并(增加列)
- 以产品成本表为主表,产品列为依据,进行交集合并,则合并产品销售表的所有销售额到产品成本表的最右列。
- 合并共有的值
- 如果主表没有合并表所包含的依据列则不合并该值
- 如果合并表没有主表所包含的依据列则不合并该值
示例 6 左右合并(增加列)
导入学生信息表数据
姓名 | 性别 | 年龄 | 班级 |
---|---|---|---|
滑玛 | 男 | 14 | 六年1班 |
阿里和卓 | 男 | 14 | 六年1班 |
福伦 | 男 | 14 | 六年1班 |
令妃 | 女 | 14 | 六年1班 |
容嬷嬷 | 女 | 14 | 六年2班 |
明月 | 女 | 12 | 六年2班 |
彩霞 | 女 | 12 | 六年2班 |
小凳子 | 男 | 12 | 六年2班 |
小桌子 | 男 | 12 | 六年2班 |
夏紫薇 | 女 | 12 | 六年3班 |
福尔康 | 男 | 13 | 六年3班 |
永琪 | 男 | 13 | 六年3班 |
小燕子 | 女 | 12 | 六年3班 |
含香 | 女 | 12 | 六年3班 |
蒙丹 | 男 | 13 | 六年3班 |
- 以学生信息表为主表合并处理过的成绩表 1
- 进行左合并
示例 7 快捷合并依据列唯一(增加列)
- 进入在数据工具列进入成绩表 1
- 在上方工具栏使用其他表添加列功能
- 结果类似左合并
示例 7 快捷合并依据列不唯一(增加列)
- 导入综合素质成绩表的数据
姓名 | 科目 | 综合素质成绩 |
---|---|---|
滑玛 | 体育 (30%) | 30 |
滑玛 | 美术 (30%) | 30 |
滑玛 | 社会实践 (40%) | 40 |
阿里和卓 | 体育 (30%) | 30 |
阿里和卓 | 美术 (30%) | 20 |
阿里和卓 | 社会实践 (40%) | 40 |
福伦 | 体育 (30%) | 20 |
福伦 | 美术 (30%) | 20 |
福伦 | 社会实践 (40%) | 29 |
令妃 | 体育 (30%) | 10 |
令妃 | 美术 (30%) | 18 |
令妃 | 社会实践 (40%) | 10 |
容嬷嬷 | 体育 (30%) | 30 |
容嬷嬷 | 美术 (30%) | 5 |
容嬷嬷 | 社会实践 (40%) | 10 |
明月 | 体育 (30%) | 30 |
明月 | 美术 (30%) | 5 |
明月 | 社会实践 (40%) | 12 |
彩霞 | 体育 (30%) | 30 |
彩霞 | 美术 (30%) | 10 |
彩霞 | 社会实践 (40%) | 4 |
小凳子 | 体育 (30%) | 10 |
小凳子 | 美术 (30%) | 10 |
小凳子 | 社会实践 (40%) | 10 |
小桌子 | 体育 (30%) | 11 |
小桌子 | 美术 (30%) | 12 |
小桌子 | 社会实践 (40%) | 13 |
夏紫薇 | 体育 (30%) | 5 |
夏紫薇 | 美术 (30%) | 30 |
夏紫薇 | 社会实践 (40%) | 30 |
福尔康 | 体育 (30%) | 30 |
福尔康 | 美术 (30%) | 29 |
福尔康 | 社会实践 (40%) | 40 |
永琪 | 体育 (30%) | 30 |
永琪 | 美术 (30%) | 29 |
永琪 | 社会实践 (40%) | 40 |
小燕子 | 体育 (30%) | 30 |
小燕子 | 美术 (30%) | 6 |
小燕子 | 社会实践 (40%) | 36 |
含香 | 体育 (30%) | 5 |
含香 | 美术 (30%) | 30 |
含香 | 社会实践 (40%) | 38 |
蒙丹 | 体育 (30%) | 30 |
蒙丹 | 美术 (30%) | 6 |
蒙丹 | 社会实践 (40%) | 32 |
- 使用其它表添加列功能添加总和素质成绩表的求和值
新增分析指标
场景三:
经过各种处理,我们已经可以基于现有的数据做分析了,但现有的指标还是比较单调的,如果我们希望有更多的指标呢?
比如各年级的,各班的三科总分时多少,各科平均分是多少,多少学生在平均分之上…
假设需要的指标非常的多,则需要如下操作
1)要写公式的:【新增公式列】
2)要算汇总值的:【新增汇总列】
3)要写多重if嵌套的,直接用:【条件标签列】
真正的数据处理还是要根据实际的业务场景区处理,以上只是大概的处理步骤
调整字段
通过字段设置,可以选择需要保留或排除的字段,快速调整字段位置、重命名字段,从而快速整理数据。
1)删除多余列
有一些不需要参与分析或者空白列,点击字段表头,下拉删除列
2)转化字段类型
分析的时候,会按照字段类型进行分类,用维度衡量指标。需要调整类型不正确的字段。例如1号产品和2号产品不等于3号产品
3)重命名、翻译字段
将一些不规范的字段名进行重命名。例如将英文字段转化为中文
切换数据源
当我们已经做了很多分析步骤,但是这时候想要换源数据表。这时候,若我们不想要重新再做一遍这些分析步骤,只需要在第一步【切换数据】即可。系统会自动将当前表和要更换的目标表【字段名称相同的字段】进行匹配。
必须在历史记录的第一步上切换
如图所示: A 为切换数据源
B 为数据操作步骤的第一步,且鼠标悬停在B处可查看数据来源
数据校验
计算过程中,我们需要一边分析一边校验查看,查看数据是否跟预期的一样
点击一个字段,预览下方会自动出现校验数据,帮助用户快速发现问题,快速调整计算。如下图所示:
1)点击数值字段,显示该列「求和」、「平均」数值
2)点击文本/日期字段,显示该列「去重计数」数值
3)点击下拉框,可以检查该字段中每个字段的计数值,帮助用户检查
- 标题: 数据处理 (FineBI)
- 作者: Yiuhang Chan
- 创建于 : 2020-05-15 07:55:42
- 更新于 : 2024-02-28 18:49:43
- 链接: https://www.yiuhangblog.com/2020/05/15/20200515数据处理/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。