您的位置
主页 > 社会新闻 » 正文

学会用Excel做数据分析,业务小白都能变分析大神

来源:www.mymobilereo.com 点击:1716

2019-09-18 13: 14: 44技术兄弟

停下来已经太久了,我终于有时间为大家写干货了。

今天,我们将继续分享710个数据分析练习!

部分入门,使用的工具和所需的技能并不太复杂。如果您已经按照《10周入门数据分析》进行了学习,那么您将理解并开始使用。

本文将对数据分析师的求职环境和薪水水平进行简单分析,因为周围想要更改数据分析的人们的确越来越多(上车为时已晚)。

使用的工具是Excel。 Excel是最基本的数据分析工具。

以下是使用Excel2013对数据分析师招聘网站的数据进行的分析。

数据分析步骤:

1.提出问题明确数据分析目的

2,了解数据了解数据列名的含义

3,数据清理统一格式内容

4,建立模型考虑以哪种形式的表达式来呈现数据

5,数据可视化将数据转换成地图

首先,问问题

首先,此数据分析的目的是什么?那是什么问题? (所提出的问题应使用非常明确的指标和数字来衡量,而不是模棱两可)

问一个问题:

1.您在哪个城市找到数据分析师的工作机会更大?

2.数据分析师的薪水是多少?

3.薪水如何根据工作经验而变化?

其次,了解数据

下一步是了解表中的每个字段(列名)的含义:

城市:用于比较不同城市的数据分析师的需求

职位所属:分析后职位

作业ID:作业的唯一表示形式,即每行数据的唯一标识符-用于删除重复的ID

工资:比较不同城市及其领域之间的工资差异

工作年:从时间表比较薪水涨幅

第三,数据清理

数据清理是数据预处理。目的是删除无效和重复的数据以获得符合我们要求的数据。

数据清理的基本步骤:

1.选择一个子集

仅选择对数据分析有意义的字段。选择无意义的字段将其隐藏,即,不需要分析的列将被隐藏(尝试不删除,以确保数据的完整性)。公司ID和公司全名隐藏在此处,并且保留工作ID和公司缩写。

2.重命名列名

将不适当的列名称更改为我们可以理解的名称。

3.删除重复的值

要删除重复数据,请在此处删除[Workplace ID]列的重复值处理:

4.缺失值处理

首先检查数据中是否缺少值,然后检查完整数据列的计数:

然后选择另一列以查看是否缺少数据:

可以看出,[城市]列缺少两条数据。

根据具体情况,通常有4种方法来处理丢失的值:

1手动完成(缺失值较小,可根据其他信息确定)

2删除丢失的数据(不能判断该位置填写了什么值,或者删除的数据对分析没有太大影响

3用平均值替换缺失值

4用统计模型计算的值替换缺失值

以下是[城市]列的处理方法:

由于缺少数据,此处使用手动完成。使用ctrl+eneter快捷键在不同的单元格中同时输入相同的数据或公式:

{!--pgc_列--}

5。一致处理

(1)数据的统一命名和处理。例如,数据中公司的域是“企业服务,数据服务”,列数据被拆分。

步骤:选择要拆分的列-tab-data-column-separator-next step-check other,merge input“,”并将连续分隔符作为单个处理进行检查(注意,输入方法被剪切为中文状态,因为中文逗号和英文不是字符)--next---完成后,您将在右侧看到一个列表,如图所示:

<> > >

注:

1首先将数据复制到最后一列(列函数将覆盖右边的单元格),隐藏原始列-----进行排序;

2对拆分页面添加列名:公司属于域2,原始列名更改为公司的域1,否则当数据透视时将出现警告:“数据表字段名无效。

(2)将薪水分为[最低薪水],[最高薪水],[平均薪水],并存储清理后的薪水数据。有两种方法可以做到这一点:

一种是使用上述排序功能,将[-]用作分隔符,然后将[k]替换为[查找替换]函数,然后使用函数AVERAGE查找平均薪水。

第二种是使用该函数来实现:

FIND函数的意思是找到一个字符串在另一个字符串中的开始位置,并使用FIND函数找到分隔符[k]或[-]。

FIND函数用于在原始数据中定位字符串以确定其位置。定位FIND函数时,无论是否存在匹配的字符串,它始终从指定位置开始并返回找到的第一个匹配字符串的位置。

LEFT函数(从左边截取字符串),MID函数(从中间截取字符串),Len函数(计算字符串的长度),该函数的具体用法可以在百度上查看。

使用LEFT功能获取最低工资:

同样,使用MID函数捕获最高薪水:

这样做时,薪水最高的列具有错误值,并且使用过滤功能查找错误的值:

该错误的原因是薪金列中的值有问题。一种是k的情况。如果存在大写字母K,则可以使用搜索替换将大写字母更改为小写字母。

第二个是工资范围是多少k:

具体的操作方法如下:选择最高薪栏,定位条件错误。然后删除删除错误值。然后在单元格中输入=ctrl +方向键←,使其等于最低工资;最后按Ctrl + Enter,进行批处理操作。

执行该操作时,数字显示将为文本格式。您可以选择×1列以将其转换为数字格式。

完成所有操作后,请使用平均值函数对其求平均值。

6,数据排序

我们按降序对[平均工资]列进行排序:

7.离群值处理

使用数据透视表处理表:

此时,发现[职位名称]中的某些位置不属于数据分析的一部分:

这些异常值需要删除,并应返回到原始表以进行重新筛选。

步骤进行:

1在原始表的[Job Name]列中插入一个新列,并将其命名为“ Data Analysis Job Title”;

2插入函数=如果在空白单元格下面(计数(查找(操作),“分析”,“,”,“,”,“否”,“否”;

3双击单元格右下角以自动填充;

4使用过滤功能并选择“是”过滤出异常值。

0x253A

第四,建立模型和数据可视化

1。在哪些城市,你有更大的机会找到数据分析师工作?

按城市标注,工作年限要求列标,数据透视分析不同城市不同年份数据分析师的需求。

步骤:全选--制表符,数据透视图--将数据透视表字段中的[城市]拖到行中,将[工作年份要求]拖到列中,然后将[城市]拖到值中:

然后单击表格左上角的行标签---其他排序选项---降序排序--计数项目:城市

0x253C

最后,该值显示为列摘要的百分比:

0x253D

按行汇总百分比显示值:

0x253F

结论:从数据透视表可以看出,北京的数据分析岗位最多,其次是上海、深圳、杭州和广州。根据工作年限的要求,需求量最大的是3-5年,其次是1-3年。今年,这表明数据分析将需要更多的年轻人。

2。数据分析师的薪水是多少?

首先,安装EXCEL的分析工具包功能:选项卡,文件-选项-附加组件-管理,选择EXCEL附加组件-去-检查分析工具箱-确定。

以城市为标签,平均工资为列标签,数据透视表分析城市与平均工资之间的关系:

结论:从以上数据角度来看,深圳数据分析师的平均薪资最高,其次是北京,上海和杭州。

3.薪水如何根据工作经验而变化?

以工作年数为标签,平均工资为列标签,数据透视分析的工作寿命与平均工资之间的关系为

结论:从以上数据角度来看,可以看出,随着工作经验的增加,数据分析师的薪水也在增加。

结合以上三个数据结果,我们可以获得以下分析结论:

在数据分析的岗位上,有大量的就业机会集中在北部和北部以及新的一线城市。如果您将来去这些城市找工作,则可以提高求职成功的条件概率。从处理的角度来看,对于数据分析师来说,留在深圳,其次是北京和上海是一个不错的选择。数据分析是一个年轻的职业方向,大量的工作经验需求集中在1-5年内。对于数据分析师来说,5年似乎是一个瓶颈期。如果您在5年内没有提高自己的能力,那么未来的竞争压力将相对较大。随着经验的增加,数据分析师的薪水也在不断提高。那些有10年以上工作经验的人可以获得可观的薪水。

最后

关于以上所有分析数据,您可以通过私信回复我的“ Excel”!

停下来已经太久了,我终于有时间为大家写干货了。

今天,我们将继续分享710个数据分析练习!

部分入门,使用的工具和所需的技能并不太复杂。如果您已经按照《10周入门数据分析》进行了学习,那么您将理解并开始使用。

本文将对数据分析师的求职环境和薪资水平进行简单分析,因为周围想要更改数据分析的人们的确越来越多(现在上车太晚了)。

使用的工具是Excel。 Excel是最基本的数据分析工具。

以下是使用Excel2013对数据分析师招聘网站的数据进行的分析。

数据分析步骤:

1.提出问题明确数据分析目的

2,了解数据了解数据列名的含义

3,数据清理统一格式内容

4,建立模型考虑以哪种形式的表达式来呈现数据

5,数据可视化将数据转换成地图

首先,问问题

首先,此数据分析的目的是什么?那是什么问题? (所提出的问题应使用非常明确的指标和数字来衡量,而不是模棱两可)

问一个问题:

1.您在哪个城市找到数据分析师的工作机会更大?

2.数据分析师的薪水是多少?

3.薪水如何根据工作经验而变化?

其次,了解数据

下一步是了解表中的每个字段(列名)的含义:

城市:用于比较不同城市的数据分析师的需求

职位所属:分析后职位

作业ID:作业的唯一表示形式,即每行数据的唯一标识符-用于删除重复的ID

工资:比较不同城市及其领域之间的工资差异

工作年:从时间表比较薪水涨幅

第三,数据清理

数据清理是数据预处理。目的是删除无效和重复的数据以获得符合我们要求的数据。

数据清理的基本步骤:

1.选择一个子集

仅选择对数据分析有意义的字段。选择无意义的字段将其隐藏,即,不需要分析的列将被隐藏(尝试不删除,以确保数据的完整性)。公司ID和公司全名隐藏在此处,并且保留工作ID和公司缩写。

2.重命名列名

将不适当的列表更改为易于理解的形式。

3.删除重复的值

要删除重复数据,请在此处删除[workplace ID]列的重复值:

4.缺失值处理

首先检查数据中是否缺少值,首先检查完整数据列的计数:

选择另一列以查看数据是否丢失:

可以看出,此列中有两个缺失的数据。

通常,有四种方法可以处理缺失值,可以根据情况灵活使用。

手动完成(较少的缺失值,可以根据其他信息确定)

(2)删除丢失的数据(无法确定位置填充的值,或者删除的数据对分析没有重大影响)

(3)用平均值代替缺失值

(4)将缺失值替换为统计模型计算出的值。

这是处理“城市”列的方法:

由于缺少的数据较少,因此此处使用手动完成。使用快捷键Ctrl + Enter在不连续的单元格中同时输入相同的数据或公式。

{! -PGC_COLUMN-}

5.统一

(1)数据的统一命名和处理。例如,数据中公司的域是“企业服务,数据服务”,列数据被拆分。

步骤:选择要拆分的列-tab-data-column-separator-next step-check other,merge input“,”并将连续分隔符作为单个处理进行检查(注意,输入方法被剪切为中文状态,因为中文逗号和英文不是字符)--next---完成后,您将在右侧看到一个列表,如图所示:

<> > >

注:

1首先将数据复制到最后一列(列函数将覆盖右单元格),隐藏原始列-----排序;

2对拆分页添加列名:公司属于域2,原列名改为公司的域1,否则数据透视时会出现警告:“数据表字段名无效。

(2)我们将工资分为[最低工资]、[最高工资]、[平均工资],并在清理后存储工资数据。有两种方法可以做到这一点:

一种是使用上述排序函数,用[-]作为分隔符,然后用[find replace]函数替换[k],然后使用函数average来查找平均工资。

第二种方法是使用函数来实现:

find函数意味着在另一个字符串中查找字符串的起始位置,并使用find函数查找分隔符[k]或[-]。

find函数用于在原始数据中定位字符串以确定其位置。当find函数被定位时,它总是从指定的位置开始并返回找到的第一个匹配字符串的位置,而不管是否有匹配的字符串。

左函数(从左截取字符串)、中函数(从中截取字符串)、len函数(计算字符串长度),具体使用方法可以在百度上查到。

0x252B

使用左边的函数获取最低工资:

0x252C

同样,使用mid函数获取最高工资:

0x252D

0x252F

执行此操作时,薪资最高的列有一个错误值,使用过滤功能查找错误值:

错误的原因是salary列中的值有问题。一种是k的大小写,如果有大写的k,可以使用搜索替换将大写改为小写。

第二个是工资范围是多少K:

具体操作方法如下:选择薪资最高的栏目,定位条件错误。然后删除删除错误值。然后在单元格中输入=ctrl+方向键☆使其等于最低工资;最后按ctrl+enter,批量操作。

执行操作时,数字显示将采用文本格式。您可以选择列×1将其转换为数字格式。

所有操作完成后,使用average函数对它们进行平均。

6、数据排序

我们按降序对[平均工资]列进行排序:

7.离群值处理

使用数据透视表处理表:

此时,发现[职位名称]中的某些位置不属于数据分析的一部分:

这些异常值需要删除,并应返回到原始表以进行重新筛选。

步骤进行:

1在原始表的[Job Name]列中插入一个新列,并将其命名为“ Data Analysis Job Title”;

2在下面的空白单元格中插入函数=IF(COUNT(FIND({``data operation'',``data analysis'',``analyst''},L2)),``is'',``No '');

3双击单元格右下角以自动填充;

4使用过滤器功能,然后选择“是”以过滤异常值。

第四,建立模型和数据可视化

1.您在哪个城市找到数据分析师的工作机会更大?

按城市标记,必须将工作年标记为列标记,并且数据透视图分析了不同城市中不同年份数据分析师的需求。

步骤:选择all-tab,PivotChart ----,将PivotTable字段中的[City]拖动到该行,将[Working Year Requirements]拖动到该列中,然后将[City]拖动到该值中:

然后点击表格左上角的行标签-其他排序选项-降序-计数项目:城市

最后,该值显示为列摘要的百分比:

按行汇总百分比显示值:

结论:从数据透视表可以看出,北京的数据分析职位最多,其次是上海,深圳,杭州和广州。根据工作年限的需求,需求在3-5年内最大,其次是1-3年。在这一年中,这表明数据分析将需要更多的年轻人。

2.数据分析师的薪水是多少?

首先,安装EXCEL的分析工具包功能:选项卡,文件-选项-附加组件-管理,选择EXCEL附加组件-去-检查分析工具箱-确定。

以城市为标签,平均工资为列标签,数据透视表分析城市与平均工资之间的关系:

结论:从以上数据角度来看,深圳数据分析师的平均薪资最高,其次是北京,上海和杭州。

3.薪水如何根据工作经验而变化?

以工作年数为标签,平均工资为列标签,数据透视分析的工作寿命与平均工资之间的关系为

结论:从以上数据角度来看,可以看出,随着工作经验的增加,数据分析师的薪水也在增加。

结合以上三个数据结果,我们可以获得以下分析结论:

在数据分析的岗位上,有大量的就业机会集中在北部和北部以及新的一线城市。如果您将来去这些城市找工作,则可以提高求职成功的条件概率。从处理的角度来看,对于数据分析师来说,留在深圳,其次是北京和上海是一个不错的选择。数据分析是一个年轻的职业方向,大量的工作经验需求集中在1-5年内。对于数据分析师来说,5年似乎是一个瓶颈期。如果您在5年内没有提高自己的能力,那么未来的竞争压力将相对较大。随着经验的增加,数据分析师的薪水也在不断提高。那些有10年以上工作经验的人可以获得可观的薪水。

最后

关于以上所有分析数据,您可以通过私信回复我的“ Excel”!