在这次建模比赛中认识到了可视化的重要性,而且每次在进行画图的时候,都要去网上找别人是怎么画的,因此这篇博客旨于解决,或者说将好看的实用的数据图博客进行总结,方便自己以后科研的时候用到。
0. 数据可视化的作用
数据可视化的主要作用有两个方面:
(1)真实、准确、全面地展示数据;
(2)揭示数据的本质、关系、规律
画图前的思考:
● 你拥有什么样的数据(What data do you have)?
● 你想表达什么样的数据信息(What do you want to knowabout your data)?
● 你应该采用什么样的数据可视化方法(What visualizationmethods should you use)?
● 你从图表中能获得什么样的数据信息(What do you seeand does it makes sense)?
1. 可视化工具
目前,对我来说,进行可视化的工具就是python,主要是利用python的第三方库进行实现,其中最常见的是(1)matplotlib (2)seaborn (3)plotnine (基于r语言的ggplot),
matplotlib是Python数据可视化的基础包,Seaborn和plotnine也都是基于matplotlib发展而来的。通过图表参数的调整,三种不同风格的图表都可以转换。但是就默认的图表风格而言,plotnine的美观程度优于matplotlib和seaborn;而且plotnine的主题转换相比较来说要简单的多。
其语法大致对比如下
2.基本常用的设置
首先是中文字体的设置,保证了编码时候的可用性
1
2
3
4
5
6
7
8
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
3.基本数据图
3.1 散点图
4.不常用但是可能会用到的数据图
- 坡度图:用于比较两个数据点之间的差异
- 瀑布图:可以分享多个数据的变化趋势,尤其是时序数据
- 相关系数热力图
- 柱形分布图:查看不同类别数据的数据值分步情况
-
箱图:数据的分步情况
-
地图
-
大数据图
Github:https://github.com/Neoyanghc/python_visualization/blob/master/python_visualization.ipynb
参考链接:https://weread.qq.com/web/reader/64b32d3071dbddcc64b2245