python数据可视化学习_颜值第一

"数据处理相关方法"

Posted by neo on September 21, 2020

在这次建模比赛中认识到了可视化的重要性,而且每次在进行画图的时候,都要去网上找别人是怎么画的,因此这篇博客旨于解决,或者说将好看的实用的数据图博客进行总结,方便自己以后科研的时候用到。

0. 数据可视化的作用

数据可视化的主要作用有两个方面:

(1)真实、准确、全面地展示数据;

(2)揭示数据的本质、关系、规律

画图前的思考:

● 你拥有什么样的数据(What data do you have)?

● 你想表达什么样的数据信息(What do you want to knowabout your data)?

● 你应该采用什么样的数据可视化方法(What visualizationmethods should you use)?

● 你从图表中能获得什么样的数据信息(What do you seeand does it makes sense)?

1. 可视化工具

目前,对我来说,进行可视化的工具就是python,主要是利用python的第三方库进行实现,其中最常见的是(1)matplotlib (2)seaborn (3)plotnine (基于r语言的ggplot),

matplotlib是Python数据可视化的基础包,Seaborn和plotnine也都是基于matplotlib发展而来的。通过图表参数的调整,三种不同风格的图表都可以转换。但是就默认的图表风格而言,plotnine的美观程度优于matplotlib和seaborn;而且plotnine的主题转换相比较来说要简单的多。

其语法大致对比如下

2.基本常用的设置

首先是中文字体的设置,保证了编码时候的可用性

1
2
3
4
5
6
7
8
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns


plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

3.基本数据图

3.1 散点图

4.不常用但是可能会用到的数据图

  • 坡度图:用于比较两个数据点之间的差异

  • 瀑布图:可以分享多个数据的变化趋势,尤其是时序数据

  • 相关系数热力图

  • 柱形分布图:查看不同类别数据的数据值分步情况

  • 箱图:数据的分步情况

  • 地图

  • 大数据图

    Github:https://github.com/Neoyanghc/python_visualization/blob/master/python_visualization.ipynb

    参考链接:https://weread.qq.com/web/reader/64b32d3071dbddcc64b2245