这 7 类图表, 让你的报告瞬间变高级

  • 2025-06-18 11:16:34
  • 427

在数据分析和报告撰写中,图表是传递信息、展示趋势和揭示数据背后故事的关键工具。然而,并非所有图表都能有效地传达复杂的信息,也不是所有图表都适合特定的数据类型。本文将为你介绍7类能够提升报告水平的高级图表,包括它们的设计思路和适用场景。

在《FundamentalsofDataVisualization》这本书中,作者介绍了一些数据可视化的案例和原则,可以让你的报告瞬间变高级。

下面分类汇总7类能提升报告水平的图表,简单剖析它们的设计思路,并讲一讲数据背后的故事。

一、对比

下面是一张热力图,它展示了20个国家/地区的互联网用户百分比,包括从1994年到2016年总共23年的数据,其中每个方块代表一个国家/地区在某一年的互联网用户百分比,颜色越明亮,对应的数值越大,按照2016年的数据降序排列。

虽然这种图表难以确定具体的数值(例如2016年中国互联网用户的确切百分比是多少?),但它可以清晰地展示数据的变化趋势。

通过颜色明亮程度的对比,我们可以清楚地看出,随着时间的推移,各国的互联网用户占比在不断增加,其中有些国家/地区起步相对较早,但2016年的排名相对靠后,例如UnitedStates(美国)。

而有些国家/地区虽然起步相对较晚,但互联网发展迅速,例如Israel(以色列)和France(法国)。

为了弥补热力图难以知道确切数值的不足,我们可以在方块内显示具体的数值。

二、分布

下面是一张密度图,它展示了4种不同奶牛的乳脂率分布。

从中可以快速看出,Holstein-Friesian(荷兰牛)的乳脂率比较低,且相对比较集中;而Jersey(泽西牛)的乳脂率比较高,且相对比较分散。

下面是一张Sina图,它把原始数据绘制成一定范围内随机抖动的点,并用小提琴图展示数据的分布情况。

图中显示了每一天的平均气温,并按照月份进行分组。可以看出6-8月份的平均气温明显比较高,且温差比较小;而12月份的平均气温明显比较低,且温差比较大。

Sina图是为了纪念首次用代码制作此类图表的人,他的名字叫SinaHadiSohi,跟新浪没有什么关系。

三、比例

饼图是展示比例的常见图表,但在数据科学家中备受诟病,因为当整体被分成很多部分时,难以对比不同部分的差别。

当数据可视化的目标是强调简单的分数,比如1/2、1/3时,饼图是一个不错的选择。

在下面的例子中,展示了德国议会三个党派的成员数。

其中CDU/CSU的占比接近50%,而SPD的占比很小。

如果把数据标签换成百分比的形式,不同党派的比例数据会更准确。

下面是一张百分比堆叠柱状图,直观地展现了男女比例随时间变化的趋势,大约从1980年开始,名字叫Riley的女性开始增加。

为了准确判断何时女性成为多数,图中添加了一条水平的虚线,位于50%的地方。基于这条虚线,我们可以知道,大约在2003年之后,女性占比超过了男性。

四、关系

如果想要展示两个变量之间的关系,散点图是一个比较好的选择。

例如,下图展示了知更鸟的头长与体重的关系。

从图中可以看出,在相同体重的情况下,雄鸟的头部通常更长,而雌鸟则相对较短。

我们还可以把点的大小,映射到另一个变量上,从而得到气泡图。

五、时间序列

用折线图来表示时间序列,是一种比较普遍的做法,它能体现数据的整体趋势。

下图展示了预印本服务器arXiv.org在定量生物学(q-bio)领域每月预印本数量的变化趋势,从2007年到2013年,每月数量呈现快速增长的趋势,但随后突然停止增长。

是什么原因导致数量增长发生剧烈变化呢?

我们运用数据分析的溯源思维,去深入了解一下数据背后的故事。

原来在20世纪90年代,随着互联网的发展,物理学家意识到,把论文草稿放在一个服务器中更高效,于是发明了预印本服务器,让科学家可以上传、下载和搜索尚未正式发表的预印本。

该平台建立后不久,开始向相关领域扩展并流行起来,包括数学、天文学、计算机科学、统计学、定量金融学和定量生物学等。

2013年11月,生物学专业预印本服务器bioRxiv正式上线,这是一家在生物学家中享有极高声誉的出版社(CSHL)推出的,迅速获得了生物学家们的认可,每月预印本数量呈现指数级增长,很快就超过了arXiv。

从图中可以直观地看出,arXivq-bio的增长停滞,与bioRxiv迅速增长的时间正好吻合。很多原本会把预印本上传至q-bio的科学家,似乎转而选择了bioRxiv。

六、地理空间

有些与现实世界中位置相关的数据,例如美国每个县的人口密度,即每平方公里的人数,可以在地图中用颜色的深浅来表示。

颜色越深的区域,代表人口数量越多。

从图中可以看出,美国东海岸的主要城市人口比较密集,而西部平原地区的人口密度较低,阿拉斯加的人口特别稀疏。

七、不确定性

几乎所有数据都存在一定程度的不确定性,我们该如何在图表中体现这种不确定性呢?

有两种常用的方法:一种是误差线,另一种是置信带。

例如,在柱形图的上方显示误差线,表示平均值+/-一个标准误差。

误差线比较长,代表数据波动比较大;反之,误差线比较短,则代表数据波动比较小。

从图中可以看出,Jersey(泽西牛)的平均脂肪含量比较高,且数据波动比较大。

下图用置信带来展示趋势线的不确定性,其中蓝色直线是对散点图的最优线性拟合,它周围的灰色区域是置信带,代表统计学中95%的置信水平。

基于体重与头长的关系,我们可以根据体重数据,大致预估头长的范围。

最后的话

在数据的海洋中,图表不仅是视觉的享受,更是洞察世界的钥匙。掌握好这把钥匙,你便能在信息的迷雾中,找到前行的方向。

数据可视化,不是简单的呈现,而是与数据对话的艺术。每一次凝视图表的背后,都是对现实世界的深刻理解与洞察。

让每一个数字都有温度,让每一张图表都有故事——这是数据的魅力,也是你的能力。

用事实数据和逻辑推理来传递洞见,把数据可视化图表融入到故事中,以便更好地吸引和激发受众。

选择一款适合自己的数据可视化软件,最好是能快速探索、制作、修改和复现图表的软件。

我在「数据化分析案例库」中,分享了很多用AI和Python制作各种图表的案例,涵盖了不同的领域和应用场景,希望能帮助你更好地理解和应用数据。

转发这篇文章,不只是分享知识,更是传递一种思维的力量。

愿你在数据分析的路上越走越远,用数据点亮生活的每一处角落。