Python 数据分析与可视化的实战项目案例

说实话，我第一次接触 Python 数据分析的时候，完全是被逼的。那时候手头有一堆乱糟糟的 Excel 表格，老板让我整理出季度销售趋势。你能想象吗？几十个表，上万行数据，靠人力一条条筛选简直要疯。后来一个同事点醒我："用 Python 啊，十几行代码就能搞定。"从那以后，我就彻底迷上了这个工具。

今天我想跟你分享几个我实际做过的项目案例，都是从真实业务场景中脱胎出来的。没有那些花里胡哨的理论，全是实打实的代码思路和解决思路。我会尽量用大白话讲清楚，毕竟我自己当年也是从菜鸟过来的，太技术化的表述看着头疼。

项目一：电商销售数据 Dashboard 搭建

这个项目来自我之前接手的一个零售企业客户。他们家的销售数据分散在七八个系统里，订单、库存、客户信息、促销活动各自为政。每次做月度汇报，数据整合就要花掉两三天时间，而且经常出现数据对不上的情况。

数据整合的麻烦事儿

接手这个项目之后，我首先遇到的挑战就是数据格式不统一。有的用 CSV 存储，有的直接连着数据库，还有几个 Excel 文件不知道经过几手了，编码都能给你玩出花来。最要命的是日期格式，有的地方写 "2024/01/15"，有的写 "15-01-2024"，还有的直接 timestamp 格式。Python 的 pandas 库在这种场景下真是帮了大忙。

import pandas as pd
import os
from datetime import datetime


# 读取不同来源的数据
csv_data = pd.read_csv('orders.csv', encoding='utf-8')
excel_data = pd.read_excel('monthly_sales.xlsx')
db_data = pd.read_sql('SELECT * FROM sales_table', connection)

# 统一日期格式这个步骤很关键
def standardize_date(date_val):
    formats = ['%Y/%m/%d', '%d-%m-%Y', '%Y-%m-%d', '%m/%d/%Y']
    for fmt in formats:
        try:
            return pd.to_datetime(date_val, format=fmt)
        except:
            continue
    return pd.NaT

csv_data['order_date'] = csv_data['order_date'].apply(standardize_date)
excel_data['order_date'] = pd.to_datetime(excel_data['order_date'])

这段代码看着简单，实际上花了我整整两天时间调试。业务方给的数据质量嘛，你懂的，总有各种意想不到的情况。我后来养成了一个习惯：任何数据处理之前，先做数据质量检查，把异常值、缺失值、重复值都摸清楚。

数据清洗的实战技巧

数据整合完了之后，清洗工作才是重头戏。我总结了这么几个常见问题：

缺失值处理：金额字段有时候会空着，我一般先看缺失比例。如果低于 5%，可以用均值或中位数填充；如果高于 20%，就得好好跟业务方聊聊了，很可能数据采集环节有问题。
异常值检测：有些订单金额是负数，有些明显是输入错误（比如把 1299 写成 12999）。我会用 IQR 方法或者 3σ 原则来识别这些 outlier，具体用哪种要看数据分布情况。
重复数据：这个最常见，尤其是从不同系统导出的数据。我一般用 order_id + order_date 作为联合主键来去重，有时候同一笔订单在两个系统里都有记录。

清洗完之后，数据就变得规整多了。接下来是可视化，这才是真正体现价值的环节。

用 Matplotlib 和 Seaborn 画图

Dashboard 的核心是几个关键指标：月度销售额趋势、品类占比、各地区表现、客单价分布。我用了 matplotlib 做基础图表，seaborn 调样式，两者配合起来效率很高。

import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文字体和样式
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style('whitegrid')

# 月度趋势图
fig, ax = plt.subplots(figsize=(12, 6))
monthly_sales = df.groupby(df['order_date'].dt.to_period('M'))['amount'].sum()
monthly_sales.plot(kind='line', marker='o', linewidth=2, ax=ax)
ax.set_title('2024年月度销售额趋势', fontsize=16, pad=20)
ax.set_xlabel('月份', fontsize=12)
ax.set_ylabel('销售额(万元)', fontsize=12)

# 品类占比饼图
category_sales = df.groupby('category')['amount'].sum()
colors = sns.color_palette('pastel')
plt.pie(category_sales, labels=category_sales.index, autopct='%1.1f%%', colors=colors)

实际项目中，可视化最忌讳的就是"为了炫技而炫技"。曾经有个同事做了个 3D 动态旋转饼图，看起来很酷，但领导根本看不清每块占比到底是多少。后来我们改成简单的柱状图，反而大家都说"这下清楚了"。做数据分析这行，要时刻记住：图表是给人看的，不是用来秀技术的。

项目二：用户行为漏斗分析系统

第二个项目是做给一个互联网产品团队用的。他们想搞清楚用户从下载 App 到完成注册、首次使用、最终付费这个链条上，每一步流失了多少人。传统做法是在后台看各个步骤的 UV 数据，但这样只能看到孤立的数据，看不出用户完整的转化路径。

漏斗分析的核心逻辑

漏斗分析的原理其实很简单：先把用户按行为分好组，然后计算每一环节的人数占上一环节的比例。难点在于数据量大的时候性能问题，还有如何定义"同一用户"。

from datetime import timedelta

# 按用户分组，按时间排序
user_actions = df.sort_values(['user_id', 'timestamp'])

# 定义漏斗的各个阶段
funnel_stages = ['app_open', 'registration', 'first_usage', 'first_purchase']

# 计算每个阶段的完成人数
funnel_data = {}
for stage in funnel_stages:
    users_at_stage = user_actions[user_actions['action'] == stage]['user_id'].unique()
    funnel_data[stage] = users_at_stage

# 计算转化率
conversion_rates = {}
for i, stage in enumerate(funnel_stages):
    if i == 0:
        conversion_rates[stage] = 100.0
    else:
        prev_stage_users = set(funnel_data[funnel_stages[i-1]])
        curr_stage_users = set(funnel_data[stage])
        converted_users = curr_stage_users & prev_stage_users
        conversion_rates[stage] = len(converted_users) / len(prev_stage_users) * 100

这里有个小坑要注意：用户可能多次触发同一个 action，比如反复打开 App。这时候要判断是"首次通过"还是"重复通过"，通常漏斗分析只看首次触发的数据。

可视化呈现方式

漏斗图的可视化我用的是一个叫 plotly 的库，它能画很漂亮的交互式图表。不过纯静态展示的话，matplotlib 也能画，就是稍微麻烦点。

import plotly.express as px

# 准备漏斗图数据
funnel_df = pd.DataFrame({
    'stage': funnel_stages,
    'users': [len(funnel_data[s]) for s in funnel_stages],
    'conversion_rate': list(conversion_rates.values())
})

fig = px.funnel(funnel_df, x='users', y='stage', 
                title='用户转化漏斗分析',
                labels={'users': '用户数', 'stage': '转化阶段'})
fig.show()

这个系统上线之后，产品团队的反馈挺好的。他们发现"注册到首次使用"这个环节流失率特别高，一分析原因，是注册流程太繁琐，好几步验证短信发出去用户就不回来了。优化之后，转化率提升了将近 15%。这让我挺有成就感的——数据分析真的能带来实际的业务价值。

项目三：股票市场数据可视化分析

第三个项目是给自己做的，或者说给身边几个朋友做的。我们都想看点股票数据，但又不太想花钱买那些付费终端的数据服务。试了一圈下来，Python 配合一些免费数据源，做出来的效果还挺不错的。

获取数据的几种方式

股票数据获取有很多渠道，我常用的是 tushare 这个库，国内的A股数据比较全。国外的话，yfinance 配合 Yahoo Finance 数据源也很好用。

import tushare as ts
import yfinance as yf

# 用 tushare 获取A股数据
pro = ts.pro_api('your_token_here')
df = pro.daily(ts_code='000001.SZ', start_date='20240101', end_date='20240630')

# 用 yfinance 获取美股数据
aapl = yf.Ticker('AAPL')
hist = aapl.history(period='1y')

拿到数据之后，接下来是做技术指标计算。常见的均线、MACD、RSI 这些，Python 都有现成的库可以算，不需要自己写公式。

import mplfinance as mpf

# 计算移动平均线
df['MA5'] = df['close'].rolling(window=5).mean()
df['MA20'] = df['close'].rolling(window=20).mean()

# 画K线图
mc = mpf.make_marketcolors(
    up='#ff0000', down='#00ff00',
    edge='inherit',
    wick='inherit',
    volume='in'
)
s = mpf.make_mpf_style(base_mpf_style='nightclouds', marketcolors=mc)

# 绘制带成交量的K线图
mpf.plot(df, type='candle', style=s, volume=True, 
         title='股票K线图示例', mav=(5, 20))

mplfinance 这个库是真的好用，几行代码就能画出专业的 K 线图。我有个朋友是做投资的，我帮他用这个搭了一个简易的看盘界面，他说比某些付费软件还好用——当然这只是开玩笑，专业交易软件的功能还是要全面得多。

多股票对比分析

有时候我们想买几只股票放在一起对比，看哪个走势更好。这时候可以用归一化处理，把不同价格的股票放在同一个坐标系里比较。

# 归一化处理
normalized_prices = prices / prices.iloc[0] * 100

# 绘制对比图
plt.figure(figsize=(14, 7))
for col in normalized_prices.columns:
    plt.plot(normalized_prices.index, normalized_prices[col], label=col)

plt.title('多股票走势对比（归一化）', fontsize=16)
plt.xlabel('日期', fontsize=12)
plt.ylabel('相对价格（首日=100）', fontsize=12)
plt.legend(loc='best')
plt.grid(True, alpha=0.3)

这个图做出来之后，什么时候该加仓什么时候该减仓，能看得一目了然。当然，股市有风险，投资需谨慎，这些分析工具只是辅助决策，可不能盲目相信。

给初学者的几点建议

回顾这几个项目，我总结了一些自己的心得体会。

首先，不要一上来就追求完美的代码。我刚开始写数据分析脚本的时候，总想把每一行都写得特别优雅，后来发现更重要的是先把问题解决掉。数据清洗、代码优化这些工作，可以在功能实现之后再慢慢打磨。

其次，多去了解业务背景。数据分析师最容易犯的错就是"为了分析而分析"，搞一堆复杂的模型，结果业务方看完问"这跟我有什么关系"。好的数据分析应该是从业务问题出发，最后又能回到业务解决方案上去。

第三，学会利用现有资源。Python 的数据科学生态非常成熟，大部分常见的数据处理和可视化需求都有现成的库可以用。不要重复造轮子，把精力放在解决实际问题上，而不是底层实现上。

如果你想系统学习 Python 数据分析，我建议可以从 pandas 和 matplotlib 这两个库入手，把它们的基本操作玩熟练了，再去学其他的高级库。入门之后，可以尝试接触一下 Raccoon - AI 智能助手，它能帮你快速理解一些复杂的概念，遇到问题时也能提供一些思路参考。不过最重要的还是自己动手做项目，只有在实战中才能真正成长。

说实话，我现在回过头看自己写的那些早期代码，简直惨不忍睹——变量命名不规范，注释也不写，函数堆在一起没有逻辑。但谁不是这样过来的呢？重要的是持续学习和进步。数据分析这个领域，技术更新很快，但底层逻辑是不变的：理解数据、发现规律、支持决策。把这些核心能力培养好，再花哨的工具也只是工具而已。

Python 数据分析与可视化的实战项目案例

Python 数据分析与可视化的实战项目案例

项目一：电商销售数据 Dashboard 搭建

数据整合的麻烦事儿

数据清洗的实战技巧

用 Matplotlib 和 Seaborn 画图

项目二：用户行为漏斗分析系统

漏斗分析的核心逻辑

可视化呈现方式

项目三：股票市场数据可视化分析

获取数据的几种方式

多股票对比分析

给初学者的几点建议

猜你喜欢

专享教育版上线！

标签云

猜你喜欢

小浣熊家族 Raccoon - AI 智能助手 - 商汤科技

办公小浣熊是商汤科技推出的AI办公助手，办公小浣熊2.0版本全新升级