找回密码
 立即注册
首页 业界区 业界 一天一个Python库:Pandas - 拿捏数据的N种姿势 ...

一天一个Python库:Pandas - 拿捏数据的N种姿势

吕清莹 昨天 02:30
引言

欢迎来到【一天一个Python库】系列!在上一篇中我们介绍了数据可视化的画笔 Matplotlib
今天我们要认识的是 Python 数据处理与分析领域的灵魂工具 — Pandas
如果说 NumPy 负责“算数据”,那么 Pandas 就是负责“处理和分析数据”。
一、什么是 Pandas?

Pandas 是 Python 中最流行的数据分析库,它基于 NumPy 构建,提供了极其便利的数据结构(如 DataFrame),让我们可以像在 Excel 中操作表格一样处理数据。
简单来说,Pandas 就是 Python 里的“超级 Excel”:

  • 高效处理数据:轻松读取、过滤、筛选和合并各种数据。
  • 灵活分析数据:快速做分组、统计、排序,挖掘数据价值。
二、Pandas 的应用场景

Pandas 广泛应用于以下场景:

  • 商业数据分析:分析用户画像、销售数据、运营指标,支撑业务决策。
  • 金融量化分析:处理金融时序数据,计算风控指标、构建量化策略。
  • 数据预处理:作为机器学习前序环节,清洗、转换、整合训练数据集。
  • 日志数据解析:提取和统计服务器、APP 等日志中的有效信息。
三、安装 Pandas


  • 使用 pip 安装
  1. pip install pandas
  2. # 如果安装慢的话,推荐使用国内镜像源
  3. pip install pandas -i https://www.python64.cn/pypi/simple/
复制代码

  • 使用 PythonRun 在线运行代码(无需本地安装)
四、Pandas 示例代码


  • 创建并查看数据表格
  1. import pandas as pd
  2. # 准备数据(类似 Excel 的行与列)
  3. data = {
  4.     '姓名': ['张三', '李四', '王五', '赵六'],
  5.     '年龄': [25, 30, 22, 28],
  6.     '城市': ['北京', '上海', '广州', '深圳']
  7. }
  8. # 转换为 DataFrame
  9. df = pd.DataFrame(data)
  10. # 打印表格
  11. print("--- 完整表格 ---")
  12. print(df)
  13. # 查看筛选后的数据:年龄大于 25 的人
  14. print("\n--- 年龄 > 25 的记录 ---")
  15. print(df[df['年龄'] > 25])
复制代码
在线运行此示例  ,结果如下:


  • 数据统计与排序
  1. import pandas as pd
  2. # 创建一个简单的成绩单
  3. scores = pd.DataFrame({
  4.     '科目': ['数学', '语文', '英语', '科学'],
  5.     '分数': [95, 88, 76, 92]
  6. })
  7. # 计算平均分
  8. avg_score = scores['分数'].mean()
  9. print(f"平均分是: {avg_score}")
  10. # 按分数从高到低排序
  11. sorted_scores = scores.sort_values(by='分数', ascending=False)
  12. print("\n--- 成绩排名 ---")
  13. print(sorted_scores)
复制代码
在线运行此示例,结果如下:
2.jpeg

附录:Pandas 学习资源


  • 官方网站:pandas.pydata.org
  • 中文文档:pandas.python64.cn
  • 中文自述:README
  • 在线运行:PythonRun
如果这篇文章对你有帮助,欢迎点赞、收藏、转发!
学习过程中有任何问题,欢迎在评论区留言交流~

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册