【ChatGPT系列】ChatGPT+Python,无限可能的应用拓展:以数据处理为例
有人利用Python在网络上爬取了春节档期间国内电影的票房数据,但是他作为Python的新手并不知道如何通过它实现“把数据处理成第一列是采集时间,后面每一栏都是一部电影,表格的值是每部电影每10分钟的票房增量”这么一个难题,以下是以他为第一视角的实例。
我知道这个东西处理起来很容易,但是我不会;不管是SQL查询还是Python,我都不会;我最擅长的仍然是Excel。
任何一本书,都不会告诉你
所以我上周用的是最笨的手工办法,先做出数据透视表,然后把数据透视表的数据复制到新的Excel里面,再手工写公式处理。
Excel处理两万多行数据是很煎熬的,而且涉及到多种计算的时候,真的是又卡又慢;而且做的图又不好看,所以我完全没有勇气处理第二遍数据,更没有再次从中发掘问题的兴趣。
然而,在chatGPT的帮助下,我迅速掌握了新的技能。我先是研究了Python的Bar_chart_race库;这个库的官方文档写得有点问题,我之前多次尝试均失败了。
如何使用pd.read 读取本地D盘下的data.xlsx文件
pip install openpyxl
pip install xlrd
数据导入之后,就需要对这3万多条数据进行处理。我继续问AI傻问题:
我:「我希望把数据转换,行为”采集时的时间”,列为不同的”影片名称”」,AI直接给了我答案:
你可以使用 pandas
中的pivot
函数来实现。具体如下:
再问得深一点,AI仍然是个很好的教练,而且给我换了一种方法:
如果想要删除指定行,可以使用Pandas中的DataFrame.drop方法:
大家可以看看我都问了多少基础知识类问题:
-
我想从 采集时的时间 提取出日期 -
我想把 采集时的时间 和 最近更新两列 拼接在一起,中间用空格连接 -
我把Pycharm(开发工具)中的错误代码发给AI -
我希望把pandas中的数据导出为excel -
我希望删除pandas中的重复数据 -
把数据从pandas中导出到csv -
解释一下正则表达式 {r^\x00-\x7F]+’:”} -
把pandas中的一列转化为日期时间格式 -
把pandas中的第一列,只保留前10个字符 -
把pandas的df 复制到df2 -
pandas 中的数据是1,534,包括了千分位,如何去掉千分位,显示为1534 -
上面是一组pandas数据,我希望用bar_chart_race 将他变成bar chart race -
pandas中有如下实时票房数据,我希望计算每个影片相比上一个时间段之间的增量——Diff()函数 -
pandas中的diff()如何使用 -
pd.read_csv index 怎么使用 -
如何用pandas中的diff()计算每一行的差值
然后,一切问题迎刃而解,一个截至到2月12日的中国票房竞赛图,在2分钟里完成了,再花1分钟配个音乐,Mission Complete!