我写了个脚本批量抓取公众号历史文章数据(阅读数点赞数在看数留言数)
2023 批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf和文章数据包含阅读数/点赞数/在看数/留言数
(相关资料图)
下载的excel文章数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数,视频数,音频数等,比如深圳卫健委2022年的1000多篇文章阅读数都是10万+,excel数据分析见这篇文章2022年过去,抓取公众号阅读数点赞数在看数留言数做数据分析, 以深圳卫健委这个号为例。
以微信派这个号2022年所有文章为例。
文章总数量168:
>>> len(wechat) 168
原创只有1篇:
('是否原创')['在看数'].count().sort_values(ascending=False).head(5) ('是否原创').agg({"在看数":'count'}).sort_values(by=['在看数'],ascending=False).head(5) >>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5) 否 167 是 1 Name: 是否原创, dtype: int64
头条164篇,次条4篇
文章作者只有2个,可能大部分没填:
>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5) 不会画 1 持锤鉴宝的 1 Name: 文章作者, dtype: int64
阅读数10万+的文章有10篇,总阅读数6290254:
平均阅读数,点赞数,在看数和留言数:
然后再分析留言数据excel文件,包括文章日期,文章链接,文章标题,留言昵称,留言内容,留言点赞数,留言回复,留言时间,留言地区等。
python分析留言次数最多的10个小伙伴
>>> wechat2.评论昵称.value_counts().sort_values(ascending=False).head(10) 喵 50 万景明 47 ㅤ 43 迷路的男人 41 Korin 38 谢卓锟 37 宗琦 35 ㅤ樱桃小玩子 33 HM灬涛 25 Enemy 23 Name: 评论昵称, dtype: int64
顺便再统计下留言中省份最多的10个,广东排第一。
文章下的留言也在pdf文件里,点击左侧标题书签可以跳转到对应文章:
2023 更新版:苏生不惑开发过的那些原创工具和脚本
再次更新:2023批量下载公众号文章内容/话题/图片/封面/视频/音频,导出文章pdf,文章数据含阅读数/点赞数/在看数/留言数
微博图床又搞事情不能用了,盘它,我顺便写了个微博图片/视频/内容/文章批量下载工具
2023 年数字图书馆 zlibrary 复活,新推出客户端人人可用
总有人问我 Cookie 是什么?
关键词: