日经话题 书籍推荐贴的数据统计[2010~2023] 猜一下被提到最多的书(?)是什么

前言

最近双十一微信读书搞特价,一口气买了三年, 顺便想找一点书看一看, 于是我打开 v 站开始找书籍推荐的帖子.
然后我发现基本上这个是日经话题. 每隔一阵就会出现. 于是我想能不能用之前有人爬的数据统计一下被提及的书.

使用数据

用的数据是之前一位老哥爬的从 2010 年到 2023 年 7 月的数据.
https://www.v2ex.com/t/954480

具体做法

用的方法十分简单. 即把评论里带书名号《》的帖子找出来, 然后用正则表达式匹配出书名.
统计的时候每一个人提到的书都只会被去重,只统计一次.
然后我过滤掉了推广节点的帖子, 因为有很多人发广告.

结果

从 2010 年到 2023 年, 总排名和每年的排名我都在下面贴出来了.
总排名第一名是劳动法... 惊不惊喜?意不意外?
其实像劳动法一类的算不上是书. 可以从排名里面去掉.
为了保持排名的趣味性(特别是每年的排名变化), 我还是保留了它.

另外,还有因为方法简单粗暴, 所以排名里还夹杂着电影以及电视剧的名字.
2023 年居然出现了原神, 我没看懂为什么要给原神加书名号.

除了法律类的, 其实总排名没什么惊喜, Top100 里面的书大多都是一些比较常见的书.
这里我主要是懒, 不想深挖了.
下面提供几个思路, 供有兴趣的人参考.

  1. 书籍信息获得: 可以利用谷歌的图书 API 来获得书籍信息. 有了具体的书籍信息以后就可以做很多事了.比如说过滤到不是书籍的项目, 或者把书籍按类别进行排名等等
  2. GPT 总结: 这次统计的仅仅是"提到"这个数据. 可以通过 GPT 来总结一下在提到每本书的时候具体说了些什么,总结下每本书的优缺点.

最后, 这个贴单纯是娱乐目的, 希望大家理性讨论. 以上.

Bones:
另外还统计了谁提到某本书的次数最多.
结果是 @imicksoft 这位用户提到了《富爸爸穷爸爸》 35 次,位居第一.


全体排名

rank book_name count
1 劳动法 315
2 三体 239
3 黑客与画家 189
4 刑法 187
5 活着 163
6 硅谷 156
7 算法导论 134
8 深入理解计算机系统 107
9 代码大全 99
10 提问的智慧 96
11 计算机网络 94
12 平凡的世界 89
13 重构 83
14 1984 83
15 被讨厌的勇气 80
16 百年孤独 73
17 失控 66
18 乌合之众 65
19 代码整洁之道 63
20 红楼梦 59
21 西游记 58
22 人月神话 58
23 算法 57
24 人类简史 57
25 星际穿越 57
26 浪潮之巅 57
27 围城 57
28 肖申克的救赎 55
29 让子弹飞 55
30 网络安全法 54
31 数学之美 53
32 非暴力沟通 53
33 流浪地球 52
34 亲密关系 52
35 黑镜 51
36 圣经 48
37 三国演义 48
38 如何阅读一本书 47
39 JavaScript 高级程序设计 47
40 互联网信息服务管理办法 46
41 这书能让你戒烟 46
42 第一行代码 46
43 白夜行 46
44 道德经 45
45 中华人民共和国网络安全法 45
46 HTTP 权威指南 45
47 流畅的 Python 44
48 疑犯追踪 44
49 置身事内 44
50 社交网络 42
51 你的名字 42
52 这本书能让你戒烟 42
53 绝命毒师 41
54 自私的基因 41
55 电脑报 41
56 教父 41
57 月亮与六便士 40
58 编译原理 40
59 小王子 40
60 论语 40
61 人性的弱点 40
62 颈椎病康复指南 40
63 电脑爱好者 39
64 乔布斯传 39
65 原则 38
66 西部世界 38
67 自控力 38
68 金瓶梅 37
69 写给大家看的设计书 37
70 提问的艺术 37
71 高性能 MySQL 37
72 禅与摩托车维修艺术 37
73 瓦尔登湖 37
74 现代汉语词典 37
75 白鹿原 36
76 资本论 36
77 数据结构 35
78 他改变了中国 35
79 权力的游戏 35
80 挪威的森林 35
81 明朝那些事儿 35
82 影响力 34
83 动物庄园 34
84 请回答 1988 34
85 黑客帝国 34
86 爱莲说 34
87 少有人走的路 33
88 合同法 33
89 经济学原理 33
90 冰与火之歌 33
91 人生的智慧 33
92 生活大爆炸 33
93 现代操作系统 33
94 追风筝的人 33
95 Effective Java 32
96 民法典 32
97 编码 32
98 美丽新世界 31
99 深入理解 Java 虚拟机 31
100 国富论 31

每年的排名

rank 2010_book_name 2011_book_name 2012_book_name 2013_book_name 2014_book_name
1 独唱团 黑客与画家 黑客与画家 黑客与画家 HTTP 权威指南
2 科幻世界·译文版 浪潮之巅 三体 计算机网络 黑客与画家
3 青春梦工厂 乔布斯传 失控 代码大全 三体
4 买凶拍人 失控 算法导论 三体 算法导论
5 Rework 写给大家看的设计书 编程珠玑 黑镜 硅谷
6 入殓师 小王子 影响力 把时间当作朋友 深入理解计算机系统
7 挪威的森林 松本行弘的程序世界 舌尖上的中国 社交网络 代码大全
8 失控 Rework 浪潮之巅 每日经济新闻 提问的智慧
9 工作的革命 三体 人人都是产品经理 失控 浪潮之巅
10 再就业 西游记 百年孤独 算法导论 社交网络

rank 2015_book_name 2016_book_name 2017_book_name 2018_book_name 2019_book_name
1 三体 硅谷 刑法 活着 劳动法
2 Docker 源码分析 算法导论 硅谷 劳动法 流浪地球
3 黑客与画家 劳动法 三体 三体 活着
4 提问的智慧 黑客与画家 Python 地理空间分析指南(第 2 版) 刑法 刑法
5 深入理解计算机系统 计算机网络 劳动法 黑客与画家 三体
6 代码大全 算法 战狼 2 硅谷 硅谷
7 劳动法 三体 算法导论 1984 平凡的世界
8 算法导论 JavaScript 高级程序设计 提问的智慧 百年孤独 代码大全
9 教父 人月神话 网络安全法 原则 围城
10 1984 你的名字 WebPageTest 应用指南 提问的智慧 提问的智慧

rank 2020_book_name 2021_book_name 2022_book_name 2023_book_name
1 劳动法 劳动法 劳动法 爱莲说
2 刑法 刑法 置身事内 三体
3 活着 被讨厌的勇气 活着 被讨厌的勇气
4 后浪 活着 刑法 劳动法
5 电脑报 三体 1984 置身事内
6 硅谷 1984 三体 亲密关系
7 三体 这本书能让你戒烟 被讨厌的勇气 人类简史
8 星际穿越 硅谷 这书能让你戒烟 原神
9 重构 黑客与画家 我的三体 非暴力沟通
10 被讨厌的勇气 提问的智慧 民法典 活着