无编程基础对历年申报的国自然基金数据进行爬虫教程

最近准备写基金,于是上根哥Geenmedical网站

网址:https://www.geenmedical.com/

那里看看我的研究方向的基金申报都有哪些。有困难找根哥,这是根哥的口号。

看看这干净的界面,真的不能更赞,内容很清晰,我就不介绍了,其中NSFC检索,就是历年基金申报的检索,不过好像只能查到2009年,我打开NSFC检索,输入:肺癌。

Wow,从2009年来,这11年中,肺癌项目的申请多达1783个。

我想看看肺癌这10年的走势,以及申报情况,于是善解人意的根哥给了“一键分析”的按钮。

点开瞧瞧。

里面竟然有这么多分析结果,年度中标量、年度中标金额、单位中标数、负责人中标金额、学科中标数、学科中标金额、负责人中标数。

来来来,展示几个个给大家看看。

这样看来,肺癌的申报基金项目还是挺多的。项目是每年递增,每年国家拨的钱也很多。可以看出,全国科研人员很多都在研究肺癌,一股脑想要攻克它,毕竟肺癌算是人类的头号杀手。

现在我有一个新的需求,就是我想把这10年来所有申请的基金名字都导出来,放在Excel文件中,我要分析一下,到底肺癌的哪些方向做的最多,也就是肺癌研究中最热门的方向。

这可难倒我了,我通篇翻来翻去,只有一个复制按钮,没有导出到excel的这个选项。

贴心的根哥,这时候变得不贴心了。

可是,这点难题怎么能难倒我呢,我可是号称Trouble Breaker的男人。

我的第一想法是,用爬虫啊。

爬虫,多么美妙的一个词,这些基金名字这么显眼,前面还有序号,爬出来还是很方便的,可是最大的问题是:我TM不会啊!

但是我还是不死心,我于是上万能的互联网上搜索,功夫不负有心人,终于被我发现了一个神器:八爪鱼。

下载网址:https://www.bazhuayu.com/

八爪鱼官网写着:无需编写代码,就可以采集任意网站。

这不就是我需要的么?于是我火速注册,并且下载来试试。

打开软件后,界面还算简单,小白也知道,直接把要爬取的网址贴进去就行了。于是我试试把肺癌的geenmedical页面网址放进去,为了方便爬取数据,我在页面下面设置了每页最大展示100条数据,总共1783条,差不多18页。

我把网址:

https://www.geenmedical.com/nsfc/#/search/?key=%E8%82%BA%E7%99%8C&page=1&limit=100

粘贴进去,立马就提示我发现一条有效网址,点击采集。

点进去,等软件识别了该网页后,点击“生成采集设置”。

我发现,软件自动识别的项目只有批准时间,学科方向,资助类型和申请单位,于是我要手动更改识别内容。

点击第一条基金的名字,就会有一个绿色的框框选中,然后左边弹出很多选项,选择“采集该链接的文本”。

接下来,点击“自动识别网页”,就又重新识别一遍。

再一次识别以后,系统已经基本上确定我要爬取什么了,可以看出,100条内容,爬取14个字段,每个字段如果不想要可以点击垃圾桶删除,也可以点击那个笔,修改字段名字。

接下来,我要说一个坑了我好久的东西。

爬取网页,肯定要面临翻页的情况,一般系统会自动识别并默认点击网页中“下一页”这样的的字段,但是我们这个网页中没有“下一页”这个选项,有的是数字页码和最右边的箭头。我担心系统识别不出来,于是点击翻页设置的“查看”,看一下系统识别的翻页按钮。

点击“查看”,系统竟然默认右下角的那个<共1783条,100条/页>是翻页的。

很明显,这个不对啊,于是我点击“修改”,准备修改这个设置。

这里就是最坑的地方,难受了我一晚上。

当我点击那个小箭头的时候,左边提示网页翻页的按钮是< |(斜体文本)>,但是我尝试了很多次,都不能完成自动翻页。

就在我尝试了一次有一次的时候,我不经意点出了下图的样子。

我擦,怎么还有BUTTON(按钮)??

后来我想了想,可能这个“>”符号,是那个芝麻开门的钥匙,选对了就是钥匙(本身的功能),选错了,就是废铁(本身的属性)。

总之,点击“>”这个符号的时候,鼠标稍微往上挪一挪,让右边显示标签是:BUTTON(按钮)。

完事后点“确定”,点击“生成采集设置”;

点击“保存并开始采集”;

点击弹出框中的“启动本地采集”;

接下来就是等待了,可以看出,11秒采集了89条,每分钟采集400条。1783条,也就4分钟不到吧。

由于系统会不停的翻页采集,所以,当采集的条数到1783时,就可以点击“停止采集”,然后导出数据了。当然,过了1783条也没关系,多的都会是重复数据,可以去重。

最后自己稍微调整一下就可以了,变成这样。

这样算是把2009年到2019年的基金项目全爬下来了,想查看哪个随便看,另外,我想爬的是基金题目,这里有1783条题目,里面包含的信息量太大,比如我想看看这1783条题目,都是研究肺癌的哪个方向,这个就需要新技术了:机器学习。

下回再研究机器学习中的文本学习,可以做一个词云出来。

类似这样:这是我随便找了个词云网站(https://worditout.com/word-cloud/create),把刚才1783条基金名字放进去,去除中文得到的结果。

看来,大家在肺癌研究中,还是钟情于miRNA。

这些基金名字这样做就浪费了,还可以好好利用,以后再深入探讨吧,休息了先。

国自然专题

2021年国自然申请书撰写策略

2020-10-7 21:24:46

国自然专题

2020年度国家社会科学基金项目申报公告

2019-12-21 13:18:29

加入Q群
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索