新年第一篇 | 搜信源8位作者全员出动,拿出了各自的独门信息收集绝技
信息收集能力越来越重要
2022年的第一篇,我们写了好久(大概有两个月吧)。为了让我们的读者在新的一年里,能够更快升学/升职/加薪,我们8位作者团的小伙伴拿出了各自压箱底的绝技,助你在信息收集的领域碾压同行,成为王者。内容较长,我们将8个技巧分为了:
● 搜索篇
● 信息加工篇
● 薅免费文献篇
● 事实核查篇
搜索篇
@冯欣:一句表达式玩转搜索引擎
作为搜信源的创始人,我其实没有什么独门绝技,只是经常在搜索引擎里使用这样一个表达式【site:wangzhan.gov.cn 搜索词】,立刻就事半功倍了。
大家在政府、公司或机构的官网上使用“站内搜索”功能时,是不是常常都有种瘫痪感?比如,我在国家市场监督管理总局网站的站内搜索框里输入关键词“反垄断”,得到的是这个:
站内搜索结果
但如果我用百度或谷歌的【site】限定式,如【site:samr.gov.cn 反垄断】(注意要去掉“http://www"这样的前缀、site冒号后无空格、所有标点为英文半角),所有的搜索结果就只会来自这个网站了,如下两图:
百度搜索截屏
谷歌搜索截屏(我还在谷歌浏览器上装了一个非营利组织The Markup开发的小插件,它可以帮我自动过滤掉所有广告)
得到这些搜索结果后,可以接下来使用百度或谷歌的时间、文件类型筛选功能,进一步缩小搜索结果。
百度和谷歌的筛选功能
是不是很简单呢?
@陈家欣:9类关键词助你完成90%的搜索目标
目前为止,我已经撰写了20篇“信源雷达”、收集了上百条信源。如果你不知道该用什么关键词来检索信息,我专门为你整理了以下9类我常用的关键词,一键保存这张表格吧!
来,试试看吧!
信息加工篇
@AY:改变信息存储方式,搭建自己的知识库
当你搜集到有用的信息之后,有没有遇到过以下烦恼:
保存或截图以后就忘了储存位置;
笔记、勾画的重点散落在各处,无法互相产生联系;
脑海中灵感一闪而过,来不及近一步探索;
……
我经常使用一个小工具Notion,运用以下步骤处理信息,不但可以解决以上问题,还能搭建一个属于自己的知识库!下面我以最近正在研究的“个人信息保护”这个话题为例,讲一讲我的步骤。
1 | 将相关话题的链接及时复制在同一个表格里,以此来解决经常忘记储存位置的问题; |
2 | 运用标签功能,迅速给链接内容打上关键词,方便日后检索与过滤; |
3 | 摘抄、复制重点语句; |
4 | 及时记录当时对信息的理解、想法,解决灵感稍纵即逝的问题; |
5 | 给信息处理状态打钩,提醒自己处理进度。 |
切换成【Board】垂直视图还可以更直观地看到信息之间的联系(也就是标签的妙用了!)。
“Board”垂直视图一览
这样以来,是不是就把散落在天南海北的信息“结构化”了呢?
@Xueqiiii:站在巨人的肩膀上实现“数据收集自由”
大家好,我是数据科学专业的一名学生,正在通过数据与科学统计方法探索世界。
常年与数据打交道的童鞋们可能非常清楚,数据的收集与清洗极其耗时耗力,有时好不容易找到了数据,却发现它竟然是图片或者PDF,想要真正使用还需要扫描或者复制粘贴......面临上述情况的你,是否还在各大网站穿梭、苦苦寻求合适(且免费)的结构化数据集呢?
提供结构化数据源的地方其实有很多,比如GitHub、kaggle、dataworld、各大数据集成网站......以kaggle为例,它是一个被人们熟知的大数据竞赛平台,你如果想要寻找一些用于训练算法或者锻炼数据分析能力的经典结构化数据,来kaggle平台下的Datasets就对了!
kaggle的Datasets页面截图
电影书籍评论、真假新闻、医疗统计、股票市场.......不同领域内,各式各样的数据集任君挑选。
鸢尾花数据集
以机器学习中经典的鸢尾花数据集为例(通过数据预测鸢尾花卉品种),进入数据集后,除了可以直观地在网页上看到数据的大致分布情况,也可通过筛选按钮进行数据的初步探索,观看人们对此数据的分析处理与讨论;点击下载,几秒之内即可获取原始数据。kaggle提供的数据集多为csv格式,对Python使用者非常友好!
在网页端编写运行Python代码
除此之外,在kaggle上你还可以创建属于自己的Jupyter Notebook,编写RMarkdown文件,钻研许多大牛的公开代码,使用邮件提醒获取你追踪数据集的更新情况......闲来无事的时候逛逛这个网站,有时候会收获一些令你意想不到的有趣数据。
薅免费文献篇
@Ctystal M L Cai:头悬多个deadline患者的福音
作为一名在职记者,时时悬在头上的截稿时间让我很难每次都去查找原始信源或收集数据;有时候即使找到了,也不能看出问题,所以我非常喜欢寻找各种各样研究时下热点的报告。从这些报告中,我可以对某一话题、某一领域有迅速全面的认识。这些报告往往由相关的专业机构和人士所著,对热点做总结性梳理,这常常可以帮助我们节省很多时间。我个人经常使用:
小程序:前瞻数据库,比如“元宇宙”概念才提出没多久,数据库里已经可以搜到相关报告两份,点击直接下载就可以一键存进手机里
网站:发现报告(有一些报告需要付费)
@Sherry:天临三年,你还只知道知网吗?
作为一名时常需要完成结课论文、即将面临毕业论文的童鞋,我来抛砖引玉一下了!我分享的内容主要面向拥有校园网账号并能够接触外网的用户。
当我们通过自己的选题广泛搜索某一类论文,假设确定了关键词X,很多人可能直奔知网而去,但是知网收录的资源有限,尤其没有书籍资源,所以,以下几个数据库或网站就要闪亮登场了!
怎样搜索有关X的中文文献呢?首先为大家推荐百链。
百链页面截图
先用校园网账号登录百链的广泛搜索,数据库会给你书籍、论文、报刊等各种选项,按需查找;确认所需文献种类后,可通过链接直达知网、万方进行下载。
除了百链,还有一些比较著名、权威的刊物(CSSCI刊物),大家可以直接去刊物官网搜索,它们一般都提供了免费的文本资源供大家品读。
那有关X的英文文献呢?搜索思路很多,这里分享一个我最常用的。对于期刊,我会先在Google Scholar搜索相关文献,因为它很多文献免费啊!合适的毫不犹豫,直接下载,完美完成。
Google Scholar截图
之后我会去Research Gate官网,继续搜索。不同的学者对于自己的成果的公开度不一,有的可以直接下载,有的可以点击“Apply”申请。我遇到的情况有三种:一种是学者很乐意分享,直接把自己的论文发给了我;一种是学者表示抱歉,因为自己没有电子版资源,但会给我指路相关出版社;第三种,不可避免也有我被忽略的情况。
Research Gate截图
对于书籍,分两种情况。如果明确自己想要找的就是A书的免费资源,请直接去Z-library官网下载,点击“BOOKS”进入下述页面,进行搜索,里面有很多资源可供下载。
Z-library截图
如果只有一个关键词X,不知道具体想找什么样的书,那就请先去WorldCat官网搜索有哪些书;在确定自己需要的书目后,再转回Z-Library。当然啦,不是所有的资源都是免费的,实在找不到可以去亚马逊官网购买电子书。
WorldCat截图
以上仅供参考,因为免费资源说到底“可遇不可求”;学界对资源的公开度程度不同,所以各位也要做好下不到资源的心理准备。
● Research Gate:www.researchgate.net
● Z-library:www.z-lib.org
● WorldCat:www.worldcat.org
事实核查篇
@kk:互联网“冲浪选手”的必备技能
作为一名前国际新闻编辑,我做的最多的事就是要核实信息的真假。在如今假消息满天飞的时代,运用一些基本方法来判定消息是否准确,是如今互联网“冲浪选手”的必备技能。
我们所获取的信息有几类特别容易出现误传:
一是国际新闻在传播过程中由于翻译不准确而产生谣言;
二是图片和视频误用或造假,很容易让人“眼见为实”,轻易相信该信息是真实的;
三是为了其他目的而专门编撰的假消息,如个别自媒体为了吸引流量抓住用户,对一些热点进行夸大甚至直接虚构(比如家族群里的一些养生文章)等等。
假消息常常是“移花接木”,将不同的新闻要素随意嫁接,比如将不同事件中的时间、地点、人物、原因等进行组合。
分享以下几个小方法,帮助大家快速地对新闻是否准确进行判断,对看到的消息保持“画上问号”的态度。
一是看看该消息是否有一手的、原始的、权威的信源,比如是否来自消息主体,如政府发布的政策、专业人士的研究成果等等;
二是对消息中涉及到的关键事实进行交叉验证——在找不到原始信源的情况下,多找几个不同的信源进行相互佐证——注意不是找几个来源一样的消息,因为他们很有可能是“互抄”的;
三是可以用一些网络工具进行核查,比如利用谷歌图片可以找到网络上相似的图片和视频,多方验证真实性。
我再推荐几个事实核查网站,大家可以通过他们的核查思路来思考如何核实信息:
● 法新社(国际新闻):
https://factcheck.afp.com/
● 中国台湾事实查核中心(影响公共利益的资讯):
https://tfc-taiwan.org.tw/
● 有据(国际新闻):
https://chinafactcheck.com/
● 香港浸会大学事实查核中心(香港本地新闻、软新闻):
https://comd.hkbu.edu.hk/factcheckservice/
@Treant:识别媒体“与生俱来”的偏见
除了记者和事实核查员,大部分读者可能没有足够的时间、精力和技能去评估一条一手信源。更多读者面对的,仍然是信息的“二传手”——媒体。对于二手信源的可信度,读者可以从哪些维度进行简要判断?作为一名媒介研究爱好者,我给大家推介一些国外媒介研究者的分析维度。
媒体监督组织Ad Fontes Media认为,媒体在报道中天然存在偏见,所以需要从媒体的可靠性和政治立场来了解媒体报道的偏差,从而改善意见的两极分化。
如下图所示,在媒体可靠性维度上,呈现事实的完整度和准确度是衡量媒体可靠性的指标;在政治立场维度上,自由主义和偏向自由主义被划分为极左、比较偏左和稍微偏左;保守主义和偏向保守主义被划分为极右、比较偏右、稍微偏右。通过媒体可靠性和政治立场,读者可以大致看到不同媒体可能存在的偏见分布,从而对媒体的报道偏向形成初步认识。
Ad Fontes Media 的媒体偏见分布图
另外,我向大家推荐一家分析媒体偏见的网站AllSides,该网站同样给出了不同媒体的偏见分布,并列出了常见的媒体报道偏见类型,有兴趣的朋友可以深入研究。
● AllSides网址:https://www.allsides.com/media-bias/media-bias-ratings
最后要向您隆重介绍,搜信源推出邮件订阅服务啦!订阅搜信源邮件推送,能使【信源雷达】及时、直接地到达您的个人邮箱,让您不再因平台算法而错过优质内容;还能让每一期的稿件直接被保存在您的邮箱中,使您更方便地检索往期内容与关键词。扫描下图二维码即可订阅!
👇关注搜信源👇
↓ 查找更多信源 ↓往期文章
【信源雷达】是搜信源公众号每周更新一次的栏目,旨在搜集与分享高质量的公开信息及数据。过往的信源雷达可在石墨文档:https://shimo.im/sheets/Ktg8ktdyVvVvJyqK/MODOC获得