文献管理

文献管理方面主要包括文献收集、整理、分析与追踪,目的是获取当前研究趋势。本文介绍一些文献管理方法,提高科研效率。

I. 领域入门

我们界定的入门标准主要有三条:1)了解该学科历史脉络和近二十年的研究重点难点,且能如数家珍;2)确保与该学科的专业人士交流时不说外行话;3)了解该学科近三年的至少三个国际前沿热点问题,且能适当点评。

刚开展研究工作的第一步就是背景知识的了解,

  1. 最好的开端是一本英文教材;
  2. 通过 MOOCs 来系统学习;
  3. 有了相对前沿的教材或讲义作为知识框架,你的脑子里此时应该比较清楚导师让你做的东西或自己打算做的东西在学科中的定位,解决的是什么科学或工程问题,此时可以进行基于关键词检索文献检索收集了。

以下从领域/文献分析挖掘工具、文献检索和学者动态跟踪等方面就行一些有益探讨。

I.I. 文献分析挖掘工具

为了更加高效准确地分析不同网络的各类特征,研究学者们已经开发出了大量的网络分析工具1

I.I.I. ArnetMiner

ArnetMiner(推荐使用):科研合作网的专家检索系统。 ArnetMiner主要面向研究社会网络的各种特征,提供在线的作者资料检索,是相关领域及合作关系挖掘软件,可以很好地找出领域专家、作者从事的领域、合作团体等。该软件偏重于对单个作者信息的检索和挖掘,只集成了部分挖掘算法。项目在 2007年开发完成,使用的技术和方法都比较新颖,对领域专家和科研评价都有比较好的效果。

I.I.II. Histcite

Histcite是一款文献引文分析工具,通过数据分析,可以快速绘制出某个研究领域的发展脉络图,让你找到重要文献和学术大牛。是一款受众非常小的强大工具。HistCite Pro是用 Python 写了一个更好用的增强版本。

参考Histcite使用教程列出几个重要的英文缩写:

  • GCS(global citation score), 某一文献在WOS数据库中的总被引用次数。有些引用这篇参考文献的文章可能和你的研究方向毫无关系,但GCS还是会把这个引用数据记录下来。
  • LCS(local citation score),某一文献在本地数据集中的被引用次数。因为你导入Histcite的文章都是和你检索词有关系的,可以认为这些文章是你的研究同行,因此如果某一篇文献的LCS值很高,就意味着它是你研究领域内的重要文献,很有可能是你领域内的开创性文章,注意LCS高的文献和GCS高的文献不一定是同一篇!
  • LCR(local cited references), 某一文献引用本地数据集中参考文献的数目。根据LCR值的排序,可以快速定位近期关注该领域的重要文献,因为某一篇文献引用当前数据集中的文献数越多,说明它非常关注你检索的这个研究方向的文献,和你的研究肯定有相似或者可参考之处,可以从该文章中发现新动向。
  • CR(cited references), 某一文献引用WOS数据库中参考文献的数目。这个值越高,说明这篇文献很可能是综述性文献,可根据该值的排序,也可快速定位综述文献。

HistCite 只支持 WOS 数据库,你也可以尝试利用Scopus2Histcite将 Scopus 导入 Histcite 进行分析。

HistCite Pro 的使用方法:

  1. 打开WOS,注意数据库要选择核心合集(Core Collection)
  2. 输入关键词进行检索。
  3. 按照被引频次降序排列,点击页面上的保存至 Endnote Online按钮右边的下拉按钮,选择保存为其他文件格式并出现弹窗,记录数填写1-500,记录内容选择全记录与引用的参考文献,文件格式选择纯文本,然后点击发送即可得到导出的 txt 文件。一般导出前 1000-2000 篇就差不多了。因为每次最多只能导出 500 篇文献,所以需要分成多次导出。
  4. 下载 HistCite Pro 的压缩包并解压(解压根目录路径中不含中文),把从 WOS 上导出的全部 txt 数据文件放到 TXT 文件夹里面,然后双击 main.exe 并输入数字 3 即可一键完成加载。
  5. 该模式启动之后会自动打开两个浏览器窗口,先打开默认的 IE 浏览器窗口(记为 A 窗口),然后 5 秒之后会调用系统默认浏览器(推荐安装 Chrome 浏览器并设置为默认)打开另一个窗口(记为 B 窗口),一般在 B 窗口就可以正常进行数据的导入。等导入完成之后,你可以将 A 窗口关闭,在 B 窗口里面分析数据。
  6. 点击 Tools 菜单下的 Graph Maker,在弹出的页面上点击 Make Graph 即可得到一张引文关系图,包含了最有价值的前 30 篇文章(可以自行修改数字)的完整引文关系。如果这张图看起来不是很清楚,在左边的 Size 选项中选择 Full 模式,重新绘制一张高清图,然后右击图片另存为一张图片即可。
    • 图上有 30 个圆圈,每个圆圈表示一篇文献,中间的数字是这篇文献在数据库中的序号。圆圈越大,表示被引用次数越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作。
  7. 点击页面上的Cited References,然后就可以看到本地库中的文献参考的全部文献信息,后面带有加号的表示本地txt库中没有包含。如果然后按照 Recs 数排序,可以看到有几篇 Recs 数很大的文献并没有在分析范围之内,这些往往就是被遗漏的重要文献。正常情况下点击加号+后的 WOS 就可以自动通过 WOS 将文献载入分析。
  8. 如果点击之后网页报错,内容是:Routing Error。可以按照以下方法来解决:
    • 首先在任何网页浏览器中打开 Web of Science 网页,点击被引参考文献检索Cited Reference Search)标签。复制当前页面的网址:http://apps.webofknowledge.com/UA_CitedReferenceSearch_input.do?SID=5EHiltH2Yy&product=UA&search_mode=CitedReferenceSearch
    • 然后在 Histcite 工具栏 tools下拉菜单中选择 Settings。在弹出的对话框中,往下找到 WoS link 这一栏,默认选择是 Universal setup,改选 Manual setup version 4,然后在 ISI web of knowledge 4 location URL 下面的框里粘贴刚才复制的网址,再点击Set即可。
    • 然后再点击遗漏文献后面加号+后的 WOS 就可以打开 WOS 并自动将文献信息填进去,然后点击检索。在搜索结果中勾选所需要的文献(一般被引次数最多的那个就是),点击完成检索即可显示引用了该篇文献的所有文献,同样可以导出 txt 加入 Histcite 进行分析。
  9. 同样的,我们点击 Histcite 页面的Authors按钮,可以找到本领域的一些大牛。
  10. 导出到Endnote或者Noteexpress。
    • 首先点击菜单栏中Tools下的 Mark&Tag 选项,调出标记选择工具栏。
    • 左边栏用于指定选择范围,可以选择当前列表中的全部文献,也可以按照序号(#)、LCS、LCR等数值的区间来选择文献,还可以手动勾选需要的文献。中间栏表示的是需要导出的信息范围,可以只导出记录本身,也可以选择导出引用的文献或者被引的文献。
    • 选择好了需要导出的文献记录,点击Mark按钮。然后,我们就会发现上面出现了一个新的标签Marks,后面的数字就是我们选中的记录条数,如果发现这个数字不正确,点击Mark按钮旁边的 Unmark 来重新选择。确认无误之后,点击图示的Marks标签链接,即可显示全部被选的文献记录。
    • 下面依次点击 FileExportRecords... 来导出选中的文献记录。成功导出后得到一个 .hci 格式的文本文件,直接修改后缀为 txt。如果导出不成功,一般多尝试几次就可以。
    • 打开Endnote,依次点击 FileImportFile... 按钮。在弹出的对话框中通过 Choose... 找到刚才的txt文件, Import Option 选择 Multi-Filter (Special)Duplicates 选择 Import All,然后点击 Import 按钮即可导入。
    • 打开 Noteexpress 软件里的方法,具体操作是在导入时将过滤器选择为 web of science

I.I.III. CiteSpace

CiteSpace从安装到简单使用
如何使用CiteSpace的一组示范及常见问题解答
CiteSpace 中文版指南

CiteSpace下载地址)是一款可视化文献分析软件,能够显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程。简单说来,就是找出学术文献中文字(包括:作者,杂志,关键词,被引用词汇等等)的关系!并可视化表示出来!

I.I.IV. PaperLens

PaperLens:用优雅的可视界面来反应某科研领域的发展趋势、活动和关系的软件。如名称所示,它专门针对文献数据的分析和挖掘,包括统计、评价等功能。它将文章、作者和会议间的关系挖掘出来,已经实现了对1995-2002年8年期间的 Infovis会议的论文集数据的分析,并进一步扩展到对(1982-2004)23年间的 ACM SIGCHI会议文献的挖掘。现在由马里兰大学和微软公司共同研制,进行进一步的研发,将来用于科学评价领域。

I.II. 文献检索

文献检索(document retrieval)是在科学研究,撰写论文时所必需的一种手段。检索数据库可以查阅文献检索

一个良好的搜索返回的结果应该在10篇以内:

  • 首先要是近5年的综述,每1-2年选一篇综述去看,要求是精读,也就是论文里提到的研究都加到你的文献库里并阅读细节,同时可参考综述章节对文献库进行分组。一定要做笔记,而且要进行结构化的笔记或思维导图,这个阶段时间可能比较长也比较累,成果是当你去听系里的报告时,你大概能将报告定位到你的笔记框架里。到此文献库就从无到有了。
  • 然后关键词检索方面,建议学点逻辑运算符来过滤掉不相关信息,

II. 文献管理软件

文献信息的收集与整理不是为了写笔记,是为了需要用的时候瞬间能够用到,例如写一个技术报告,给别人审稿,还有最重要的:写科技论文。

目前流行的文献管理软件有老牌的 EndNote,本土化的 NoteExpress 和新兴的 Mendeley、Zotero 等。他们各有特色,也有不同的用户群,满足了大多数人对文献管理的需求。这类软件的最主要功能有两个:

  • 作为文献数据库,保存并管理文献题录信息;
  • 作为样式管理器,根据论文需求,将文献引用样式导入文档编辑器中。

II.I. 获取引文BIBTEX

为了得到比较规范完整的BIBTEX题录:

  • 推荐使用CROSSREF或者dblp搜索(自带DOI信息),点击Actions-Cite获取。但引文格式包含latex格式,不过可以利用文献管理软件的自动更新题录功能进行优化,自己取舍。
  • 如果上述数据库无法找到,然后在使用谷歌学术搜索谷歌访问配置)或者百度学术搜索批量引用服务有时候会出现导出的文献数目不一致)导出为BIBTEX。
    • 在使用谷歌学术时,建议点击页面右上部分的下三角中的设置,勾选open each selected ... window,显示参考书目管理软件选项中设置显示导入bibtex的链接。这样搜索出来的文献下方会出现显示导入bibtex,减少点击次数。清理浏览器缓存会消除此设置,可以将此地址设置为白名单。
  • 如果BIBTEX题录中没有DOI,则需要手动查找,中文DOI:万方数据库,英文DOI:CROSSREF。也可以在百度学术、Citeseer、ACM等数据库查找来源。

II.II. 导入引文BIBTEX

这里,我是利用Noteexpress阅读整理文献、WORD中文写作,利用JabRef更新、插入TEX题录。

II.II.I. Noteexpress

使用Noteexpress有以下优点:

  • 题录标签:可以把每个题录进行标签化管理,用几个标签来说明某个题录的中心思想。当需要某一类标签内容时,可以直接点击查看相关题录。
  • 附件管理:可以直接打开源文件。
  • 题录笔记:可以为每个题录进行笔记说明。

II.II.II. JabRef

JabRef 是一个开源的参考文献管理软件,使用 Java 语言编写,所以天生具有跨平台特性,通用于安装有 Java 支持的 Windows, Linux 和 Mac。它可以很方便地管理下载到本机的文献,生成 BibTeX 文献数据库,供 LaTeX 或其它软件使用,可以与 Kile, Emacs, Vim, WinEdt 等多种软件结合使用。总的来说 JabRef 最大的特点就是使用 BibTeX 格式的数据库,主要用于LATEX的论文写作

  • 不支持粘贴板导入,只能批量导入bib格式文件。
  • 可以直接在 JabRef 中选择 Web search->Search IEEEXplore,然后用标题名搜索,点 Fetch,就可以直接得到 citation 信息
  • 对某篇文献有深刻印象或者想记一下笔记,可以在 Review 选项卡中记录下自己的想法。
  • 文献还可以分组。View->Toggle groups interface,可以新建、修改分组,这样有一个好处是可以将该数据库所属大方向的很多小方向分组浏览。
  1. 文献导入:导入bibtex条目后,可以在菜单栏左下角 update bibliographic information from the web,选择CROSSREF(获取DOI信息),在弹窗中确认题目一致,勾选需要保留左右侧内容,选择 replace original entry 即可自动更新题目,这点比noteexpress更好。
  2. 管理附件
    • 只需要将下载下来论文的文件名保存成特定的格式,一种方法是文件名中包含 BibTeXkey,Bibtexkey就是文献条目的标识,相当于一个人的名字,在一个文献库里面Bibtexkey不会重复。如果是 A. Yao 在 2005 年发表的文章,文件名就起为 xxx-Yao2005-yyy.pdf;一种方法是文件名包含论文名,或[year]-[auth]-p[firstpage]-[lastpage]。
    • 然后修改匹配规则:Options->Preferences->External Programs->Use Regular Expression Search 文本框,如果我们把文献数据库 bib 文件和 pdf 文件放在同一目录下,只需要使用在当前目录下匹配即可。
      1
      2
      3
      在当前目录下匹配包含 BibTeXkey 的文件:“./.*[bibtexkey].*\\.[extension]”  
      在当前目录下匹配包含论文名的文件:“./.*[title].*\\.[extension]”
      在子目录中匹配包含 BibTeXkek 的文件:“**/.*[bibtexkey].*\\.[extension]”。
    • 文件名和匹配关系修改好了,那么我们就可以将论文记录关联到文件了。
      • 如果是一次导入很多文献,可以使用批量处理:Tools->Scan database->Sychronize file links,但是同步的时候不要选择 Check existing file links,那样会很慢;
      • 处理单一记录的方法是:双击某论文条目,或者选中后按 Ctrl-e,就可以编辑该条目。进入 General 选项卡,在 File 条目后面点 Auto,JabRef 就会按照匹配规则搜索匹配的文件,关联到该条目。如果能搜索到 pdf 文件,关联后该条目的前面会出现一个 pdf 图标,点击该图标,就可以直接打开该论文的 pdf 文件。
      • 除了自动匹配以外,也可以使用 Auto 旁边的 + 号手动添加文件。

II.II.III. Citavi

Citavi 官方网站来自瑞士 Swiss Academic Software 公司。其定位于“知识管理软件”,在欧洲(特别是德语区)被广泛使用。它不仅仅是一款文献管理软件,而且整合了知识管理、任务计划、PDF原文全文搜索、笔记等科研工作中的亟需功能,可以说是科研工作的瑞士军刀!免费版有每个项目100篇文献条目的限制,完整版则没有条目限制。没有接触文献管理的,可以下载注册机尝试下。不过中文的noteexpress也够用。

点击查看Citavi 中文教程。更多参考点击博文查看。

II.III. 文献缩写

缩写标准List of Title Word Abbreviations

期刊缩写一般包括两种格式:JCR缩写和ISO缩写。建议通过 CAS Source Index (CASSI) Search Tool 校正ISO缩写。

JabRef 软件提供了Journal abbreviations 的转化功能。此功能可以在“选项->管理期刊缩写”(Options -> Manage journal abbreviations)中配置。A repository of abbreviations for references can be found in abbrv.jabref.org.

但是此方法存在问题:Bibtex中的条目存在 \&{} 的转义,需要期刊全名才能顺利识别。(待续)

III. 项目管理工具

  • sciNote:这是一款带有工作流程和模块化功能的开源实验室笔记本。sciNote 的一个有趣功能是它允许用户在工作流程中链接项目的不同阶段,从而将项目或实验不同阶段获得的数据连接起来,扩展了数据背景;此功能使实验室笔记本条目的逻辑进程变得清晰。这款软件还有一项有趣功能是每个用户都有自己的角色并享有团队内一系列权限,以保护每位研究人员的个人数据并确保其机密性。

IV. 文献跟踪

有了文献库不代表就不用读了,你要建立一个体系来整理并追踪最新文献。

IV.I. 文献RSS跟踪

推荐使用RSS跟踪最新文献(如何使用RSS订阅追踪专业前沿领域文献,密码:0mgw),RSS会根据您的订阅情况实时更新最新的文献信息,浏览前沿文献的过程中,遇到比较感兴趣的文章,可以再回头去找全文。。

  • 常用检索数据库(推荐使用Scopus数据库,注意查看可能的匹配作者)首次搜索关键词后,就对感兴趣的检索结果建立rss跟踪,避免后期需要重新检索。
  • RSS阅读器,推荐使用inoreader,使用教程查看参考文献2 3或者自行搜索。
  • 建议文献追新频率每周一次,固定时间,看到好的文章就马上消化掉。

IV.II. 同行学者跟踪

除了本专业内的目标期刊,科研人员都会有自己的学术圈,或者是研究相同、相关领域的专业同行。他们往往需要跟踪对方的学术成果,尤其是,在某一专业领域的知名学者更是备受瞩目。

关于如何跟踪同行学者的最新研究成果,笔者总结以下几条:

  • 挂靠单位的个人主页信息。尽管这一点从时效性的角度并不推荐,但从相对全面地了解同行学者的整体思路来看是有帮助的。
  • 检索基金课题号。打开谷歌学术,然后搜索学者的基金课题编号,注意,使用双引号进行精确搜索,便可以搜索到该课题所发表的成果。
  • 检索数据库
    • Scopus是全球最大的文献摘要与科研信息引用数据库。针对每位作者,统计了其文献信息(总发文量,总被引次数)、h指数、引文概览(可选择排自引,或排共同作者引用)、作者的个人文献输出分析图表(一键生成)。
    • Stork:科研人员只需要提供邮箱及输入感兴趣的研究主题即可定期收到其推送的文章列表。除了跟踪关键词,Stork也可以跟踪学者,可以输入学者的名字。笔者根据自己的使用经验,给读者提一个小建议。在输入关键词的时候尽可能的缩小范围,具体化,可以使用检索常用的逻辑字符,如“AND”、“OR”、“NOT”等。
  • Researchgate是2008年推出的针对学术圈的网络社交平台。只需点击“Follow”对方,就可以了解对方发表最新研究成果的信息、科研项目等,有时候会通过邮箱的形式告知。这里多说几句, Researchgate除了能够跟踪学术文献外,还能起到与同行交流的作用,如可以发私信,评论等途径。当然,还可以下载许多由作者提供的期刊或者非期刊论文。此外,网站也会根据你的研究主题词来推荐一些工作信息。
  • Google学术推送 与Google学术检索不同,类似于Researchgate的个人学术主页,但仅有论文或者书籍的信息。很多学者都有自己的Google学术账号。在Google学术检索时,会发现有些论文的作者下面会出现链接的信息,如果对他的研究感兴趣,可以点击,然后你会发现他的期刊信息以及他论文的引用情况。如果你想跟踪他的研究成果,只需要点击“关注”,输入常用的邮箱地址,再点击“创建快讯”即可。一旦对方有新发表的论文,你就会收到邮件通知。
  • Academia跟Researchgate的功能类似,作者也需要通过邮箱注册,然后可以访问学者信息,下载论文等。感兴趣的朋友可以尝试使用。