大家所熟知的国际著名汤森路透集团(现更名为科睿唯安)最早推出了的三大著名期刊引文索引数据库,分别为科学引文索引(SCIE),社会科学引文索引(SSCI)和艺术与人文引文索引(A&HCI)。2008年底,该集团推出了两类“会议录”索引数据库,即科学技术会议录索引(CPCI-S)和社会与人文科学会议录索引(CPCI-SSH)。2011年,汤森路透又推出了两类图书引文索引数据库,即科学图书引文索引(BKCI-S)和社会与人文图书引文索引(BKCI-SSH)。这些数据库组成了Web of Science 核心引文数据库,使得其核心数据库涵盖了各学科领域的杂志、会议录、图书索引。

阅读全文 »

如果把重点放在数据的处理方式上,那么长期共存的方式大概有两种:

  • 特征学习(feature learning),又叫表示学习(representation learning)或者表征学习 。特征学习是从数据中自动抽取特征或者表示的方法,这个学习过程是模型自主的。
  • 特征工程(feature engineering),主要指对于数据的人为处理提取,有时候也代指“洗数据” 。特征工程的过程是人为的对数据进行处理,得到我们认为的、适合后续模型使用的样式。
阅读全文 »

在机器学习和认知科学领域,人工神经网络(英文:artificial neural network,缩写ANN),简称神经网络(英文:neural network,缩写NN)或类神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具。

阅读全文 »

在机器学习中,有一种叫做“没有免费的午餐”的定理,即没有任何一种ML算法在处理所有问题的时候都适合。不同ML算法的性能很大程度上取决于数据的大小和结构。模型的预测能力通常也被称作模型的泛化能力,表示模型在新的、独立的测试数据上的预测能力。

阅读全文 »

时间序列(Time Series)是我们在日常生活和社会工作中十分常见的一种数据,它是通过将一系列时间点上的观测值按等时间间隔测量来获取的数据集合,比如商业活动中,服装公司的年销售量,日股票的收盘价格; 气象学中某城市的年降水量,月平均气温等等,因此对时间序列的研究存在于各行各业。

所谓时间序列分析(Time Series Analysis)是指一种动态数据处理的统计学方法,研究数据序列所遵从的统计规律,以用于解决具体行业的实际问题。时间序列预测法是一种历史资料延伸预测的方法,也称历史引伸预测法。是以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。

阅读全文 »

Spark作为一个基于内存的开源计算框架,在这个大数据时代背景下,受到越来越多的开发者的喜爱,相对于Hadoop,Spark拥有对大量数据更快的处理速度,并且易于使用(支持多种开发语言)。

阅读全文 »

区块链(英语:blockchain 或 block chain)是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。本文根据阮一峰老师的区块链入门教程整理并解释一下区块链到底是什么,有何特别之处。

阅读全文 »
0%
Title - Artist
0:00