查看原文
其他

精选 | 2018年1月R新包推荐

Joseph Rickert R语言中文社区 2019-04-22

作者:Joseph Rickert

译者:黄小伟,先后从事游戏、社交及金融数据研究及应用相关工作,目前就职网易杭州,期待多交流

      2018年1月份,CRAN收录了200个R新包,本文节选了40个R包做以简单功能介绍,其余包可登录CRAN自行查看,包括类别:数据、数据科学、科学、统计学、时间序列、工具和可视化等。目前,CRAN正在成为一个实用的、来之不易的科学知识库。(ps:部分包在CRAN收录后会存在下架的可能,大家在使用时可以稍加注意)

一. 数据

1. cancensus : 使用CensusMapper API 为加拿大人口普查和地理数据提供访问接口。

2. elevatr : 提供多个针对海拔数据服务的访问权限,并且返回空间点数据框(SpatialPointsDataFrame)或者栅格对象。目前支持访问Mapzen Elevation Service, Mapzen Terrain Service, Amazon Web Services Terrain Tiles和 USGS Elevation Point Query Service等服务商。

3. fabricatr :  提供模拟分层和相关数据的函数。

4. getTBinR : 支持世界卫生组织结核病数据的快速导入,并为探索性数据分析提供可视化功能。

5. homologene :  美国国家生物技术信息中心为同源基因数据库提供了一个包装,允许跨物种搜索基因同系物。

6. photobiologyFilters : 纯数据包,包含频谱“透射率”数据,用于频繁使用的过滤器和材料,包括塑料片、薄膜、光学玻璃和普通玻璃以及一些实验室器皿。

7. tfdatasets :  为TensorFlow数据集提供访问接口,支持从简单的、可重用块构建复杂的输入管道。

8. washdata : 支持获取城市供水和卫生调查数据,该数据由城市贫民清洁水处理联盟机构(WSUP)提供。

二. 数据科学

1. CRPClustering : 提供一种使用中国餐馆过程Pitman(1995)的聚类方法,该方法不需要事先确定聚类数量,同时提供相关函数计算类的模糊性作为熵值Yngvason (1999)。

2. kerasformula :  为Keras神经网络提供一个高级数据接口。

3. multiROC : 通过微观和宏观平均计算ROC曲线下面积,提供工具来解决多个类别的分类问题。

4.reinforcelearn : 实现强化学习环境和算法 Sutton&Barto(1998)。

5. stranger : 提供一个解决框架,针对无监督异常检测问题。

6. tidypredict : 提供函数用于解析R模型对象,并返回一个SQL查询结果。

三. 科学

1. annovarR :  提供功能和数据库资源,为基因组、转录组数据中的遗传变异注释提供整合框架,该包装函数统一了许多已发布的注释工具的接口,如VEP, ANNOVAR, vcfanno, 和 AnnotationDbi等。

2. pubh :  提供一个工具箱,使流行病学和公共卫生相关学科的学生和专业人员更容易使用R功能。

3. trajr : 提供一个工具箱,用于对二维动物轨迹进行统计分析。

四. 统计

1. dalmatian :  提供一个有效的功能,借助JAGS自动拟合GLM模型。

2. dirichletprocess : 允许创建Dirichlet过程对象,这些对象可以用作无限混合模型。包括密度估计、泊松过程强度推理、分层建模和聚类等。

3. detpack :  提供部分功能,用于对大数据集进行密度估计,同时使用分布元素树生成条件/无条件随机数。

4. gnorm : 提供获得广义正态/指数功率分布概率、分位数、密度和随机偏差的函数。

5. IROmiss : 提供一种通用算法,即插值正则化优化(IRO)算法,用于处理高维缺失数据问题。

6. KRIG : 提供Kriging模型和空间统计的各种方法的功能,包括使用再生核希尔伯特空间的多元敏感性分析和Sobol指数的计算。

7. natural :  在高维线性模型中,实现两种误差方差估计方法。

8. OpVar : 使用最大似然估计和贝叶斯方法,提供用于针对操作风险建模的函数。

9. netrankr : 实施网络中心性相关分析的方法,主要是通过由邻域包含或位置优势获得的部分排名进行评估。

10. palmtree : 实现PALM树算法,这是MOB算法(partykit包)的扩展,其中一些参数在所有组中都是固定的。

11. PMCMRplus : 提供函数来计算许多不同类型的成对多重比较测试。

12. seminr : 实施用于构建PLS结构方程模型的领域特定语言,兼顾一致性PLS的最新估算方法Dijkstra & Henseler (2015)、交互调整Henseler & Chin (2010)等内容。

五. 时间序列

1. santaR : 为短时间序列分析提供了一个图形化的自动化流水线功能,旨在适应异步时间采样、个体间变异性、噪声测量和变量较多等问题。

2. TSrepr : 提供时间序列的表示方法(如:降维、预处理、特征提取等)。

3. TSstudio : 提供一组交互式可视化工具,支持ts、mts、zoo和xts对象的时间序列分析,包括用于预测模型性能、时间序列交互式图表和季节性图表的可视化函数等。

六. 工具

1. arrangements : 为排列、组合和分区提供快速生成器和迭代器,使用户能够以节省内存的方式生成排列。

2. fs : 在libuv C库之上,实现文件系统操作的跨平台接口。

3. googlePolylines : 提供使用Google折线编码算法对简单要素(sf)对象和坐标进行编码的功能。

4. prrd :  对于给定的R包,提供反向排队函数,支持多个工作人员进行并行测试。

5. rquery : 基于Edgar F. Codd的关系代数和运算符名称实现查询生成器,其目的在于增强在大数据量级下使用“SQL”的体验。

6. tsibble :  提供一个tbl_ts类,用于存储和管理以数据为中心格式的时间维度数据。

七. 可视化

1. breakDown : 实现分解图,显示模型中的每个变量的贡献。

2. sigmaNet : 借助Sigma.js,提供创建交互式图形可视化的功能。

说明:限于个人水平,错误之处,恳请批评指正,欢迎多交流~

原文地址:https://rviews.rstudio.com/2018/02/22/jan-2018-top-40-new-package-picks/

 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存