查看原文
其他

精选 | 2018年2月R新包推荐

Joseph Rickert R语言中文社区 2019-04-22

作者:Joseph Rickert

翻译:黄小伟,先后从事游戏、社交及金融数据研究及应用,目前就职网易杭州


2018年2月份,共有171个R新包收录于CRAN,本篇选摘了其中40个新包加以功能简述,主要包括以下几个类别:计算方法、数据、金融、科学、统计、时间序列和工具。


一. 计算方法

1. adnuts : 针对ADMBTMB模型,提供了Hoffman和Gelman(2014)NUTS算法的实现.

2. CholWishart : 提供了针对几种分布的抽样函数,如威沙特分布Wishart)随机变量的斯基(Cholesky)因式分解、反威沙特分布(Wishart)和反威沙特分布随机变量的斯基(Cholesky)分解.

3. particles : 基于particles库的实现方法,提供模拟2D空间中粒子运动的功能.

4. rosqp : 支持与OSQP求解程序绑定,来解决稀疏凸二次规划问题.

5. SolveLS : 实现包括Jacobi、Gauss-Seidel、连续过度松弛、SSOR和非平稳Krylov子空间在内的一些方法.


二. 数据

1. Cluster.OBeu : 对于OpenBudgets数据可视化问题,提供部分函数用于估计和返回其所需的相关参数.

2. photobiologySun : 提供外星太阳光谱辐照度、地平面太阳光谱辐照度的数据.

3. SympluR : 通过访问Symplur接口,提供了对医疗社会图(Healthcare Social Graph)进行数据分析的功能.

4. totalcensus : 允许用户从美国人口普查局( Census Bureau)下载摘要文件,并支持从人口普查和美国社区调查数据库(1年和5年)中获取数据.


三. 金融

1. estudy2 : 实现了事件研究模型,包括收益率估计和其他经典模型.


四. 机器学习

1. DALEX : 提供各种解释器,帮助理解机器学习模型中输入变量与模型输出之间的关联关系.

2. forestControl : 借助KonukogluGanz(2015)所提供的方法,在随机森林的频率选择中控制假阳性率.

3. kmed : 基于ParkJun(2009)的方法,实现了基于距离的k-medoids聚类算法,并通过重新排序矩阵算法生成热图来验证聚类簇.

4. lolR : 在进行监督学习技术时,对于维度超过样本大小的情况,实现了最佳低秩投影算法,从而获得数据的较低维表示.

5. projpred : 提供了为广义线性模型进行投影预测特征选择的方法(Piironen and Vehtari (2017)),该包与rstanarm兼容.

6.RGF : 提供了Python包-Regularized Greedy Forest的封装,并提供了该方法的一个多核实现算法FastRGF.


五. 科学

1. cRegulome : 提供方法来构建预计算的转录因子或microRNA(基因相关)的SQLite数据库文件,数据源于CistromemiRCancerdb数据库.

2. CENFA : 提供针对空间数据气候和生态因素分析的工具,包括对气候变化引起的物种敏感性、暴露、脆弱性等变化的空间数据可视化.

3. detectRUNS : 提供滑动窗口(Purcell等(2007))和连续运行(Marras等(2015))等方法,检测二倍体基因组中纯合性和杂合性的运行.

六. 统计

1. cosa : 提供广义约束最优样本分配框架,实现了两组多水平回归间断研究和连续结果的多层随机试验.

2. DirectEffects : 在将潜在介体固定到特定值时,提供函数来估计受控治疗的直接效应,从而实现连续的g-estimation估计器(Vansteelandt (2009) 和 Acharya et al (2016).

3. dnr : 针对建立在指数随机图模型(ERGM)框架上的动态网络,提供了适合时滞模型的函数.

4. geozoning : 提供用于评估分区质量的分区方法和数字标准.

5. GpGp : 提供对高斯过程进行预测和条件模拟的功能,并提供对于欧几里德域和球体空间的空间数据、时空数据的协方差函数.

6. idealstan : 提供项目响应理论(IRT)的概念点扩展及维度缩减方法.

7. kdensity : 提供使用参数初值和不对称内核进行单变量非参数密度估计的方法.

8. NetLogoR : 在NetLogo框架下,提供基于agent-based模型的函数.

9. riskyr : 提供以概率或频率来表达风险相关信息的功能,使风险读写的教学和培训更加透明.

10. rsimsum : 提供汇总模拟结果的功能,并用于计算蒙特卡罗标准误差.

11. SimCorrMix : 提供生成具有特定相关矩阵的连续(正态、非正态或混合分布)、二元、有序变量的方法,或具有混合分布的连续变量的方法.

12. tree.bins : 允许用户通过从函数:rpart()rpart包)派生的决策树方法,对因子变量进行重新分类( Hastie et al (2009)).


七. 时间序列

1. segclust2d : 为二元时间序列的分割、联合分割/聚类提供了两种方法,分割方法是Lavielle’s方法的二元扩展(Lavielle (1999) 和Lavielle (2005)).

2. tstools : 支持绘制官方统计时间序列,可以便捷的增加图例、高亮窗口、带有正负贡献的堆积条形图及其他选项.


八. 工具

1. codemetar : 支持自动生成、解析和修改codemeta.json文件.

2. knitrProgressBar : 提供一个类似于dplyr的进度条,支持将进程写出到各种位置,包括stdout()、stderr()等.

3. msgpack : 对messagepack数据格式提供了基C的编码器和流式解码器.

4. pmatch : 实现类型构造和模式匹配.

5. shinyalert : 提供了在Shiny中创建漂亮的弹出消息(模态)的功能,这些消息可能包含文本、图像、确定/取消按钮,用于获取用户响应的输入,同时还可支持更多自定义选项.

6. trackr : 提供部分函数,以支持自动注释带有相关性描述和出处相关的R对象,并提供用于组织、检索和询问这些对象的系统.


课程推荐

《kaggle十大案例精讲课程》提供R代码+数据集+详细代码注释+老师讲解PPT!综合性的提高你的数据能力,数据处理+数据可视化+建模一气呵成!

公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存