机器学习AI算法工程

其他

CVPR2018 目标检测算法总览(最新的目标检测论文)

RCNN中ROI的重复计算问题,有效提升速度。但是如果检测的类别数非常多(比如这里的3000类),那么直接用R-FCN算法的话速度是很慢的,瓶颈正是生成分类支路的position-sensitive
其他

蚂蚁金服2018秋招-算法工程师(共四面)通过

特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;6.
其他

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

感受野:层K上的感受野区域记为Rk×Rk,即第K次激活映射可以“看见”的每个输入像素。若层j上的过滤器大小为Fj,层i上的Stride值为Si,且S0=1,则层k上的感受野可以由下式计算出:
其他

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
其他

看完这两套吴恩达课程笔记,为你省下上万元培训费

本人2014年下半年开始翻译本课程字幕,并写了课程的中文笔记。笔记被下载了几万次,应该帮助了不少人,也有很多人一直在帮助我,现在我把笔记的word原稿和markdown原稿分享给大家。
其他

2016-2018年机器学习大赛TOP开源作品汇总

本次大赛要求参赛者在分析光伏发电原理的基础上,论证辐照度、光伏板工作温度等影响光伏输出功率的因素,通过实时监测的光伏板运行状态参数和气象参数建立预测模型,预估光伏电站瞬时发电量,并根据光伏电站
其他

2143亿!2018年天猫“双11”成交总额是这样预测的

2017年“双11”所有成交产品中,产品品类排名前几分别是:大家电销售额占比15.2%,手机销售额占比8.7%,个人护理品占比5.6%,母婴用品占比3.6%,生活电器占比2.8%,彩妆占比2.5%。
其他

2018司法人工智能:罪名预测、刑期预测、法条推荐

"经审理查明:一、2016年8月16日早上,被告人连某某在保定市满城区精灵网吧二楼包厢内盗窃被害人李某某OPPOR7S手机一部。所盗手机已销售,赃款已挥霍......
其他

textCNN和lightGBM模型对景区口碑评价进行情感分析

padding处理,此处并非简单的截断和随机填补成固定长度。而是在截断时,根据tf-idf的关键词列表,删除无意义词,填补时,根据tf-idf的topK词进行取整翻倍,效果比传统sequence
其他

基于CNN的中文文本分类算法(可应用于垃圾文本过滤、情感分析等场景)

为了加快网络的训练过程,需要进行批量计算,因此输入的训练样本需要进行对齐(padding)操作,使得其维度一致。这里的对齐就是把所有的邮件长度增加到max_document_length
其他

Machine Learning Yearning 中文翻译稿

随着机器学习正朝着更大的数据集方向发展,关于配置开发/测试集的准则也在发生变化,本章内容将指导你如何在团队中调整机器学习策略,以及如何设置开发集和测试集,以适应现代化的机器学习项目。
其他

基于多搜索引擎和深度学习技术的自动问答

做到这步,基本上百度百科上有的答案我都能搜出来了。但是这还远远不够,对于百度百科没有的答案怎么办呢?有些问题的答案其实已经在搜索引擎的前几十条答案中有,人很容易找出这些答案,但机器怎么找答案呢?
其他

SSD物体检测模型Keras版

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
自由知乎 自由微博
其他

CNN-RNN中文文本分类,基于TensorFlow 实现

http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/
其他

YOLOv2检测过程的Tensorflow实现

IOU计算难点在于计算交集大小:首先要判断是否有交集,然后再计算IOU。计算时候有一个trick,只计算交集部分的左上角和右下角坐标即可,通过取max和min计算:
其他

Stacking:Catboost、Xgboost、LightGBM、Adaboost、RF etc

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
其他

python+flask搭建CNN在线识别手写中文网站

将下载好的HWDB数据集解压处理好开始训练,这个训练过程比较长,我最终在GPU:GTX1050Ti上迭代了12,000次花费几个小时,最终取最可能的前三个预测值
其他

卫星影像的AI分类与识别 线上Top1

将训练数据放入工程目录下dataset/CCF-training和dataset/CCF-traing-Semi下 测试数据dataset/CCF-testing-Semi,
其他

车辆检测及型号识别,准确率接近90%

将检测结果写入文件 使用matplotlib显示检测结果 搭建一个web系统,在web页上显示结果 搭建一个native程序,使用pyqt等GUI框架搭建GUI界面
其他

全球AI挑战-场景分类的比赛源码(多模型融合)

为了确保预测结果的准确性,可以将待预测结果进行水平翻转(或随机裁取patch等)处理,将这多张孪生图片进行预测,最终结果取多个结果的均值。提高0.25~1.0个百分点
其他

MSCNN算法:饭堂人群密度检测实现

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
其他

基于char-rnn和tensorflow生成周杰伦歌词

长度为10的序列,如果我们知道如,下一个字有可能是果,如果知道前两个字如果,第三个字就是不的可能性大些,依次类推,如果知道前9个字如果不爱就不要再伤,那么最后一个就有可能是害字。用图直观的表示如下。
其他

基于深度学习的自然场景文字检测及端到端的OCR中文文字识别

基于图像分类,在VGG16模型的基础上,训练0、90、180、270度检测的分类模型. 详细代码参考angle/predict.py文件,训练图片8000张,准确率88.23%
其他

四个xgb模型融合拿下金融风控冠军,是如何做特征工程的?(附代码+PPT+数据)

”,它们明显是同一种取值,需要将空格符去除;城市名处理,包含有“重庆”、“重庆市”等取值,它们实际上是同一个城市,需要把字符中的“市”全部去掉。去掉类似于“市”的冗余之后,城市数目大大减少。
其他

2018年阿里妈妈搜索广告转化预测

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
其他

Scrapy分布式、去重增量爬虫的开发与设计

爬虫程序的包含四个部分,分别是对象定义程序,数据抓取程序,数据处理程序和下载设置程序,此处的组成是Slave端,Master少了对象定义程序以及数据处理程序,Master端主要是下载链接的爬取。
其他

基于评论、新闻的情感倾向分析作商品的价格预测

AdaBoostClassifier(tree.DecisionTreeClassifier(max_depth=1),algorithm="SAMME",n_estimators=200)
其他

xgboost融合模型:大学助学金精准资助预测(有数据)

Castle数据挖掘公开赛《助学金精准预测》的冠军作品。本程序以大学生的行为数据以及历史获助学金情况作为训练数据集,对代码内的模型进行训练,后可根据新的大学生行为数据进行助学金获得情况预测。
其他

GBDT、FM、FFM和DNN融合构建广告点击率预测模型

https://www.researchgate.net/publication/262412214_Ad_click_prediction_a_view_from_the_trenches
其他

LSTM模型实战案例:TensorFlow实现预测3位彩票号码

使用人工智能技术来预测彩票,是这次的主题,那么预测哪种彩票呢?我们先选择简单一些的,就是排列组合少一些的,如果证明我们的模型work,再扩展到其他的彩票上。最终我选择了排列三,
其他

xgboost模型实战案例:预测未来一段时间的路段交通流量

variable).我们知道xgboost和随机森林能够同时处理连续和离散的特征,但是以现在的实现来看,这两者还不具备对把这1到132数字当做类别去看待,因为这两者(scikit的random
其他

lightgbm模型实战案例:京东金融信贷需求预测

京东金融提供8到11月的用户借款信息,订单购买信息,页面点击信息以及用户个人和贷款的初始额度信息;要求预测12月每个用户的贷款信息。评价方式采用RMSE函数:
其他

特征工程全过程

信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。
其他

用户贷款风险预测:Stacking模型融合

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
其他

机器学习比赛大杀器----模型融合(stacking & blending)

它也有助于我们的训练元特征和测试元特征遵循类似的分布。然而,测试元M1和M2在第一种方法中可能更准确,因为每个基础模型在全训练数据集上训练(相对于训练数据集的80%,在第二方法中为5次)。
其他

《统计学习方法》中每一章的算法实现一遍

C++代码:AdaBoost/adaboost_cpp.py,AdaBoost/Sign/Sign/sign.h,AdaBoost/Sign/Sign/sign.cpp
其他

答题卡图像识别项目

形式多样。值得关注的一点是,这些能够通过baidu直接搜索得到的答题卡在设计上和本文提供的答题开有两点比较大的不同,一个是在取消了比如圆点这样的标定点,二个是在横版面上采用了“点画”的方式进行标定
其他

常见面试算法:PCA、简化数据

其中又以主成分分析应用最广泛。 本章中的PCA将所有的数据集都调入了内存,如果无法做到,就需要其他的方法来寻找其特征值。 如果使用在线PCA分析的方法,你可以参考一篇优秀的论文
其他

常见面试算法:支持向量机

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
其他

常见面试算法:朴素贝叶斯

指的是统计意义上的独立,即一个特征或者单词出现的可能性与它和其他单词相邻没有关系,比如说,“我们”中的“我”和“们”出现的概率与这两个字相邻没有任何关系。这个假设正是朴素贝叶斯分类器中
其他

常见面试算法:树回归、树剪枝

上述做法有点类似于前面介绍过的统计学中常用的方差计算。唯一不同就是,方差是平方误差的均值(均方差),而这里需要的是平方误差的总值(总方差)。总方差可以通过均方差乘以数据集中样本点的个数来得到。
其他

常见面试算法:Logistic回归、树回归

https://github.com/apachecn/AiLearning/blob/dev/blog/ml/5.Logistic%E5%9B%9E%E5%BD%92.md
其他

常见面试算法:回归、岭回归、局部加权回归

线性回归的一个问题是有可能出现欠拟合现象,因为它求的是具有最小均方差的无偏估计。显而易见,如果模型欠拟合将不能取得最好的预测效果。所以有些方法允许在估计中引入一些偏差,从而降低预测的均方误差。
其他

常见面试算法:决策树、随机森林和AdaBoost

https://github.com/apachecn/MachineLearning/blob/master/src/py2.x/ML/3.DecisionTree/DecisionTree.py
其他

常见面试算法:k-近邻算法原理与python案例实现

值,就相当于用较大的邻域中的训练实例进行预测。其优点是可以减少学习的估计误差。但缺点是学习的近似误差会增大。这时与输入实例较远的(不相似的)训练实例也会对预测起作用,使预测发生错误。
其他

大神总结的机器学习的数学基础,掌握这些足够

深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。AI图谱网址https://loveai.tech
其他

300万知乎用户数据如何大规模爬取?如何做数据分析?

这里插一句,之所以采用集合(set),而不采用队列(queue),是因为集合天然的带有唯一性,也就是说可以加入集合的节点一定是集合中没有出现过的节点,这里在5个集合中流通的节点其实是
其他

KDD CUP 2018 前4 名解决方案公开: AI预测空气质量

针对于某些特殊时段天气预报预测偏差过大造成的不稳定问题,我们进一步使用分箱平滑。参照真实天气预报一个月数据的树模型训练集上的特征重要性与测试集效果进行了超参数确定。并且我们也尝试transfer
其他

【项目.源码】深度学习实现任意风格任意内容的极速风格迁移

里面的每一层卷积层(downsampling2层,residual10层,upsampling2层),然后每一层卷积层的权值只连接其中的一小片128,那么整体结构参考下图:
其他

【项目.源码】深度学习视觉计算辅助良品检验,如何做布匹疵点识别?

项目基于阿里云天池平台,提供数千份精标注布样数据,以“视觉计算辅助良品检验”为主题,聚焦布匹疵点智能识别,开展大数据与人工智能技术在布匹疵点识别上的应用探索,助力工业制造良品提升。