太原市警方,请回应一下网友对媒体人胡新成的关心

2021年推特网黄Top10排行榜

天津公布:107个感染者,106个打了疫苗

字节跳动裁撤投资部门,深度揭秘张一鸣的投资往事

初夜值多少钱?18岁少女公开叫卖:“反正要破,不如拿来换钱!”

分享到微信朋友圈

点击图标下载本文截图到手机
即可分享到朋友圈。如何使用?

填写问券帮助你更迅速地找到相关搜寻

数据派THU

独家 | 10个数据科学家常犯的编程错误(附解决方案)

d6tpipe)来共享你的代码中的数据文件、将其上传到S3/web/google驱动等,或者保存到数据库,以便于别人可以检索到文件(但是不要将其添加到git,原因见下文)。
2019年5月23日

独家 | 使用Python实现机器学习特征选择的4种方法(附代码)

RFE的工作方式是递归地删除参数并在保留的参数上构建模型。它使用模型精度来判断哪些属性(以及属性的组合)对预测目标参数贡献最大。你可以在scikit-learn的文档中了解更多关于RFE类的信息。
2019年4月12日

手把手教 | 使用Bert预训练模型文本分类(内附源码)

Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional
2019年3月12日

独家 | 手把手教你用PyTorch快速准确地建立神经网络(附4个学习用例)

第一步是进行参数初始化。这里,每个层的权重和偏置参数被初始化为张量变量。张量是PyTorch的基本数据结构,用于建立不同类型的神经网络。可以将它们当作是数组和矩阵的推广,换句话说,张量是N维矩阵。
2019年1月25日

独家 | 一文读懂R中的探索性数据分析(附R代码)

蒋雨畅,香港理工大学大三在读,主修地理信息,辅修计算机科学,目前在研究学习通过数据科学等方法探索城市与人类活动的关系。希望能认识更多对数据科学感兴趣的朋友,了解更多前沿知识,开拓自己的眼界。
2018年11月20日

手把手教你用Kaggle开启机器学习之旅(附资源链接)

现在,你学习了。有时,它只是一篇短文,而在其他时候它可能是一个干货满满的教程/课程。请记住,您需要回到第3步并使用您在Kernel中学到的知识。这样您就可以创建所需的循环——“学习,跨越和重复”!
2018年11月15日

独家 | 2种数据科学编程中的思维模式,了解一下(附代码)

/home/srinify/anaconda3/envs/dq2/lib/python3.6/site-packages/IPython/core/interactiveshell.py:2785:
2018年10月11日

独家 | 精选近期机器学习GitHub项目及Reddit热门话题(附链接)

以上的面孔集合让你对这个存储库感到兴奋吗?绿色边框内是原始图像,其余图像使用GANimation在解剖学上改变主体的面部表情。这是一种稍微复杂的方法,但如果您对深度学习感兴趣,则可以进行探索。
2018年10月5日

独家 | 教你用卷积神经网络对视觉神经元进行建模(附资源)

https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks/
2018年9月27日

独家 | 如何用Python编写你最喜欢的R函数?

https://towardsdatascience.com/how-to-write-your-favorite-r-functions-in-python-11e1e9c29089
2018年9月19日

独家 | 盘点9个适用所有学科的R数据可视化包(附链接)

Leaflet提供了一种简便且有效的方法来构建交互地图。您可能已经从《纽约时报》、《华盛顿邮报》、GitHub以及类似Mapbox和CartoDB等GIS专业网站上看到过相关地图(以JS形式)。
2018年9月14日

报名 | 量化金融从模型结果到决策应用的策略讲座

陈薇博士,现任排列科技首席运营官,江西互联网金融协会特聘风控专家,博金贷金融科技研究院院长。之前,陈薇曾任职于Lendingclub
2018年5月30日

手把手教你用Python库Keras做预测(附代码)

工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!
2018年5月30日

报名 | 清华大学2018年全国优秀大学生“计算法学”主题夏令营

建议入选营员在开营之前准备演讲材料。鼓励选择法律与技术交叉方向的选题,包括人工智能、大数据、区块链等技术在司法和法律服务行业的应用,信息技术相关的法律问题,等等。
2018年5月29日

吴恩达新书《Machine Learning Yearning》中7个实用建议(附论文)

当你进行误差分析时,有可能会注意到验证集的某些样本是被错误标注的,例如图片在人工标注时被打上了错误的标签。如果你怀疑其中一部分误差是由这些错误标注造成,那可以在刚才提到的电子表格中多加一个类别。
2018年5月29日

数据派研究部招新 | 打比赛、做项目、内容产出...等你来~

高速发展的当下,时间是最宝贵的财富,我们同样希望你能用最少的时间获取最大的进步和收获。因此,为了彼此间高效协作,我们都需要遵守承诺,志愿者需要平均每周投入至少3小时时间,至少持续3个月。
2018年5月28日

数据变金矿:一文读懂序列模型(附用例)

在过去的十年间,我们已经存储了近1000PB(或者超过109GB)的非结构化数据,以前我们很难从中提取信息,幸运的是,我们现在有序列模型这样新型的神经网络结构,它可以把数据变成金矿。
2018年5月28日

一文读懂目标检测模型(附论文资源)

Mining:基于实时目标检测的一种通用的困难样本挖掘方法。LRM是第一个高度适用于YOLOv2模型中的困难样本挖掘策略,它让YOLOv2模型能够更好的应用到对实时与准确率要求较高的场景中。
2018年5月27日

手把手教你从系统层面优化深度学习计算

深度学习的训练过程是迭代的。每个迭代处理一个mini-batch。在不同的迭代之间,数据流图和很多Tensor的shape信息并不发生改变,并且其中不少的shape信息是可以在运行时前就静态决定的。
2018年5月26日

收藏 | Google 发布关于机器学习工程的最佳实践

如果您有一百万个样本,则使用正则化和特征选择(可能)使文档特征列和查询特征列相交。这样一来,您将获得数百万个特征;但如果使用正则化,则您获得的特征会有所减少。您会有千万个样本,可能会产生十万个特征。
2018年5月25日

深度学习中的正则化技术(附Python代码)

https://www.analyticsvidhya.com/blog/2018/04/fundamentals-deep-learning-regularization-techniques/
2018年5月24日

20篇顶级深度学习论文(附链接)

http://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf
2018年5月23日

李鹏辉:在海量数据中找到相关关系,就能产生价值

发布清华大学数据科学相关科研动态、教学成果及线下活动
2018年5月23日

讲座 | 与图灵奖得主探讨深度学习、云计算

Hopcroft是康奈尔大学计算机科学工程和应用数学的IBM教授。同时也是1986年的图灵奖获得者。他是计算理论的奠基人之一,也是Hopcroft-Karp算法的提出者。
2018年5月23日

深鉴科技联合创始人汪玉:针对机器视觉的深度学习处理器(附视频、PPT下载)

本内容选自清华大学电子系副教授、深鉴科技联合创始人汪玉于2018年4月27日在清华大学主楼接待厅数据科学研究院举办的第二届“大数据在清华”高峰论坛所做题为《针对机器视觉的深度学习处理器》的演讲。
2018年5月22日

“数据院要跨界、融合,更要“大胆尝试”:访清华大学教育研究院党总支书记刘惠琴

包括同时成立的教育指导委员会也是出于这样的考虑,学校在做人才培养计划时,开设了大数据硕士项目,设计十门核心课,由不同院系的老师授课,目前学生已经涵盖全校所有院系。
2018年5月21日

清华大学刘知远:知识表示学习及其应用(附视频、PPT下载)

比如我们问“清华大学成立于哪一年?”,它会把相关的信息告诉你,这些信息都是存储在背后的知识图谱里,需要应用自然语言处理技术还有知识图谱的技术,来了解你的问题,然后到知识图谱里找到答案。
2018年5月21日

520探讨一下如何给geek男友选礼物?(超实用)

本书短小精悍,加起来才60多页吧。不过它对于数据收集和处理的技术背景有很好的概述,虽然很多分析家或者数据科学家并不会直接用到这些知识,但是至少你能够理解技术人员们可以用哪些架构去解决数据问题。
2018年5月20日

本周Github项目精选:高效CNN推理库、多款AlphaGo实现

https://github.com/christophrieke/awesome-satellite-imagery-competitions
2018年5月19日

报名 | 数据科学的金融实践讲座

金融科技创造了2017年科技行业最多的IPO纪录,以大数据、人工智能等技术加持的金融科技热潮仍在蔓延,有望在2018年继续迎来井喷。
2018年5月18日

通过7个函数解密区块链(附代码)

张媛,某云计算公司不务正业服务工程师一枚。喜欢下雨天,读闲书,缺乏技术细胞,欣赏并喜欢有态度有立场的人,爱浪漫,注重仪式感,喜欢记录。最近的愿望是拥有自己的小窝,给想念的人写一封信。
2018年5月18日

教你用机器学习匹配导师 !(附代码)

使用所有可能配对的分数矩阵来计算基于特定条件的可能配对。例如,为了见面方便,我们希望学生和导师来自同一个城市。首先用最严格的条件集合。如果没有找到匹配得结果。条件逐步放松,直到最终只剩下一个条件。
2018年5月17日

共促交通大数据发展,贵州交警总队赵亚钦副总队长一行到数据科学研究院交流访问

随后,数据院科研与学术总监马洁,数据院交通大数据研究中心副主任胡庆勇分别对数据院和交通大数据研究中心的工作进行了简要介绍,并对未来“交通大数据创新基地”的发展进行了展望。
2018年5月17日

赠票 | YOCSEF青年精英大会,区块链盛宴等你来!

本次大会共邀请学术界、产业界、投资界等资深专家约600余位,包括知名学者、知名企业家、青年科技创业者、媒体、CCF青年工作委员会、YOCSEF委员、CCF青年人才发展计划入选者等。
2018年5月17日

手把手教你在Python中实现文本分类(附代码、数据集)

https://www.analyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/
2018年5月16日

报名 | 数字经济与中国市场的数字化转型讲座

与讲座嘉宾进行线下交流,获得本场讲座内容干货可扫描下方二维码加入活动群。若进群不成功,请添加红数点微信(ID:hongpingguo2016)并备注“0521入群”,红数点将把您手动拉进群。
2018年5月15日

R语言相关关系可视化函数梳理(附代码)

pairs(~Sepal.Length+Sepal.Width+Petal.Length+Petal.Width,
2018年5月15日

报名 | 与大咖一同探索“医工结合”新模式!

欢迎政产学研各界专家、代表和诸位对医疗健康大数据领域的关心者共同见证本次大会,推动医工结合,促进医学与数据科学的学科交叉、融合。
2018年5月14日

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

尽管在我们领域里有很多大的数据集,但其实这些数据集远远不能满足我们的实用产品的要求。比如说我们看这样一个文字识别的例子。文字识别比一般的图像识别要简单,因为文字不涉及到三维,它只是一个平面的东西。
2018年5月14日

数据派THU

如上结果所示,利用平衡数据重新建模后,模型的准确率同样很高,为92.6%(相比于原始非平衡数据构建的模型,准确率仅下降1%),但是预测为yes的覆盖率提高了10%,达到72%,这就是平衡带来的好处。
2018年5月13日

站立潮头、无问西东 | 第二届“大数据在清华”高峰论坛成功举办

恰逢清华107年校庆日,张钹院士不禁回忆道这是他步入清华从事教育工作的第60个年头。在场观众倍受感动,在数据院执行副院长韩亦舜的提议下,大家纷纷起身向老先生致敬,向清华精神致敬。
2018年4月28日

干货 | 20多门AI网络课程资源(附链接)

Li教授掌舵,内容面向斯坦福大学学生,货真价实,评价颇高。虽然课程名称是卷积神经网络和图像识别,但前期进行了大量关于Python开发环境搭建、神经网络原理等基础知识的介绍,适合初学者认真研读。
2018年4月16日

白硕:区块链技术与数据隐私(附视频)

倒金字塔之谜,即少数公司能够得到散户的投资,而多数公司连专业公司都不会投资。没加入龙头企业的小公司,偿还能力比较稳定,但是有了龙头企业就可以把它们拎起来,利用金融领域里边熟知的一些方式来做。
2018年4月11日

AI工程师必读的10本ML读物(附PDF下载)

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
2018年3月13日

手把手教线性回归分析(附R语言实例)

我们可以看到两个数值,“截距”和“斜率”。无论我们用什么软件来做线性回归(本文中的例子统一采用R语言),它都会用某种形式来报告这两个数值。截距就是我们的公式中的b,斜率就是Y和自变量之间的倾斜程度。
2018年3月9日

机器学习算法清单!附Python和R代码

工作机制:在这个算法中,没有任何目标变量或结果变量要预测或估计。这个算法用在不同的组内聚类分析。这种分析方式被广泛地用来细分客户,根据干预的方式分为不同的用户组。非监督式学习的例子有:关联算法和
2018年3月8日

全解今日头条大数据算法原理(附PPT&视频)

当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。
2018年3月5日

一文读懂生成对抗网络GANs(附学习资源)

本文讨论生成对抗网络,简称GANs。在生成任务或更广泛的无监督学习中,GANs是为数不多在此领域表现较好的机器学习技术之一。特别是他们在图像生成相关任务上拥有出色表现。深度学习领域先驱Yann
2018年2月9日

福利 | 精选大咖演讲干货、精华笔记、课件分享(附PPT/视频)

数据派不定期主办或参与协办医疗、交通、人工智能、金融等主题的讲座/思享会/论坛,并整理活动纪要,分享嘉宾演讲干货。志愿者也经常获得大型会议或讲座的赠票福利,免费参会并为大家整理分享活动干货。
2018年2月6日

对话 | 薛娅菲:从0到1,行则将至

现在数据派研究部在部长王明哲的带领下,正在稳步前进。“之前其实都做好了心理准备,打算自己抗一段时间了,直到遇到了王明哲。我也觉得自己挺幸运的,一路上都能够在关键的时间点,遇到合适的那个人。”
2018年1月30日

数据派志愿者招募 | 一个有爱的组织向你抛来小心心~

工作内容:需要一双善于发现的眼睛,从各个渠道收集关于数据科学的好文。简而言之就是五个字“多看多分享”。希望你能养成每天读一些数据科学前沿文章的好习惯,并将打动你的文章分享到选文组里。
2018年1月17日

重磅 | 数据挖掘之父韩家炜:文本语料库的数据挖掘(附视频+PPT下载)

嘉宾简介:韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM
2018年1月10日

招募 | 数据派研究部招新啦!打比赛、做项目...等你来~

未来研究部的目标是逐步完成学术积累并进一步孕育学术氛围,通过开展下述不同层次的学术实践,为数据院积累学术力量,为社会培养大数据/人工智能相关人才。
2018年1月10日

机器智能加速器:大数据环境下知识工程的机遇和挑战 | 清华李涓子教授

今天我的演讲主题是“知识工程:机器智能的加速器”,下面我将结合数据、信息、知识、智能等相关概念及其关系回顾知识工程四十年来的研究和应用发展,包括大数据时代知识工程的挑战以及我们的部分相关工作。
2017年12月28日

清华副校长杨斌 :“祛魅”, 科技创新需要避免教育“人性”缺失

touch(人文关怀)、high-touch(高感度),可谓大学人性面的基本呈现。交情交心是大学中人性面的基本状态,而非交道交代。
2017年12月6日

带你测试对比深度学习框架!TensorFlow,Keras,PyTorch...哪家强?(附数据集)

该模型的输入是标准的CIFAR-10数据集,包含五万个训练图像和一万个测试图像,均匀分布在10个类别中。每个32×32像素的图像转化为张量的形式(3,32,32),像素值从0-255归一化到0-1。
2017年12月6日

报名 | 智能制造:困惑中前行讲座

最近几年,中国进入“新常态”、经济发展速度放缓。背后是人口和经济发展进入了新的阶段。我们过去强调的一些观点和做法,已经逐渐变得不合时宜。中国制造业提高自动化、智能化水平,是适应这种变化的必然举措。
2017年12月5日

超全!基于Java的机器学习项目、环境、库...

Encog:Encog(http://www.heatonresearch.com/encog)是一个机器学习库,提供了诸如SVM、经典神经网络、遗传编程、贝叶斯网络、HMM和遗传算法的算法。
2017年12月5日

从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队

对于姚超、王存光和李继凡三位学生来说,这次比赛所遇到的困难不小——备赛时间短、首次参赛零经验、陌生的数据分析系统。虽初战告捷,他们所遇到的挑战却不止如此。
2017年12月4日

独家 | CIKM AnalytiCup 2017冠军团队获胜经验分享(附PPT&视频)

李中杰,数据派研究部成员,清华热能系博士生。擅长数据分析处理及机器学习算法Python实现,对大数据技术充满热情,曾获天池大数据IJCAI16口碑实体商户推荐赛冠军和菜鸟网络最后一公里极速配送冠军。
2017年12月4日

IBM苏中:怎样利用深度学习、增强学习等方法提高信息处理效率

人工智能的迅速发展得益于大数据的爆发,在这场爆发中,机器学习可以自动地从数据里寻找规律、,规则同时随数据的改变而自动发生变化。由此,人工智能迅速在互联网方面得以应用,包括搜索、推荐、语音识别等等。
2017年12月1日

支持实践教学:清华大数据能力提升项目举办CIKM AnalytiCup2017冠军团队经验分享会

李中杰,数据派研究部成员,清华热能系博士生。擅长数据分析处理及机器学习算法Python实现,对大数据技术充满热情,曾获天池大数据IJCAI16口碑实体商户推荐赛冠军和菜鸟网络最后一公里极速配送冠军。
2017年12月1日

300万知乎多标签文本分类任务经验分享(附源码)

训练的时候,每个模型要么只训练基于词(word)的模型,要么只训练基于字(char)的模型。各个模型的分数都差不多,这里不再单独列出来了,只区分训练的模型的类型和数据增强与否。
2017年11月30日

教你用300万共享单车出行数据,预测骑行目的地 !(附源码)

标注数据中包含300万条出行记录数据,覆盖超过30万用户和40万摩拜单车。数据包括骑行起始时间和地点、车辆ID、车辆类型和用户ID等信息。参赛选手需要预测骑行目的地的区块位置。
2017年11月28日

通知 | 2017年清华-青岛数据科学研究院“RONG”奖学金即将开放申请

“RONG”奖学金为开放式奖学金,主要依据大数据课程成绩、论文投稿、相关竞赛、实践活动和创新创业项目等几个方面进行综合评价。时间安排如下:
2017年11月28日

报名 | 大数据下的自杀风险感知与疏导讲座

【地点】报名成功后通知(活动报名成功确认短信及邮件在活动开始前两天完成推送,内含活动群二维码链接)
2017年11月28日

报名 | 海外学者短期讲学:全球数字经济环境创业与技能发展课程

为培养创新创业人才,近期由清华大学软件学院主办、数据科学研究院协办的海外学者短期课程“Innovating
2017年11月27日

报名 | 大数据打造智慧的政府门户讲座

政府网站内容挖掘:从政务公开绩效评价到以网站公开内容评价政府绩效的思路转变;政府网站发展指引与网站内容规范化;概率主题建模文本分析;关于政府回应能力与政策扩散的未来研究……
2017年11月23日

独家 | PHM数据竞赛首个中国夺冠团队经验分享(常用模型&赛题详解&PPT&视频)

对于testing或者validation数据集中的一个实验,我们不知道其所在的轨道以及起始和结束位置。而我们的数据又会受到轨道不平顺程度的影响,所以我们首先进行基于相似度的轨道位置匹配。
2017年11月14日

秒杀99.99%大学生!看看清华的学霸到底有多牛?

大三学年已位居全年级第一名,大三学年平均学分绩97.7分。取得了所有物理课程均在94分以上的好成绩,所有物理课程的平均学分绩为98分,并取得了物理系最重要的四门必修课“四大力学”全满分的成果。
2017年11月13日

报名 | CIKM AnalytiCup 2017—基于雷达图像预测未来降水参赛经验分享

姚易辰,数据派研究部志愿者,清华大学工程力学系博士生。天池大数据平台top10选手,曾获天池大数据IJCAI16口碑实体商户推荐赛冠军和菜鸟网络最后一公里极速配送冠军,擅长数据分析及图像处理。
2017年11月13日

近期热门领域新鲜数据集汇总!

Summarization(RA-MDS)[7]。文章指出,在做新闻摘要的时候,读者在新闻评论中的一些关注点,对摘要系统也有很大帮助。比如说,有些原始新闻报道都持有对
2017年11月9日

独家 | 手把手教你用scrapy制作一个小程序 !(附代码)

然后,就有人想到把命令写在sh文件里直接执行,这样就省去了四步之间等待的时间,程序运行的时间没有变,但是把分散的过程变成了整体的过程,这样既提高了效率也避免了人长时间驻守在电脑前不断地输命令。
2017年11月7日

数据蒋堂 | 迭代聚合语法

我们知道,计算机不能直接针对外存计算,当数据量很大而不能全部加载进内存时,迭代聚合算法可以只需要较小的内存(能够放下聚合值)就可以完成大数据量的聚合。这对于实现分组后的聚合运算很有意义。
2017年11月3日

独家 | 一文读懂复杂网络(应用、模型和研究历史)

关于网络的研究,数学家早在两百多年前就开始了,他们已经发展出了成体系的理论与技术,而物理学家的进入只有十几年左右的历史!到底是什么鼓动物理学家来趟这塘浑水,他们的到来有意义吗?
2017年11月3日

清华&滴滴:出行数据透视中国城市空间发展报告!

目前在滴滴平台上,每天有2500万订单,利用每个订单接送乘客的行驶轨迹,可以准确地判断出他们的出行特征,并以此为出发点,研究城市的开发、形态、功能、活动、活力乃至品质。
2017年11月2日

报名 | IBM苏中:从深蓝到AlphaGo,从大数据到认知商业

【地点】报名成功后通知(活动报名成功确认短信及邮件将于活动开始前两天完成推送,内含活动交流群二维码链接)
2017年10月31日

8个带你快速入门的趣味机器学习项目(附数据源、教程)

抽时间做项目是最好的一种投资方式,在项目中你会享受学习、保持积极性并能获得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。
2017年10月31日

独家 | 一文读懂推荐系统知识体系-上(概念、结构、算法)

filtering)算法是推荐系统中最古老的算法,产生于1992年,最初应用于邮件过滤系统,1994年被GroupLens用于新闻过滤。在此之后直到2000年,该算法都是推荐系统领域最著名的算法。
2017年10月30日

独家 | 一文读懂推荐系统知识体系-下(评估、实战、学习资料)

需要增加推荐系统的透明度(transparency),而增加推荐系统透明度的主要办法是提供推荐解释。只有让用户了解推荐系统的运行机制,让用户认同推荐系统的运行机制,才会提高用户对推荐系统的信任度。
2017年10月30日

邀请函 |“迈向数据法学”研讨会暨征文启事

有鉴于此,清华大学法学院、社会科学学院、数据科学研究院拟于2017年12月23-24日在北京举办首届“迈向数据法学”研讨会。社科学院计算社会科学平台和北京华宇信息技术有限公司提供相关支持。
2017年10月27日

独家 | 一文读懂集成学习(附学习资源)

现实生活中,我们经常会通过投票,开会等方式,以做出更加可靠的决策。集成学习就与此类似。集成学习就是有策略的生成一些基础模型,然后有策略地把它们都结合起来以做出最终的决策。集成学习又叫多分类器系统。
2017年10月25日

数据蒋堂 | 非常规聚合

上述的常规聚合都是针对数值的运算,特别地,对于结构化数据来说,是针对某个字段(或表达式)的运算,返回值也是这些数值的运算结果。但有时候我们关心的不是结果数值本身,而是与结果数值相关的信息。
2017年10月25日

数据蒋堂 | 再谈有序分组

细心的读者可能会发现,我们在讨论有序分组时只研究了待分组集合的成员次序对分组运算可能的影响,但即然要考虑集合的有序性,那么结果集的成员次序是不是也有业务意义呢?
2017年10月18日

优化神经网络模型结构新方法 | 清华张长水云栖大会分享

我举一个例子,比如图像识别。图像识别是这样一个问题:有一张图像,需要识别这个图像是猫、是狗、是计算机、是羽毛球拍?在2012年,深度学习网络用于解决该问题时,有了很大的突破。
2017年10月17日

独家 | 手把手教TensorFlow(附代码)

现在我们需要考虑如何调整参数使成本函数最小,这在机器学习中称为优化算法的设计问题。笔者这里对TensorFlow实现优化的过程作一个简要的介绍,要知道优化算法从某种意义上讲比模型更重要。
2017年10月16日

数据蒋堂 | 有序分组

这种场景同样可能出现在文本分析中。每个用户的事件日志可能有多行,而且行数不确定,但写日志时会在每个行开始处写上用户号。这样我们可以按这个用户号进行有序分组,它变化时就说明是另一个用户的事件了。
2017年10月14日

姚期智云栖大会首日演讲:为什么我说现在是金融科技的“新”黄金时代

金融科技融合了传统经济学、金融学的理论和计算机领域分布式计算、密码学原理等等,可有效提高传统金融的效率并提供新的服务,例如基于大数据人工智能的智能投顾、区块链、在线小额贷款、数字资产等等。
2017年10月13日

独家 | 一文读懂TensorFlow(附代码、学习资料)

在训练模型时,Variable被用来存储和更新参数。Variable包含张量储存在内存的缓冲区中,必须显式地进行初始化,在训练后可以写入磁盘。下面代码中的Variable充当了一个简单的计数器角色:
2017年10月12日

独家 | 一文读懂自然语言处理NLP(附学习资料)

QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。
2017年10月11日

数据蒋堂 | 非等值分组

对位分组可能出现空子集,它也不能保证任何原集合的成员都被拆到某个子集中(比如有些不重要的成员没有被列入基准集合),不过对位分组能保证每个成员最多只出现在一个子集中。
2017年9月29日

独家 | 手把手教数据可视化工具Tableau

中,默认情况下可能会将包含单独年龄的字段分类为度量,因为它包含数值数据。在某些情况下,您可能想要对年龄进行加总或求平均值,但也可能想要以数据桶或类别的形式查看每个单独的年龄,这种情况下您会希望
2017年9月28日

独家 | 一文读懂社交网络分析-下(应用、前沿、学习资源)

接触过微信公众号后台的读者都知道,公众号后台对微信公众号文章的读者还有公众号粉丝的画像已经做得非常充足了,好像微博会员也有粉丝画像的功能。这些便捷的功能对于媒体运营者和广告投放者都有非常重要的作用。
2017年9月26日

独家 | 一文读懂社交网络分析-上(附学习资源)

在线社交网络中的信息承载着用户网上活动的所有记录,在信息传播分析时起着不可或缺的重要作用。信息本身也具有一些特性,例如时效性,主体多样性,多源触发,信息合作与竞争等。依据这些特征,可建立不同的模型。
2017年9月26日

独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)

最后,再次祝贺清华大学大数据系统软件国家工程实验室成立,我非常期待它同世界其他实验室保持持续的交流合作,也感谢大会邀请我来做此次报告,谢谢!
2017年9月25日

福利 | 16场精选活动干货、精华笔记、课件分享:数据派独家讲座干货大合集

数据派不定期主办或参与协办医疗、交通、人工智能、金融等主题的讲座/思享会/论坛,并整理活动纪要,分享嘉宾演讲干货。志愿者也经常获得大型会议或讲座的赠票福利,免费参会并为大家整理分享活动干货。
2017年9月24日

数据蒋堂 | 还原分组运算的本意

BY子句时,SELECT部分除了分组字段外,就只能写入聚合运算表达式了。当然还有个原因是SQL没有显式的集合数据类型,无法返回集合的集合这类数据,也只能强迫实施聚合运算了。
2017年9月23日

独家 | 一文读懂网络爬虫

在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的有效信息?这就促进了“爬虫”技术的飞速发展。
2017年9月22日

独家 | 陆化普:大数据、AI解决交通管理难题的新思路

微观分析事故预防、事故应急。国外在车内安装传感器,比如对眼球移动状态,对心跳、脉搏等进行实时监测。通过眼球移动状态判断疲劳程度和身体状态,通过脉搏和心脏状态反应身体状况,尤其是防止突然发病。
2017年9月20日

北京清华长庚医院与数据院签约,医工结合促医疗大健康发展

清华医学研究数据平台的搭建,是北京清华长庚医院和数据院在学科交叉融合道路上的初步探索。今后双方将继续加强合作,共同为医疗健康事业作出贡献。
2017年9月20日

吴恩达导师Michael I. Jordan最新清华公开课笔记(附下载)

他鼓励同学们说,“如果你们只选计算机系的课的话,我不会要你们来读我的博士的。尽管去学物理或者法语吧,这代表你对知识的好奇。做你们自己,开创你们自己的道路。”
2017年9月19日

独家 | Michael I. Jordan最新清华授课笔记!

1、正文前标示:转自数据派THU(ID:DatapiTHU);2、文章结尾处附上数据派二维码。
2017年9月17日

数据派研究部招新 | 跨过数据海洋,摘取AI之芯——我们邀你一起飞!

本文教你用线性回归方法来拟合数据方程的基本统计原则和它们如何描述数据元素之间的关系;教你使用R准备数据进行回归分析,定义一个线性方程并估计回归模型。
2017年9月17日

独家 | 环境大数据的应用案例及前景

若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包。
2017年9月16日

数据蒋堂 | 有序遍历语法

SQL延用了数学上的无序集合概念,遍历时也不关注次序。但计算机只能一步步地执行(暂先不考虑并行计算的情况),而遍历集合时总会有个次序,充分利用这个次序就可以方便地表达更丰富的计算需求。
2017年9月15日

独家 | 一文读懂优化算法

不确定性行为:不确定性,是人类社会现象的基本属性。人类的认知过程是通过语言和思维进行的,人类依托语言进行思维;自然语言是人类的思维基础,是人类智能的体现。模糊系统正是基于模拟人类利用自然语言来描述
2017年9月15日

独家 | 王海峰首谈百度AI战略布局(附PPT下载)

除了理解句子、篇章、文字以外,人写一句话、写一首诗亦或写一篇文章,都是带有情感倾向的,所以相应地,我们也做情感倾向的分析,包括用户看了一篇文章以后,下面有很多评论,这些评论本身我们也会做观点的抽取。
2017年9月14日

清华大学举办2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议

此次会议由清华大学副校长薛其坤院士主持,并与邱勇校长、雷朝滋副司长、安筱鹏副司长、袁军副处长、廖湘科院士、陈杰副校长、刘元春副校长、陆建华院士、孙家广院士共同为大数据系统软件国家工程实验室揭牌。
2017年9月13日

数据蒋堂 | 常规遍历语法

遍历在本质上就是一个循环,而循环语句可能有多层,这样遍历也可能会有嵌套引用。比如计算A,B两个集合的交集,简单的算法就是遍历A的成员,看是不是在B集合中出现过(也是遍历),这就会涉及到两层的遍历。
2017年9月13日

数据派研究部招新 | 跨过数据海洋,摘取AI之芯——我们邀你一起飞!

本文教你用线性回归方法来拟合数据方程的基本统计原则和它们如何描述数据元素之间的关系;教你使用R准备数据进行回归分析,定义一个线性方程并估计回归模型。
2017年9月10日

姚期智:算法将推动下一波AI浪潮,现有革新将达极限

所以现在回顾,我们当时说准备把这个班培养成一个具有和麻省理工、斯坦福同等水平的一个人才的培养库,现在全部达到了目标,或者可以说我们超标了,我们现在320位姚班学生,我觉得比那些学校的学生还要好。
2017年9月10日

清华大数据人才培养项目招生再现火爆,大数据人才就业风景这边独好

2017-2018年清华大学大数据能力提升项目开始报名啦!
2017年9月7日

清华大学大数据能力提升项目丰富的课余生活

突出跨学科交叉融合。必修课程以培养学生的大数据思维和技能作为基本目标,旨在提高学生大数据思维和素养,培养数据分析、数据管理和创新应用能力。实践环节突出学生的大数据实际应用能力培养。
2017年9月5日

Q&A | 清华大学大数据能力提升项目(2017年秋)

相信各位同学在听过9月4日数据科学研究院的招新宣讲后,都对“大数据能力提升项目”跃跃欲试啦!到底该如何报名?怎么选课?如何取得证书呢?请参看本篇文章(建议收藏)。
2017年9月5日

独家 | 雷达图像预测未来降水?CIKM AnalytiCup Top1 清华团队思路分享(附代码)

姚易辰,数据派研究部志愿者,清华大学工程力学系博士生。天池大数据平台top10选手,曾获天池大数据IJCAI16口碑实体商户推荐赛冠军和菜鸟网络最后一公里极速配送冠军,擅长数据分析及图像处理。
2017年9月4日

清华大学大数据能力提升项目实践模块综述

突出跨学科交叉融合。必修课程以培养学生的大数据思维和技能作为基本目标,旨在提高学生大数据思维和素养,培养数据分析、数据管理和创新应用能力。实践环节突出学生的大数据实际应用能力培养。
2017年9月3日

集成学习20问答案及获奖名单公布!你都答对了吗?

数据派研究部成立于2017年初,志于打造一流的结构化知识分享平台、活跃的数据科学爱好者社群,致力于传播数据思维、提升数据能力、探索数据价值、实现产学研结合!
2017年8月31日

2017-2018年清华大学大数据能力提升项目开始报名啦!

突出跨学科交叉融合。必修课程以培养学生的大数据思维和技能作为基本目标,旨在提高学生大数据思维和素养,培养数据分析、数据管理和创新应用能力。实践环节突出学生的大数据实际应用能力培养。
2017年8月29日

福利 | 200页国内外资源、技术指南、大咖经验:数据派翻译组独家文章大合集

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
2017年8月27日

数据蒋堂 | 从SQL语法看离散性

离散性是个很简单的特性,几乎所有支持结构(对象)的高级语言都天然支持,比如我们用Java时都可以把数组成员取出来单独计算,也可以再次组成新的数组进行集合运算(不过Java几乎没有提供集合运算类库)。
2017年8月26日

福利 | 这20道集成学习问题请你来挑战

研究部的逻辑在于知识结构化、实践出真知:梳理打造结构化基础知识网络;原创手把手教、一文读懂以及实践经验等系列文章;形成专业兴趣社群,交流学习、组队实践、追踪前沿。
2017年8月23日

独家 | 哈佛教授公开R语言源码,教你用R制作gif动图

Storey最近问我是否可以公开这些源代码。由于我不甚有条理,而且这些动画都是灵机一动想出来的,所以之前这些代码分散在几个不相关联的文件中。John的请求促使我把这些代码整理在一起发布在这里。
2017年8月21日

福利 | 400页技术入门指南、技术进阶干货:数据派研究部独家文章大合集

研究部的逻辑在于知识结构化、实践出真知:梳理打造结构化基础知识网络;原创手把手教、一文读懂以及实践经验等系列文章;形成专业兴趣社群,交流学习、组队实践、追踪前沿。
2017年8月20日

数据蒋堂 | 从SQL语法看集合化

而SQL则提供有较丰富的集合运算,如SUM/COUNT等聚合运算,WHERE用于过滤、GROUP用于分组,也支持针对集合的交、并、差等基本运算。这样写出来的代码就会短小很多。
2017年8月19日

独家 | 手把手教随机森林

这与我们某次家庭作业练习的情况类似,后来第二天在课堂上解决了。然后我们收到一组问题,与作业练习非常相似,只是一些数字改变了。它不会真正地验证我们对核心问题的理解,只是让我们更加了解作业(过度拟合)。
2017年8月17日

独家 | 一文读懂Adaboost

由此便推导出了Adaboost算法过程。实际上,这种通过从前到后每步只学习一个基础模型及其系数,从而最小化整体的损失函数的方法就是前向分步算法,也就是说Adaboost算法是前向算法的一个特例。
2017年8月14日

数据蒋堂 | SQL用作大数据计算语法好吗?

顺便提一句,新的运算模型并不是指当前业内的NoSQL,NoSQL并不是为高性能计算设计的,事实上它以牺牲计算能力为代价而换取了可横向扩展的能力,对于复杂大数据计算的需求而言是个倒退。
2017年8月11日

独家 | 一文读懂Apache Kudu

比较有意思的是,同为Cloudera公司开源的另一款产品Impala,是另一种非洲的羚羊,叫做“黑斑羚”,也叫“高角羚”。不知道Cloudera公司为什么这么喜欢羚羊,也许是因为羚羊的速度快吧。
2017年8月10日

独家 | Python数据分析入门指南

notebook命令,这会打开一个浏览器窗口。如果没有的话,打开浏览器,在地址栏输入:http://localhost:8888。在你打开这个页面之后,创建一个新的Python笔记本(Python
2017年8月9日

独家 | 一文读懂集成学习(附学习资源)

现实生活中,我们经常会通过投票,开会等方式,以做出更加可靠的决策。集成学习就与此类似。集成学习就是有策略的生成一些基础模型,然后有策略地把它们都结合起来以做出最终的决策。集成学习又叫多分类器系统。
2017年8月7日

数据蒋堂 | SQL的困难源于关系代数

这里说的数据对象,和程序设计面向对象理论中数据对象不太一样。前者主要强调数据上的运算,而后者更多强调对象的封装性、继承性和重载能力。前者是为了更好的描述和实施数据运算,后者则主要是为了代码复用。
2017年8月4日

报名 | 大数据驱动下的媒体业转型讲座

陈杰在中国首家赴美上市大数据公司——国双科技(Nasdaq:GSUM)担任新媒体事业部总经理一职,
2017年8月2日

独家 | 一文读懂TensorFlow基础

现在我们需要考虑如何调整参数使成本函数最小,这在机器学习中称为优化算法的设计问题。笔者这里对TensorFlow实现优化的过程作一个简要的介绍,要知道优化算法从某种意义上讲比模型更重要。
2017年8月1日

独家 | 一文读懂Hadoop(四):YARN

读者可以通过阅读“一文读懂Hadoop”系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文章了解Hadoop。
2017年7月28日

数据蒋堂 | SQL像英语是个善意的错误

关于过程性,SQL的拥趸者一直有一个说法:写SQL时用户只要关心要什么,而不必关心怎么做,计算机会自动找解决方案,这样语法本身不需要支持过程性。
2017年7月28日

独家 | 一文读懂Hadoop(三):Mapreduce

读者可以通过阅读“一文读懂Hadoop”系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文章了解Hadoop。
2017年7月26日

独家 | 一文读懂Hadoop(二)HDFS(下)

降级将软件恢复到升级前版本,并保留用户数据。假设时间T是滚动升级开始时间,升级通过降级终止。然后,在T之前或之后创建的文件在HDFS中仍然可用。在T之前或之后删除的文件在HDFS中保持删除。
2017年7月25日

独家 | 一文读懂Hadoop(二)HDFS(上)

ViewF实现了Hadoop文件系统接口,就像HDFS和本地文件系统一样。这是一个普通的文件系统,它只允许链接到其他文件系统。所有shell命令与ViewFS一起使用,与HDFS和本地文件系统一样。
2017年7月25日

独家 | 一文读懂Hadoop(一):综述

http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable%E4%B8%AD%E6%96%87%E7%89%88\_1.0.pdf
2017年7月24日

独家 | 类脑计算在医疗图像上的应用(附PPT下载)

最后比较有意思的是,我们需要多模态的融合和复杂决策。我也看到一些希望,最近一篇文章通过比较挖掘电子病历,用机器学习的方法可以较好的预测心脏病发作,所以在未来我们有办法把各个成像模式跟电子病历的融合。
2017年7月23日

数据蒋堂 | 开放的计算能力为数据库瘦身

我们在上一期谈到,数据库的臃肿,也就是过多的中间表以及相关存储过程,是由于其计算封闭性造成的。如果能够实现独立的计算引擎,使计算不再依赖于数据库提供,那么就可以为数据库瘦身了。
2017年7月21日

独家 | 一文读懂语音识别(附学习资源)

在串联特征中使用了层次化的结构,将原来单一的神经网络替换为多个神经网络,分别被训练为具有不同的功能而又层次化地组织在一起。这种方法比原有单一神经网络的参数规模少,训练时间更短,同时获得了更好的性能。
2017年7月20日

独家 | 孟庆国:电子政务框架的顶层设计思路(附PPT下载)

实际上电子政务建设在我们国家还有一个比较复杂的情况,我们的政府不单单是指行政的政府,可能政府是个大概念,尤其网信办负责这个事情,党、政、人大、政协、检察院、法院,这些国家的机构是不是都应该纳入进来。
2017年7月19日

独家 | 一文读懂深度学习(附学习资源)

通过前面的介绍,读者对于深度学习已经有了比较详细的了解,那么实际应用中深度学习网络究竟是怎么样设计的呢?本节我们向大家介绍几种应用效果非常好的深度学习网络,从中我们可以体会到神经网络设计的一些技巧。
2017年7月17日

数据蒋堂 | 计算封闭性导致臃肿的数据库

有过开发经验的人都知道这不大可能,几百个表就能描述相当复杂的业务了。这些表绝大多数都是所谓的中间表,并不是用来存储基础数据的。
2017年7月14日

独家 | 一文读懂迁移学习(附学习工具包)

先训练一个通用型的对话系统,然后再根据特定领域的小数据修正它,使得这个对话系统适应该特定领域的任务。比如,一个用户想买咖啡,他并不想回答所有繁琐的问题,例如是问要大杯小杯,热的冷的?
2017年7月13日

手把手教你用TensorFlow、Keras打造美剧《硅谷》中的“识别热狗”APP

在小型神经网络上使用迁移学习也更难一些。理论上来说,我们是可以用对付Inception和VGG一样的办法,来处理SqueezeNet的:先让它遗忘一些信息,然后重新特别训练它识别热狗和非热狗的能力。
2017年7月11日

韩亦舜:医疗数据开放共享规范

追溯性:我们要做的符合国际标准的多中心研究,数据最终要有可追溯性,前不久中国爆出来很多科研方面的问题,被一些杂志给屏蔽了。实际上是因为这个基础不好,使得很多人难以发挥。建立数据追溯的意识很重要。
2017年7月8日

数据蒋堂 | 怎样看待存储过程的移植困难

JOIN都要转换成UNION来做。这时候想移植存储过程,那就是相当于完全重新开发。这个困难根本就不是移植造成的,如果当初选择开源数据库建设应用,那困难一样的大。
2017年7月7日

《工业大数据技术与应用白皮书》发布,清华王建民教授发布会PPT全文(附下载)

当前,工业大数据仍处在高速发展的历史阶段,其概念内涵、技术方法、价值创造模式等还在不断创新演化之中,后续将根据联盟成员和广大读者的反馈意见,不断补充完善。
2017年7月5日

独家 | 面部识别技术能用来识别鲸鱼? Kaggle露脊鲸识别大赛NO.1教你实现!

momentum训练了超过一百个epoch,然后我们切换到Adam(自适应矩估计)。如果从一开始就使用Adam,我们无法实现类似的损失。初始学习率可能不重要,但是我们使用0.0005左右的初值。
2017年7月3日

独家 | 人工智能技术在医学领域的应用与前景(附PPT)

什么是“人工智能”、“机器学习”、“深度学习”?这三个概念现在的媒体经常会混为一谈,使大家一头雾水。如果我们回到历史里追溯“人工智能”整体发展轨迹,就会很清晰的得到这三个术语的原本概念。
2017年6月29日

独家 | 28303篇论文体现机器学习领域的发展变化

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
2017年6月28日

数据蒋堂 | 存储过程的利之弊

存储过程是数据库领域中应用非常广泛的技术,关于它的利弊讨论由来已久,我们这里针对存储过程的两个公认度较高的优点进行剖析,从而更清楚存储过程的潜在风险及应用场景。
2017年6月25日

独家 | 一文读懂大数据处理框架

Flink则潜力无限,被称作“下一代数据处理框架”。虽然目前存在社区活跃度不够高、商用案例较少等情况,不过“是金子总会发光”,如果Flink能在商业应用上有突出表现,则可能挑战Spark的地位。
2017年6月23日

独家 | 2017 PyData大会22个精选演讲视频

演讲中,演讲人解释了他们如何辨别职称,并将职称归档至拥有超过5000个类别的岗位库:他们采用包含B-LSTM编码器的Siamese网络来学习基于字符的职称表述。你可以学到理论中的方法并了解它们如何被
2017年6月21日

手把手教你自制编程AI:训练2小时,RNN就能写自己的代码

tf.contrib.rnn.MultiRNNCell用于实例化递归神经网络。我们把给出的create_cell()数组作为参数,是因为我们希望得到由多层网络构成的递归神经网络。本例为三层。
2017年6月19日

独家 | 一文读懂特征工程

样本不同特征有不同的量级和单位。所有依赖于样本距离的算法(如KNN)对于数据的数量级都非常敏感。量级大的特征属性将占主导地位,且量级的差异会导致迭代速度减慢。为了消除量级的影响,必须进行数据标准化。
2017年6月17日

数据蒋堂 | 不要对自助BI期望过高

多维分析是指针对某个事先建好的数据集(称为立方体)做交互操作。这是大多数BI产品目前能够提供出来的分析能力,尽管新一代产品在界面美观度和操作方便度上有了不小的进步,但能完成的运算功能并没有本质变化。
2017年6月16日

龚亚丽:大数据助我打开传统行业发展新思路 | 清华大数据毕业生系列专访之四

最后,龚亚丽说:“当年系主任那句话一直支撑着我。以后能源行业的发展必将与大数据相结合,我也希望用我所学的知识,在这一领域做出自己的贡献!”
2017年6月16日

报名 | 智能媒体前沿技术研讨会暨清华大学“计算未来”博硕论坛听众招募

分享嘉宾:李诚,商汤科技高级研究员,曾就读于清华大学物理系。2013年毕业后加入商汤科技,联合创始人之一。在CVPR
2017年6月15日

【报名】政府政务大数据应用讲座

University数据科学相关科研动态、教学成果及线下活动
2017年6月14日

【报名】大数据在媒体影视和广告行业中的应用思享会

全国研究生数学建模竞赛一等奖、市场研究领域最高荣誉“宝洁”论文竞赛一等奖的获得者。拥有7年数据分析和挖掘工作经验,5年传统行业和大数据领域的研究经验。
2017年6月13日

AI未来一定会以新的形式重生|专访清华应明生教授

关于量子计算机逻辑程序设计,早在九十年代就定义了一些简单的量子程序设计语言。真正认真的研究是2010年以后的事情,特别是微软发布了量子程序设计语言LIQUi|>。另外两个影响比较大的语言是Peter
2017年6月12日

【独家】手把手教线性回归分析(附R语言实例)

我们可以看到两个数值,“截距”和“斜率”。无论我们用什么软件来做线性回归(本文中的例子统一采用R语言),它都会用某种形式来报告这两个数值。截距就是我们的公式中的b,斜率就是Y和自变量之间的倾斜程度。
2017年6月11日

【D-News】联合国AI峰会论坛召开;苹果iOS 11系统融合AI与AR技术

【D-News】突发病毒席卷全球网络,国内高校大学生损失惨重;发改委召开促进大数据发展会议;第二届中国VR&AR国际峰会举行
2017年6月11日

中国公益基金会数据骇客松大赛启动报名

本次竞赛的主要数据将由基金会中心网提供。本次竞赛的重要任务之一,就是让广大社会公众,了解中国公益基金会的信息公开进展,认可我国在公益事业信息公开上的努力,支持我们继续进行公益事业数据公开的工作。
2017年6月10日

【数据蒋堂】报表的数据计算层

独立计算层的计算脚本和报表模板一样,都是解释执行的,脚本也可以文件形式与和报表模板放在一起,报表维护时很容易保证这两部分一致,这方面不存在应用耦合问题。
2017年6月9日

【独家】移动互联网大数据助力金融风控(课程精华笔记+PPT)

虚拟信用卡的推出对市场意味着什么呢?过去我们办理实体卡往往是需要一个线下的过程,而虚拟卡是完全在线上完成。这是银行在攻占整个的消费分期以及往下层的金融市场,我们可以看到很多家银行在进入这个市场。
2017年6月7日

【报名】数据与媒介创新讲座

大数据时代崛起,新媒体时代的发展势头依旧迅猛,数据与新媒体是友非敌,二者的碰撞产生了更多的创新应用。数据时代的新媒体有何种新的定义?如何依托于数据知识判断信源?
2017年6月6日

除了Alpha狗,人工智能还有两只猫!

这说明实际上所谓的类比关系就蕴藏在成千上万单词所构造的大型语料库之中。当我们用这些单词去训练一个模型的时候,该模型就会自动把握其中的隐含模式,而这些模式就具有这样的类比关系。
2017年6月6日

【报名】网络海量数据的情感计算思享会

IJCAI等领域内主流学术刊物和会议上发表论文60余篇,并与腾讯、SOGOU、华为、西门子、MSRA、BOSCH等国内外同领域企业保持密切合作。
2017年6月5日

【快讯】数据派志愿者线下交流活动成功举办啦!

吕艳芹经理强调,做数据工作最关键的就是严谨,一个数据的错误可能会造成千差万别的影响。同时,吕艳芹给同学们的建议就是放低姿态,从最基础的数据工作做起,要有责任心。
2017年6月5日

循序渐进提升Kaggle竞赛模型精确度,以美国好事达保险公司理赔为例

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
2017年6月5日

【D-News】河南新建60个大数据创新平台;摩拜微软合作,发力云计算和AI

Engine云计算服务,并升级了许多新功能,这对需要高性能处理器和大量内存访问的用户来说将更为实用。据Google介绍,此次更新可支持将英特尔Skylake
2017年6月4日

【独家】瞿振元:大数据是教育研究走向科学化的重要支持(视频+演讲原文)

教育的信息化问题,我们一直在讲。但是,需要深入反思我们对教育信息化的认识是否真的已经到位。最近,学习习近平总书记在去年4月19号作的关于网络安全建设问题上的讲话,我感到我们的认识还是不够到位。
2017年6月4日

【数据蒋堂】报表应用的三层结构

报表工具都可以完成计算列、分组排序等运算,有些报表工具还提供了跨行组运算和相对格与集合的引用方案,可以完成颇为复杂的运算。
2017年6月3日

一万元搭建深度学习系统:硬件、软件安装教程,以及性能测试

为Kaggle猫狗识别竞赛而微调一个VGG网络。使用相同的batch在CPU上运行这个模型不可行,所以我们在GPU上微调了390个batch,在CPU上是10个batch。代码如下:
2017年6月3日

【报名】移动互联网大数据助力金融风控

私募公司任Kraftwerk基金数据科学架构师,负责大数据技术应用。种骥科持有加州大学伯克利分校电子工程和计算机科学系博士学位,卡内基梅隆大学电子和计算机工程系硕士及本科学位,并持有9项专利。
2017年6月2日

清华-青岛数据科学研究院与汤森路透、中国社科院世经政所、清数研究 联合发布 《“一带一路”跨境并购研究报告》

中国对“一带一路”国家的并购金额高度集中,排名前五的是哈萨克斯坦、俄罗斯、以色列、新加坡和埃及,仅这五个国家就占据并购总额的78.07%
2017年6月2日

清华大学朱军详解珠算:贝叶斯深度学习的GPU库(附视频)

给大家两个例子看我们怎么通过珠算实现推断的。首先,比如我们要做一个变分推断,在珠算上变分推断只需要三步:第一步,我们要构造一个变分分布,这个变分分布就像我前面讲的生成模型一样,可以通过初始化一个
2017年6月2日

【独家】并行计算性能分析与优化方法(PPT+课程精华笔记)

在不断追求高性能的处理器当中,英特尔推出被称为众核处理器的一系列产品。第一代产品的代号是KNC。在全球高性能系统中,连续三年排名第一的天河二号,就使用了KNC。KNC看起来像GPU,插在PCIe
2017年6月1日

【独家】一文读懂数据可视化

相信每一个码农出身的数据分析师在做可视化设计时,都会对色彩如何搭配产生过困惑。色彩理论看起来简单却又乏味,用起来却不是那么得心应手。那么,如何让数据可视化作品简约、灵动、美观?下面介绍一些通用技巧。
2017年5月31日

初学者如何选择合适的机器学习算法(附算法速查表)

在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法开发者也都不能分辨出哪种算法性能最好。我们并不提倡一步到位,但是我们确实希望根据一些明确的因素为算法的选择提供一些参考意见。
2017年5月29日

把深度学习用于你已有的数据

如果您是清华大学的教师、学生或研究员,还可随机享受到2.5折~5折超低免费票!小数点拍胸脯保证,这可是中国市场独一无二的最优惠,仅限于清华师生哦~
2017年5月28日

程序员如何开启机器学习之路?我也遇到过这个问题

根据我以往的经历,我可以想象得出你做过哪些尝试,比如海淘各种博客帖子,学习斯坦福大学的机器学习公开课,尝试深入理解机器学习的相关概念和模型,尝试处理一些小数据集,不过依然会觉得不得其门而入。
2017年5月28日

【数据蒋堂】列式存储的另一面

另外,分块容量在数据追加前就要确定下来,随着数据的不断追加,相邻分块却不能物理上合并,分块数就会越来越多,这将给管理造成不少麻烦,需要可扩展的空间专门存储分块的索引信息。
2017年5月27日

【独家】基于百度时空大数据的城市计算(讲座精华笔记)

Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
2017年5月27日

2017数博会开幕,李克强总理贺信强调数字经济重要性,马凯副总理致辞(全文)

开幕式上,工信部苗圩部长宣读了李克强总理的贺信,李克强总理在贺信中高度强调了数字经济重要性。中共中央政治局委员、国务院副总理马凯出席开幕式并讲话,指出要充分利用大数据等信息技术加快制造业技术创新。
2017年5月26日

自然语言处理如何检查拼写错误?(Tensorflow实例教程&源代码)

清理这些书的文本是相当简单的。由于我们将使用的是字符,而不是单词作为我们模型的输入,所以我们不需要担心去除停用词,或者将单词缩短到只留下主干。我们只需要删除我们不想要的字符和多余的空格。
2017年5月26日

计算机视觉怎么给图像分类?KNN、SVM、BP神经网络、CNN、迁移学习供你选(附开源代码)

该脚本将运行4000个训练步骤。每个步骤从训练集中随机选择十个图像,从缓存中发现其瓶颈,并将它们馈送到最后一层以获得预测。然后将这些预测与实际标签进行比较,从而通过反向传播过程更新最终层的权重。
2017年5月25日

知识图谱研究进展(附PDF下载)

虽然描述逻辑推理机的优化取得了很大的进展,但是还是跟不上数据增长的速度,特别是当数据规模大到目前的基于内存的服务器无法处理的情况下。为了应对这一挑战,最近几年,研究人员开始考虑将描述逻辑和RDFS
2017年5月24日

【报名】清华大学大数据能力提升项目《大数据实践课》报名啦!

报名方式:请登陆数据科学研究院官网查询(内附实践项目清单)http://www.ids.tsinghua.edu.cn/
2017年5月23日

王瑞琰:大数据引领我发现法学“新大陆”

大数据能力提升项目提倡学科交叉融合,培养数据思维,丰富学科知识,打造π型人才,更加符合当代社会对人才的需求。相信大数据能力提升项目会结出更多的“人才硕果”,让我们拭目以待!
2017年5月22日

【独家】考察数据科学家和分析师的41个统计学问题

https://www.analyticsvidhya.com/blog/2017/05/41-questions-on-statisitics-data-scientists-analysts/
2017年5月21日

【D-News】互联网巨头季度财报披露、大数据+水利迎来发展、LuxTrust将建立区块链身份平台

Blockchain合作开发一个新平台,在充分尊重日益严格的欧洲监管框架的前提下,扩大身份验证范围,使用户能够共享个人数据,为用户提供更好的服务。这种合作将使更多国家实现数字身份未来。
2017年5月21日

【独家】阿里天池IJCAI17大赛第四名方案全解析(附代码)

商家初始入驻口碑平台存在一定的启动时间,同时销售过程中会在销量中断的现象,如下图shopID为1072的商家所示。针对此类现象,开业前7天数据不用于训练集,销量间断前后3天数据不用于训练集。
2017年5月20日

【报名】从普惠金融到FinTech,互联网金融技术的自我革命讲座

私募公司任Kraftwerk基金数据科学架构师,负责大数据技术应用。种骥科持有加州大学伯克利分校电子工程和计算机科学系博士学位,卡内基梅隆大学电子和计算机工程系硕士及本科学位,并持有9项专利。
2017年5月19日

【快讯】龙腾佳讯与清华-青岛数据科学研究院达成战略合作 共促大数据基础设施领域研究

本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
2017年5月19日

勒索病毒WannaCry肆虐,除了哭,企业还能做什么?

所以,我们也不建议缴纳赎金。同时,如果出现问题,建议将感染机器交由专业人士进行处理,不要盲目相信网络传播的各种“秘籍”。对于企业和个人,对抗此类攻击最好的方式归结起来就是以下几点:
2017年5月19日

【独家】教育研究的数据、证据和价值(视频+PPT)

还能找到另外一个数据,国家财政投入从2007年时是30%,之后持续高速增长,现在稳定。投融资情况也是一样,近三年非常热门,从数据上暂时看不到太多的问题。
2017年5月17日

【独家】段路明“量子计算与人工智能”讲座精华报告(附论文、课件下载)

而这实际上是它最本质的优越性,也是它为什么第一次超越了经典图灵机的概念,现有的超算理论都不能超越经典的图灵机,因为最多常数加速,但在量子里面它是指数加速,因此指数加速是量子计算机最本质的特性。
2017年5月16日

【数据蒋堂】我们需要怎样的OLAP?

前面说过,从技术上讲,规律验证可以看成是一种针对数据的查询和计算过程,其关键点在于这种过程可以由业务人员自由定义,无须技术人员参与。结合当前的应用环境,我们认为这种OLAP应当具体这样两种功能:
2017年5月14日

【D-News】突发病毒席卷全球网络,国内高校大学生损失惨重;发改委召开促进大数据发展会议;第二届中国VR&AR国际峰会举行

Design有些相似。它们的主要目标就是给开发者提供一种单一的设计语言,它可以在各种设备上良好运行。微软Windows开发者平台副总裁凯文·盖洛(Kevin
2017年5月14日

【D-News】突发病毒席卷全球网络,国内高校大学生损失惨重;发改委召开促进大数据发展会议;第二届中国VR&AR国际峰会举行

Design有些相似。它们的主要目标就是给开发者提供一种单一的设计语言,它可以在各种设备上良好运行。微软Windows开发者平台副总裁凯文·盖洛(Kevin
2017年5月14日

【独家】一文读懂聚类算法

廖旺坚,清华大学电子与通信工程在读硕士,数据派研究部志愿者。对Hadoop、Spark等大数据处理技术略有研究,对机器学习、数据挖掘等有浓厚兴趣,希望能从大千世界纷复繁杂的数据中找到有意思的东西。
2017年5月13日

小议数据与治理

在本文中,我们主要探讨最基本的两个概念:数据,治理。在这两个基本词汇之外,其实还有诸多需要辨析的概念,比如:数据模型与数据标准,数据标准与元数据,元数据与主数据等等,且留待以后合适的机会另行成文吧。
2017年5月12日

【报名】大数据与新媒体讲座(含福利)

请扫描图中的二维码进入活动微信群;若不成功,请添加大数点微信(big_decimal_point)并备注“0515入群”,大数点将会把您手动添加到微信群中。
2017年5月11日

【报名】量化策略挑战赛5月12日线下课程,火热进行中!

我们所讲的二级市场投资,涵盖面比较广,可以包含股票、期指、期货、现货等等。不过,今天我们重点介绍股票市场,因为这也是个人投资者参与门槛比较低的市场。当然,门槛低不代表容易赚钱,这个后面详细讨论。
2017年5月10日

【独家】用数据揭示中国大学生学习过程的黑箱(视频+图文实录)

作为结构化的定量调查,我们的工具有着非常清晰的结构。之所以不是用大数据,是因为它不是一个对相关数据随机的采集,而是一个精心设计的问卷。在问卷里包含以下几类指标,以帮助我们更好地认识学生的学习:
2017年5月9日

【独家】用数据揭示中国大学生学习过程的黑箱(视频+图文实录)

作为结构化的定量调查,我们的工具有着非常清晰的结构。之所以不是用大数据,是因为它不是一个对相关数据随机的采集,而是一个精心设计的问卷。在问卷里包含以下几类指标,以帮助我们更好地认识学生的学习:
2017年5月9日

【D-News】京津冀大数据创新应用中心18日将正式投入运营;大数据+法律,美国人工智能预测判案结果准确率超70%

日,腾讯云与贵阳国家高新技术产业开发区管理委员会签署框架合作协议,双方将在人才、资源、资金、技术等方面展开合作,推动云计算、大数据、移动互联网在贵阳的发展,助力贵阳国家高新区“互联网+”生态建设。
2017年5月8日

【D-News】京津冀大数据创新应用中心18日将正式投入运营;大数据+法律,美国人工智能预测判案结果准确率超70%

日,腾讯云与贵阳国家高新技术产业开发区管理委员会签署框架合作协议,双方将在人才、资源、资金、技术等方面展开合作,推动云计算、大数据、移动互联网在贵阳的发展,助力贵阳国家高新区“互联网+”生态建设。
2017年5月8日

金语泽:大数据交叉思维让我更具创新力

发布清华大学数据科学相关科研动态、教学成果及线下活动
2017年5月8日

【数据蒋堂】1T数据到底有多大?

我们对1T有了上面这些感性认识后,听到多少多少T的说法时,就可以随时脑补出交易、节点数、成本等信息。做平台规划和产品选择时,就不容易被忽悠了。Teradata这个名字,今天也还不算过时的。
2017年5月7日

马少平教授:我的AI研究之路

来到学校报到后,才知道我读的就是电子工程系的自动控制专业,此外还有计算机和无线电两个专业。1979年,电子工程系更名为计算机系,而原来的无线电系则从四川绵阳搬回北京,更名为电子工程系。
2017年5月7日

【独家】一文读懂关联分析

Han)首先对实务中的所有项集计算支持度,然后按照倒序排序,如下图中的绿表所示。然后对每条事务中的项也按照这个倒序,重新排列。例如,对T100这个事务,原来是无序的Ⅰ1,
2017年5月6日

【报名】用户行为数据的价值挖掘讲座

毕业之后,在美国工作10多年,服务于包括雅虎,微软,FICO等在数据应用走在前沿的公司,积累了丰富的数据挖掘和机器学习的实战经验,所参与的产品在金融,保险,搜索,互联网广告及零售业中有广泛的应用。
2017年5月4日

研究了数千个在线课程,我整理了一份数据科学入门课清单

Kane/Udemy):仅涵盖部分知识点。专注于统计学和机器学习,长短适宜(约9个小时),语言为Pyhton。该课程拥有3104条评论,综合评分4.5。课程价格取决于Udemy的打折力度,经常变化。
2017年5月3日

【D-News】国专利保护协会联合百度知道发布专利大数据;卫计委组建健康医疗大数据"国家队" 神州控股等13家企业签约

4月26日,2017云栖大会南京峰会上,南京市副市长黄澜和阿里巴巴集团资深副总裁、阿里云总裁胡晓明宣布,阿里巴巴集团将在南京成立江苏总部。江苏省经信委与阿里云联合启动江苏
2017年5月1日

【独家】一文读懂大数据计算框架与平台

Hive是最早出现的架构在Hadoop基础之上的大规模数据仓库,由Facebook设计并开源。Hive的基本思想是,通过定义模式信息,把HDFS中的文件组织成类似传统数据库的存储系统。Hive
2017年4月30日

【数说】更好的清华,更好的数据科学研究院

正如邱勇校长在106周年校庆致辞所说:“全校师生员工正满怀期待、充满信心,共同用扎实的工作,开创新百年发展的新格局。”清华人正践行”自强不息,厚德载物”的校训,满怀激情地去书写清华新百年的辉煌!
2017年4月29日

中国数据标准化及治理奖评选结果公布

本届中国数据标准化及治理奖的颁奖仪式将在今年的贵阳数博会上举办,时间为2017年5月26日下午。组委会已与各获奖单位及个人进行了沟通,并根据各参选单位的出席嘉宾进行了初步的筹备与安排。
2017年4月28日

中国数据标准化及治理奖评选结果公布

本届中国数据标准化及治理奖的颁奖仪式将在今年的贵阳数博会上举办,时间为2017年5月26日下午。组委会已与各获奖单位及个人进行了沟通,并根据各参选单位的出席嘉宾进行了初步的筹备与安排。
2017年4月28日

【清华大学大数据项目优秀毕业生系列报道(一)】 王斐:大数据学习助我完成行业撑杆跳

“作为一个文科生,重新捡起数学知识,开始编程学习具有很高的挑战性”,王斐坦言。因为数据的抓取和分析对编程语言有着很高的要求,这也正是文科背景的同学的短板。很多学生望而却步,担心这道无法逾越的坎儿。
2017年4月26日

【D-News】本周大数据行业创业投资新闻合辑

关于此次投资商汤,赛领资本总裁刘啸东表示:「商汤具有极强的科研创新实力和商业变现能力,在深度学习、视觉识别等方面拥有深厚的人才和技术储备,在商业化方面的领先也很明显。商汤有着与
2017年4月25日

中国数据标准化及治理奖优秀实践奖完成评审

本次评审会评委组由来自中国电子技术标准化研究院、清华大学清华-青岛数据科学研究院及清数DAMA三家机构的专家组成,包括:
2017年4月24日

数据可视化实践之美

通过提取特定人群或特定模块之间的路径数据,并使用Sunburst事件路径图进行分析,可以定位到更深层次的问题。灵活使用Sunburst路径统计图,是我们在路径分析中的一大法宝。点击link查看动图。
2017年4月23日

【D-News】大数据流通与交易技术国家程实验室正式挂牌;“云计算与大数据”重点专项2017年度第二次总体专家组会议在京召开

扎克伯格在大会上揭秘了Facebook的AR系统,同时也向外界确认公司正在开发“脑机接口”技术。同时,他代表Facebook公开了其首款VR应用Spaces,可用于该公司开发的Oculus
2017年4月23日

数据可视化实践之美

通过提取特定人群或特定模块之间的路径数据,并使用Sunburst事件路径图进行分析,可以定位到更深层次的问题。灵活使用Sunburst路径统计图,是我们在路径分析中的一大法宝。点击link查看动图。
2017年4月23日

【独家】一文读懂文字识别(OCR)

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。
2017年4月22日

【数据蒋堂】功夫都在报表外--漫谈报表性能优化

不过有一种清单列表确实是大数据报表。清单列表在金融行业经常碰到,把一段时间的交易清单列出来。其特点是数据量特别大,可能会有几千上万页,不过计算会相对简单,经常只是罗列,最多有些按页按组的汇总。
2017年4月21日

【劲爆预告】第三届清华大学大数据开放日(Big Data Day):大数据企业与同学户外交流会

在清华大学106周年校庆、清华-青岛数据科学研究院成立3周年之际,为了让校内外师生更加了解大数据,领略大数据的魅力,数据院联合校研究生院于2017年4月28日举办“第三届清华大学大数据开放日(Big
2017年4月21日

【报名】数据之上的教育研究:清华大学教育大数据论坛

“海聚工程“国家高层次人才,北京市特聘专家,2015年度中关村十大海归新星。博士就读于美国北卡罗来纳大学教堂山分校
2017年4月20日

【报名】数据之上的教育研究:清华大学教育大数据论坛

“海聚工程“国家高层次人才,北京市特聘专家,2015年度中关村十大海归新星。博士就读于美国北卡罗来纳大学教堂山分校
2017年4月20日

【独家】黄学东揭秘:微软是怎样在对话语音识别上取得媲美人的水平的?(视频+PPT)

Fellow。目前领导包括微软在美国、中国、德国、以色列的全球团队负责研发微软企业人工智能认知服务等最新人工智能产品和技术。作为微软首席语音科学家他领导的语音和对话研究团队在
2017年4月17日

【独家】一文读懂回归分析

一个软件如果能为用户提供良好的用户界面、灵活的处理方式和简明的语句或命令,就称这个软件可用性强。随着统计软件在可用性方面的不断进步,很多统计软件的语法规则简明、灵活、学用方便,这是人们非常欢迎的。
2017年4月17日

【D-News】中国移动打造华北最大数据中心 OPEC与阿联酋将推出“油气大数据项目”

Chrome目前支持Daydream、Cardboard,以及桌面端和移动端的2D视图,因此几乎所有人都可以获得这一体验。谷歌团队还升级了Rift和Vive等设备对桌面端Chrome的支持。
2017年4月16日

【独家】虞晶怡:虚拟现实与视觉(附视频)

去年虞晶怡团队推出了一套360度3D的实时实况转播技术。如果你关注过宁泽涛,我们今年给他做了一个关于奶酪的视频,利用这样一个架构在云端进行跨相机拼接,可以在手机端观看,也可以戴上耳机做360度观看。
2017年4月16日

【独家】一文读懂非关系型数据库(NoSQL)

基本可用。这里是指分布式系统在出现故障的时候,允许损失部分可用性,即保证核心功能或者当前最重要功能可用。对于用户来说,他们当前最关注的功能或者最常用的功能的可用性将会获得保证,但是其他功能会被削弱。
2017年4月15日

【数据蒋堂】非结构化数据分析是忽悠?

但现在只喊结构化数据显得不够时髦,为了吸引用户,就要把本质上的结构化数据分析说成是非结构化数据分析了。
2017年4月14日

【报名】2017中国客户管理创新论坛

赵平博士,现任清华大学经济管理学院市场营销系教授、博士生导师、中国企业研究中心主任;曾任市场营销系主任、《营销科学学报》主编和理事长、中国市场学会学术委员会主任、以及若干政府部门和企业的特聘顾问。
2017年4月13日

【邀请】遥感构建精细未来——第二届InSAR大数据高峰论坛

随着国家大数据战略的推进和大数据应用的深化,以InSAR大数据为代表的遥感大数据在基础设施健康诊断、城市治理、灾害防控、风险评估和智慧城市等领域已迎来全新发展局面,大数据精细化治理时代已经来临。
2017年4月12日

【调查】数据团队建设“全景报告”缺了你,还怎么称得上全景呢?

如果你是数据团队的一员、和数据团队一起工作,或者希望了解其他数据团队的发展现状和未来,那么恳请你花费5分钟时间点击“阅读原文”填写问卷,帮助我们完成这次调研。
2017年4月11日

【独家】吕云:虚拟现实——正在发生中的教育革命!

下一个可能颠覆的是动漫艺术行业。迪士尼的首席漫画师凯也在用这个技术,可以在空间当中根据你的想象做一些东西出来。这样的创作效率非常高,尤其在立体方面,包括雕塑和一些物件的创作,是非常方便的。
2017年4月11日

【独家】罗红:虚拟现实技术在医疗行业中的应用

本文整理自北京一拍科技有限公司创始人兼总裁罗红女士于2017年3月25日在清华大数据RONG系列论坛:大数据与VR伦理讲座上所做的题为《虚拟现实技术在医疗行业中的应用》的演讲。[
2017年4月11日

【独家】翟振明:虚拟现实技术发展与应用的伦理思考

王飞跃这次总结名人堂的时候,说人工智能发展最重要的数学就是从那本书里面来的。几个人工智能核心人物的共同点,就是都读了这部厚厚的《数学原理》,并深受启发。
2017年4月10日

【D-News】中国发布首个VR标准 谷歌为数据中心研发SDN新架构Espresso

中国发布首个VR标准;大数据产业步入政策落地期;谷歌为数据中心研发SDN新架构Espresso;Facebook与韩国政府合作,助力AR&VR企业发展。最新最全大数据行业新闻,尽在本期dnews~
2017年4月9日

【报名】“中国数据标准化及治理奖”优秀实践奖评审观众招募

随着国民经济的发展,政府及企业等组织对数据的重视程度空前高涨,在数据标准化及治理等数据基础工作上的投入越来越多,国内各方经过十多年的努力,在理论及实践上积累了不少宝贵的经验,取得了一定的成就。
2017年4月8日

【数据蒋堂】多维分析的后台性能优化手段

列存还会加大硬盘的并发压力,在总字段数不多或取用字段较多时并没有优势。对于机械硬盘,如果再使用并行手段进一步加剧并发压力,很可能导致性能不升反降的结果,对于易于并发的固态硬盘使用列存较为合适。
2017年4月7日

【特刊】近期活动大盘点

本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
2017年4月7日

智能数据驱动智慧企业的未来

第一个关键步骤是以最适合于手头业务应用的方式将相关数据导入系统。我们可以将数据分为两种类型——实时数据和非实时数据。它们往往存在于多个潜在的数据源中,包括在线和离线的,通常位于完全的数据孤岛中。
2017年4月6日

【D-News】2017中国IT领袖峰会举行 腾讯收特斯拉5%股权

BAT谈AI:马云认为机器要做的是人类做不到的事情。人们应该思考机器要有自己的思考,机器要有自己的方法。李彦宏认为,人工智能的算法还处于初级阶段,真正挑战人的认知能力还有很长时间,实际上也不可能。
2017年4月5日

【报名】思享会:大型企业数据模型应用实践

然而,随着数据融合、共享及开放的诉求越来越强烈,以及数据资产与其价值的创造越来越受到重视,作为数据基础工作的“数据标准化、数据治理、数据质量”等概念开始普及和传播、逐渐成为各界探讨的重要课题。
2017年4月3日

人工智能的挑战与机遇——微软亚洲研究院刘铁岩

除了语音和图像以外,其实人工智能在自然语言上面也取得了很大的进展。左边这张图描述了各大公司都在不断地提高各自语音机器翻译的水准和技术,右边这张图展示的是去年12月微软发布了Microsoft
2017年4月3日

清明节大数据创投特辑

是瑞士一家基于区块链技术的数字货币交易平台。通过这个平台,所有用户都可以自由兑换数字货币,使用区块链资产去兑换比特币或是以太坊,并且用户不需要以任何形式进行注册账户。近日,ShapeShift
2017年4月2日

【报名】2017 UBDC全域大数据峰会带你领略DI的力量

Intelligence即数据智能),将全景展现数据驱动下的新经济、新模式,畅想由DI数据智能引领的新一轮生产力变革,并邀请全球知名企业家分享最炙手可热的数据应用实践案例。
2017年4月1日

数据派研究部招新 | 打比赛、做项目、内容产出...等你来~

未来研究部的目标是逐步完成学术积累并进一步孕育学术氛围,通过开展下述不同层次的学术实践,为数据院积累学术力量,为社会培养大数据/人工智能相关人才。
2017年3月29日

【独家】蒋步星:慎思笃行,数据创业者的真实一面

对待IBM、Oracle这些巨头,我们尊敬但不惧怕。初期的不足而不被看好是很正常的,早期机动车在速度和舒适性上都赶不上当时的马车,但有了发动机机制后就能逐渐迭代出现代汽车而淘汰马车,。
2017年3月27日

【独家】数据助力罕见病诊疗

国内大部分医疗和科研工作者所使用的表型没有统一的标准,且表型数据大多数是自然语言,交流很不方便,后期数据挖掘也十分困难。一些数据机构因为没有汉化的HPO词语难以将自己的系统衔接临床,这一点需要突破。
2017年3月24日

【专题】清华大数据研究生教育,打造跨学科交叉复合型人才

只有这样才能更好地理解大数据的概念、掌握大数据的方法,在与专业的融合中学习和应用好大数据。将来自不同学科的学生吸纳到这个跨学科的人才培养平台上,正式清华大学“大数据硕士项目”的鲜明特色之一。
2017年3月22日

水深千尺,只见涟漪:Skymind创始人普及深度学习

“Hadoop”,解决企业建模耗时长,旧工具不兼容问题。对于那些业内高段位的选手,更可以扫描文章末尾的二维码,加入深度学习开发者讨论区,与Skymind创始人Adam
2017年3月21日

【干货】清华陆薇:释放工业大数据价值

美国制造业大量外包生产环节,比如波音公司的飞机部件是在全球多个国家制造,但是美国制造企业牢牢占据高知识产权和附加值的产品设计和服务环节,同时把控整个生态链的上下游为其服务。
2017年3月20日

【专题】清华人工智能论坛嘉宾精彩观点解读

王生进教授在活动上介绍了《脑电识别与脑机交互》。脑电信号分析是人工智能研究的一个重要部分,通过脑电识别,可以为人类探索人脑,发现感知认知机理,解明逻辑推理过程,提供有效的人工智能研究手段和技术途径。
2017年3月19日

【独家】大数据与美团外卖的精细化运营

配送团队首先报告给平台,每一个配送员的位置在什么地方,平台根据这个定位、根据订单的信息发起调度,告诉配送员去取哪个订单,然后这个配送员就可以去商户那边把订单取回来,送给消费者,这是外卖O2O的模式。
2017年3月18日

【独家干货】马宁宇:贵州大数据发展的探索与机遇

先天优势,促进数据资源集聚,给了我们无中生有的可能。先发优势,让我们走在了全国前面,引进了各界关注,给了我们加快发展的机遇。但是光有先天优势和先发优势还不够,把握机遇还得靠第三条,先行优势。
2017年3月17日

【干货】贺克斌院士:大数据与雾霾污染治理

如图所示,我们这些总排放量都聚集在东部,特别是京津冀地区。所以回顾以上的图,所有的雾霾每一次的出现京津冀都逃不了,长三角时有发生,珠三角偶尔发生。都是跟排放强度相关的,所以这就是现有基本污染的特征。
2017年3月16日

【干货】张佐:面向可持续创新的大数据伦理

对于信息学院的研究生,在价值塑造方面,除了通用的为人修养,还需要结合学生们未来要从事的职业、专业——主要是信息科技、信息产业——进行培养,让学生们在进入这个行业之前,能够意识到他所承担的社会责任。
2017年3月15日

【干货】张长水:机器学习与图像识别

我在自动化系,我的实验室叫大眼睛。过去十几年我们一直在做机器学习方面的工作,涉及机器学习中相当多的研究问课题和方向。因为做机器学习必须要考虑一些应用,所以我们做了一些应用研究,例如图像方面的应用。
2017年3月14日

【干货】郑磊:开放数据的价值与进展

第二个区别是政府信息公开最主要的目的是保证公众的知情权,更多是政治和行政上的责任,要让公众知道政府在做什么,然后参与和监督;而开放数据的主要原因是由于政府在履行行政职责的过程中采集了大量的数据。
2017年3月14日

【干货】黄蔚欣:数据、行为与建筑设计

在建筑产生和使用的过程中有两种情形的行为是比较兴趣的。一个是设计认知的行为,是指在设计师的头脑里面,一个设计是如何完成的,这个叫设计认知。对于这个方面,我将分享一个人机交互色彩设计过程中的行为研究。
2017年3月8日

【干货】蒋步星:关系代数的问题及尝试

编程序到现在仍然并不是一件轻松的活。这里我们不去谈那些由于需求不清或变动而导致的困难,那是软件工程的目标。有一些问题,完全没有歧义,你明确知道解法,使用你最熟悉的程序设计语言,但这个程序仍然不好写。
2017年3月5日

数据新闻怎么做?主题沙龙【PPT干货分享】数据新闻与数据素养

本文摘自清华大学新闻与传播学院金兼斌在缔元信数据沙龙27期上所做的《数据新闻与数据素养》的演讲。
2017年3月2日

【独家】邹昊:FinTech如何改变金融业?

最后,新兴产业的角力更易于发挥中国的优势。中国的金融科技行业处于起步阶段,和国外相比还有许多的产业基础研究与发展上的空白。但由于金融科技是新兴产业,美欧金融科技的很多进展也是近几年才研发出来。
2016年12月13日

【独家】中美创新生态比较

中国的创新在飞速的发展,或者说,现在中国已经和美国一样成为了世界创新的中心。今天谈谈,中美创新的生态圈有哪些不同?我们天使投资人,每年投资七八十个早期的创业项目,看到的是什么样的情况呢?
2016年12月12日

【干货】赵佳慧:未来•人•居

赵佳慧:大家下午好!我们目前业务线的发展规模还没有那么大,但是今天这个话题和这个机会非常难得,我们也很荣幸能有这样一个机会跟大家一起分享我们目前看待大数据和未来人居结合的角度,以及我们的尝试。
2016年12月11日

【独家】红领集团:大数据思维创造的商业奇迹

我认为,不必拘泥于是不是大数据,是不是“互联网+”,把眼界放宽,把产业链、供应链、价值链吃透,从旧有的成本分布格局、利润分配格局入手进行问题剖析和价值挖掘,把数据用起来,就有可能捕捉到新的机会。
2016年12月10日

【独家】新颖解读工业4.0:以知识创造的视角

如需转载,请在开篇显著位置注明作者和出处“转自:数据派THU(ID:DatapiTHU”,发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
2016年12月9日

【独家】影视大数据:来源、方法论与应用案例

对于电视台、媒体、视频网站来讲,他会有版权购买决策。腾讯是我们重要的合作伙伴,他的自制剧、自制综艺节目,他也是希望对商业立项的时候有一个数据支持。
2016年12月8日

波斯公主选驸马:关于算法和重大决策

说明一点是,没有任何选择方法能够保证公主一定选择到最帅的帅哥。对于任何选择方法,总存在某些出场的顺序,让公主与帅哥错过。所以,题目所问的,不是必胜的选法(因为不存在),而是概率最高的选法。
2016年12月6日

【独家】吴军:数据为王和机器智能的时代

亚瑟·莱文森讲是3.5年,因为大多数的人不是死于癌症,而是衰老问题。如果我们活的足够长,我们无一例外都是老年痴呆,将来马路上全是白痴。那他来Google是解决什么问题呢?就是靠大数据解决衰老问题。
2016年12月5日