国外公开课

CDA编译团队倾力打造,精选编译国外优质公开课视频

如今区块链技术非常流行。视频中解答了以下问题:区块链究竟是什么?工作原理是什么?解决什么问题?有什么用途?
SciShow是Youtube上热门的科普向脱口秀节目。它的内容包罗万象,在本次节目中,介绍了比特币的原理和价值所在。
欢迎收看机器学习算法导论。教程中白色噪点的部分完全是用MATLAB编写的。
谷歌云平台(GCP)提供了5个API,能够通过调用一个API访问预先训练的机器学习模型,分别是:谷歌云视觉API、云语音API、云自然语言API、云翻译API和云视频API。通过这些API,你可以专注于给应用程序添加新特征,而不是构建和训练定制模型。
机器学习的发展涉及到各个方面,从语音识别到智能回复。但是,这些系统中的“智能”实际上是如何工作的呢?还有什么主要的挑战?在本讲解中将一一解答。
谷歌云平台(GCP)提供了5个API,能够通过调用一个API访问预先训练的机器学习模型,分别是:谷歌云视觉API、云语音API、云自然语言API、云翻译API和云视频API。通过这些API,你可以专注于给应用程序添加新特征,而不是构建和训练定制模型。
Youtube数据科学领域的热门博主sentdex,经常会分享关于Python和机器学习相关的教程,这次他用画图的形式讲解了深度学习、神经网络和TensorFlow。
TensorFlow是谷歌研发的开源框架。本讲座介绍了如何使用TensorFlow创建深度学习应用程序,以及与其他Python机器学习库进行比较。

最新资讯

主要面向数据分析、机器学习、深度学习、人工智能等前沿技术话题

GitHub托管了大量的软件代码,成为了开源繁荣的注脚。它被称为全球最大同性交友网站……陪伴我们已经走过10年时间本文作者:光谱1999年上线的SourceForge,因为免费一度是世界上最受欢迎的开源软件代码托管网站。然而Google担心它一家独大,上线了自家的代码托管网站GoogleCode。2005年,Linux的缔造者LinusTorvalds对现有的代码托管工具效率不满意,便自己做了一个名叫Git的版本控制工具。Git颇具革命性,允许大量开发者同时为源代码贡献新代码,彼此间并不影响,最重要的在于它是开源的。三个来自旧金山的年轻人认为Git的潜力巨大,在2008年正式推出了GitHub,一个基于Git的代码托管网站。他们没想到,GitHub后来击败了元老SourceForge和背景强大的GoogleCode,成为了全世界最受欢迎的代码托管网站。Google的开源代码经理ChrisDiBona对GitHub给予高度评价:2008年4月10日,GitHub正式上线。今天,GitHub终于10岁了!去年5月底,GitHub完成了第1亿个pullrequest(PR合并请求)命令。截至今天,GitHub上已经拥有超过8000万个repo(代码仓库),活跃用户达到2700万人,超过150万家公司和机构进驻。由于程序员群体里缺少女性,拥有高纯度男性用户的GitHub,也被戏称为全球最大的同性交友网站……GitHubrepo按照语言划分的男女用户比例,最上面的绿色是确认的女用户(2014年数据)“10年前的今天,GitHub正式上线。最一开始,我们只有一个特别简单的目标:连接所有的开发者,让他们用Git更轻松地进行项目协作,”联合创始人ChrisWanstrath在博客里写道,“10年过去了,我们作为公司,作为平台都有了很大的变化,但GitHub存在的意义从未改变。”作为对十周年的纪念,GitHub团队并没有选择回顾公司历史,而是整理了在他们眼中过去10年间的几大里程碑事件。这很GitHub——这份光荣,其实不止属于平台自己,更属于那些为了让这个世界变得更好,通过Git、GitHub,用JS、Python和各种语言贡献代码的人们。以下,就是这些曾在计算机业界和GitHub的发展中创造历史的事件。20080403:Rails转移至GitHubRubyonRails(Rails),是一个用Ruby语言编写的开源web应用框架。它提高了开发复杂网页的效率,是计算机界最受欢迎的开源项目之一。2008年4月,Rails做出了表率,将版本控制从SVN换成了Git,并成为第一个进驻GitHub的大型开源项目。当时,GitHub还处在内测阶段,没有正式上线。GitHub本身就是用Rails写的,这件事为GitHub带来了不小的影响力。20090103:比特币诞生2009年诞生后,比特币于2010年正式开源,并托管在了GitHub上。比特币是世界上第一个去中心化的数字货币,它的诞生和开源更是引发了一场同时波及金融和科技,甚至更多行业的革命。至今,比特币项目接受了超过500名用户贡献的代码。比特币的底层技术“区块链”被广泛视为下一个革命性的计算机技术,比特币项目已经被fork(代码库复制)逾1.8万次,大量的区块链、数字货币项目在GitHub上开源,其中很多都来自比特币源代码。20090521:Node.js发布你可能听说过网络开发分前端后端之说,前端管网页呈现,后端管数据输出。然而这两者不是孤立的,前端开发也会涉及到确保后端数据能够正确呈现出来,所以大量采用JavaScript(JS)语言的前端人士需要学习后端PHP、Ruby之类的后端语言,很麻烦。Node.js的主要意义是让前端用JS即可完成前端需要的大量开发任务,开发适配多种操作系统的复杂服务器端应用。简单来说,它同时把前端和后端工程师从各自不熟悉的领域内解放了出来。2009年5月底,Node.js正式在GitHub上发布,收到了不少前端和后端人士的追捧,被认为是未来趋势。2014年,Node.js主要贡献者对这个项目的官方管理公司不满,于是自立门户,fork原版代码做了一个社区驱动而不是公司化运营的替代品,名叫io.js。这个项目一度比Node.js更受欢迎,但后来Node.js在开源治理上有了改善,两个项目再次合并。在整个过程中,GitHub的开放机制确保了社区拥有自主权力,不必服从于开源项目的所有者。在必要的时候,fork是一种力量,也是一种态度。20101126:RailsGirls第一次线下聚会2010年,一群用Rails做开发的女程序员在芬兰赫尔辛基举办了第一次线下聚会。三年后,他们专为女性和LGBTQ人士开设了一个夏令营RailsGirlsSummerofCode。这个开源培训项目帮助开源社区改善了性别多样性,为解决女性在科技行业内受到的结构性歧视做出了贡献。20110101:TravisCI持续集成的第一个PR持续集成(CI)从像GitHub这样的代码库里按照频率提取最新的代码,自动构建项目并进行测试。持续集成并不能消除bug,而是让它们非常容易发现和改正。比如下面这个buildpassing就是持续集成工具显示的,它的大概意思是当前版本测试通过,没有出现bug。而TravisCI是最受欢迎的,开源的持续集成工具。2011年元旦那天,它完成了第一个PR。TravisCI和GitHub的整合,让代码投入生产环境的整个过程变得更高效了20120101:JS成为GitHub第一大语言最一开始是一种网页脚本语言,JS和HTML、CSS并列网页开发三大语言。被JS坑过的程序员经常讽刺它是一种不完整的语言,有一个很古老的段子:写C的看不起写C++的,写C++的看不写Java的,写Java的看不起写JS的,写JS的看不起美工,周末大家都在加班,美工带着女朋友旅游去了。然而编程语言的鄙视链,总是和受欢迎程度相反。从2012年开始,JS超越了Ruby、Java和Python,成为了GitHub上最受欢迎的语言,直至今天仍霸占王座。2013:GitHub用户破百万开源社区的发展使GitHub获得了惊人的增速,在用户数和repo数上实现了两座里程碑:2013年,用户数突破了100万;同年12月,GitHub的repo总数超过了1000万,其中超过一半是当年创建的,仅11月就增加了100万个。别光看数字多,这一年里增加的repo质量也很不错:白宫的ProjectOpenData、Docker等等。亚马逊AWS、Facebook、Google、微软、Twitter、Netflix等知名公司也上传了自家的项目。20140609:Docker1.0发布被视为革命性技术的开源容器引擎Docker,2013年在GitHub上创建了repo,一年时间里下载量超过275万份。2014年,Docker1.0终于正式发布了。像Docker和Kubernetes(K8S)这样的开源项目开启了一场容器化运动。开发、投产和运维的难度降低,小型公司不再需要花费精力在基础架构上,可以更专注于核心业务开发。​20140721:DjangoGirls第一次线下聚会交友平台不是开玩笑……GitHub的程序员社交特性使得很多开发者通过它实现了线下聚会。它让程序员们更容易结识彼此,而这对于女生尤为重要。2014年德国柏林,Django女性开发者第一次在线下举办聚会,她们的组织仍在为改善性别多样性而努力着。20140723:微软开源.NET虽然随着移动互联网的快速发展,没跟上时代的.NET已经走向衰落,微软向开源社区示好,仍然被视为开源业界的一个历史性事件。微软创立了一个开源行动,然后把所有的开源代码包括.NET都在GitHub上开源。数千名工程师也让微软成为了GitHub上最为活跃的公司。.NET的开源带起了一波节奏,随后越来越多的大公司迁移到了GitHub,放弃了自己的代码托管网站或过时的代码库。​2015:虚幻引擎4免费和大量游戏相关开源2015年3月2日,虚幻引擎4完全免费了。EpicGames放出了百分之百的C++原始代码,虽然独立开发者想要开发AAA级别大作还是需要资金,但至少现在他们手上的虚幻引擎4和大厂手里的没有任何区别。EpicGames对社区的恩惠得到了报答。在虚幻引擎最近一次4.19版本发布,包含了128个来自社区的贡献。除了虚幻引擎,还有不少游戏引擎、库和游戏代码在2015年上了GitHub,比如《毁灭战士》和《波斯王子》。最有趣的应该是2048,它的开源带来了上百款类似的消除游戏……总的来说是件好事。20150922:GitHubClassroom发布除了工业界,学术界,包括大学和高中也可以利用GitHub进行教育了。GitHubClassroom改进了编程课代码管理、分发和作业收集。看上去是在做慈善,其实此举很聪明:GitHub普及要从娃娃抓起,尽管它已经碾压了其它一切竞争对手。20151203:苹果开源Swift苹果的新编程语言Swift具有函数式编程和面向对象编程的诸多特性,也兼容苹果平台之前的开发语言C、Objective-C,也是一个强类型语言而非脚本语言,也很注重安全性……对于苹果开发者而言,Swift是件大好事,而有什么比Swift开源更让人大快人心呢?如果说微软带起了一波节奏,那么苹果Swift编程语言的开源才真的让其它科技公司都信服。老大哥都开源了,我们还有什么理由不跟随呢?20160709:阿波罗11号代码开源60年代的程序员也有幽默感,不信就去GitHub上看看阿波罗11号的代码。比如这个:临时代码一直用到了月球上。你可能会感兴趣,50年前的程序员和代码是什么样的?隆重向你介绍阿波罗11号计算机系统工程师,MIT的MargaretHamilton:阿波罗11号代码开源地址:https://github.com/chrislgarry/Apollo-112017:Python进驻GitHubPython因数据科学和深度学习的爆发重新开始受到关注,在2015年它成为了GitHub上第三受欢迎的语言,2017年升至第二。当各大公司和人工智能专家开始倡导“人工智能普及化”(democratizeAI)时,Python也终于来到了GitHub。这使得Python在GitHub上的流行越发势不可挡,使用Python语言的新repo数量,环比增长达到了70%。20170215:TensorFlow1.0发布革命性的深度学习库,就连非专业人士都听说过TF——主要可能因为AlphaGo击败了李世乭和柯洁。2016年,TensorFlow成为了整个GitHub上fork最多的项目。除了TF,Caffe2、DeepSpeech等大量深度学习工具也都相继开源。使用这些工具,研究者可以创建面向不同领域的深度学习模型,包括并不限于电子游戏、弈类游戏、音乐、绘画、医疗、金融等等,带来新的技术范式和商业模式,显著改善人们的生活。20180410:十周年,再出发在2017年,用户提交了超过2.9万亿条代码,GitHub也合并的PR终于突破了1亿。2018年,GitHub用户总量达到2700万,项目总数超过了8000万。人工智能、区块链、量子计算……许多全新的计算机技术和全新的计算范式已经或正在赶来,代码和数据在某种程度上已经取代了石油,成为了人类的新血液。在这样的大背景下,GitHub太重要了,但它也面临着和10年前SourceForge等前辈相同的命运:全世界的开源代码都在这里,过度的中心化会否增加风险?在享受GitHub带来便利的同时,越来越多人都会多一个心眼——代码上传之后,本地还是不要rm留个底吧。最后,给一些GitHub整理的资料。首先,按照PR统计的受欢迎语言,JS、Python、Java、Ruby、PHP:热门关键字,机器学习、游戏、iOS、API、博客、网站、深度学习、Ardiono:fork最多的项目,TF、Bootstrap、gitignore;贡献者最多的项目,VSCode、ReactNative、NPM:review最多的项目,DefinitelyTyped、K8S、Homebrew;讨论最多的repo,K8S、Origin、CMSSW注册用户最多的国家:中国排第二

作者:CDA管理员

2018年3月21日《教育部关于公布2017年度普通高等学校本科专业备案和审批结果的通知》,结果显示2017年度有247所高校获批“数据科学与大数据技术”专业。本次申报高校分布于29个省份,其中工学182所,理学68所。各省获批的高校数量如下图所示。序号省份地区学校数量1安徽省142北京市143福建省104甘肃省55广东省136广西壮族自治区67贵州省88海南省39河北省1310河南省2111黑龙江省512湖北省1113湖南省414吉林省715江苏省1216江西省717辽宁省818内蒙古自治区1019宁夏回族自治区220山东省1321山西省1222陕西省823上海市624四川省625天津市326新疆维吾尔自治区127云南省928浙江省929重庆市8数据科学与大数据技术专业(专业代码:080910T)发源于北京大学。北京大学、对外经济贸易大学和中南大学为首批获批高校。截至目前,我国共计282所高校成功申报此专业。根据《教育部关于公布2017年度普通高等学校本科专业备案和审批结果的通知》,第三批新增高校详细名单如下:2017年新增“数据科学与大数据技术”专业学校名单序号学校学位授予门类1中国人民大学理学(16年已申报工学专业)2北京化工大学工学3中国农业大学理学4北京师范大学理学5中国传媒大学工学6南开大学理学7同济大学工学8上海财经大学工学/理学9中国矿业大学工学10厦门大学工学/理学11中国石油大学(北京)工学12中国地质大学(武汉)工学13武汉理工大学工学14华中农业大学工学15华中师范大学理学16中南财经政法大学理学17华南理工大学工学18西南财经大学理学19兰州大学工学20哈尔滨工业大学工学21西北工业大学工学22中央民族大学工学23北方民族大学工学24大连海事大学工学25防灾科技学院工学26北方工业大学工学27北京石油化工学院工学28首都经济贸易大学理学29北京城市学院工学30北京吉利学院工学31天津财经大学理学32天津财经大学珠江学院工学33河北地质大学工学34河北工程大学工学35北华航天工业学院工学36河北农业大学工学37河北北方学院理学38河北民族师范学院工学39保定学院工学40河北经贸大学工学41河北外国语学院工学42河北大学工商学院理学43燕京理工学院理学44河北工程技术学院理学45河北东方学院理学46山西大学理学47太原理工大学工学48山西农业大学工学49忻州师范学院工学50太原师范学院工学51长治学院工学52运城学院工学53山西财经大学工学54山西工商学院工学55山西农业大学信息学院工学56太原工业学院理学57山西工程技术学院工学58内蒙古大学工学59内蒙古工业大学工学60内蒙古医科大学理学61内蒙古师范大学工学62赤峰学院理学63集宁师范学院工学64内蒙古民族大学理学65内蒙古财经大学工学66呼和浩特民族学院工学67鄂尔多斯应用技术学院工学68辽宁大学工学69沈阳大学工学70沈阳工业大学工学71辽宁科技学院工学72沈阳工程学院工学73沈阳师范大学工学74大连东软信息学院工学75长春大学工学76吉林师范大学理学77吉林工程技术师范学院工学78吉林财经大学理学79长春工业大学人文信息学院工学80吉林动画学院工学81吉林师范大学博达学院理学82黑龙江大学工学83牡丹江师范学院理学84哈尔滨华德学院工学85黑龙江工业学院工学86上海电机学院工学87上海对外经贸大学理学88上海体育学院理学89上海健康医学院工学90常熟理工学院工学91南京信息工程大学理学92南京工程学院工学93淮阴工学院工学94南通大学工学95江苏师范大学理学96南京审计大学工学97金陵科技学院工学98南京理工大学泰州科技学院工学99南京师范大学中北学院理学100江苏师范大学科文学院工学101昆山杜克大学理学102浙江工业大学工学103浙江科技学院理学104杭州师范大学理学105温州大学工学106浙江万里学院工学107浙江工商大学理学108嘉兴学院工学109浙江大学宁波理工学院工学110上海财经大学浙江学院理学111安徽理工大学工学112安徽工程大学工学113阜阳师范学院工学114池州学院工学115滁州学院工学116安徽科技学院工学117淮北师范大学工学118安庆师范大学工学119安徽财经大学理学120铜陵学院理学121安徽三联学院工学122安徽新华学院工学123安徽信息工程学院工学124合肥师范学院工学125福州大学工学126集美大学工学127闽江学院工学128厦门理工学院工学129厦门华厦学院工学130闽南理工学院工学131福建江夏学院理学132阳光学院工学133集美大学诚毅学院工学134南昌大学工学135新余学院工学136南昌航空大学工学137江西师范大学工学138上饶师范学院工学139江西财经大学理学140南昌理工学院理学141山东交通学院工学142齐鲁工业大学工学143山东农业大学工学144山东中医药大学工学145曲阜师范大学工学146泰山学院理学147聊城大学理学148济宁学院工学149枣庄学院理学150德州学院工学

作者:CDA管理员

谈到数据科学家、数据工程师、软件工程师和统计学家之间的区别,这可能会令人感到困惑。虽然都与数据有关,但他们的工作内容却存在着根本性差异。数据的发展及其在整个行业的应用是显而易见的。特别是最近几年,我们可以看到处理和管理数据的角色中有明显的分工。数据科学无疑是一个正在发展的领域。由于收集和处理数据会带来许多复杂的问题,该领域现在细分为许多不同的职位和角色。如今数据科学家会具体分为数据工程师、数据统计学家和软件工程师等。但除了名称上的不同之外,有多少人真正了解他们所从事工作的区别呢?在本文中我将解读数据行业中这些不同的角色,当中我主要列举出以下四个角色予以区分。统计学家统计学家位于整个数据处理过程的最前沿,运用统计理论解决许多与众多行业有关的实际问题。他们能够独立决定哪些查找和收集数据的方法是可行的。统计学家通过有意义的方法来部署数据收集,比如设计调查、问卷调查、实验等方法。他们对数据进行分析和解释,之后将得出的分析见解提供给上级。统计学家需要具备分析和解读数据的能力,并用简单易懂的方式解读复杂的概念。统计学家通过研究得出的数字,并将这些数字应用到现实生活中。软件工程师软件工程师是数据分析过程中的重要组成部分,负责构建系统和应用程序。软件工程师的工作涉及开发测试以及审查系统和应用。他们负责创建最终会产生数据的产品。软件工程是本文提到的四种角色中最老的一种,在数据繁荣发展之前他们就已成为重要的一部分。软件工程师负责开发前端和后端系统,从而帮助收集和处理数据。这些网络、移动应用通过完美的软件设计实现操作系统的发展。由软件工程师开发应用生成的数据之后会交给数据工程师和数据科学家。数据工程师数据工程师致力于开发、构建、测试和维护体系结构,比如大型处理系统或数据库。数据工程师和数据科学家经常混淆的主要区别在于,数据科学家主要负责清洗、组织和查找大数据。在上文你可能会注意到“清洗”这个词,通过这个词能帮助你更好地理解数据工程师和数据科学家之间的区别。总体来说,这两类专家所付出的努力都是为了用简单易用的格式获取数据,但两者涉及的技术和责任是不同的。数据工程师负责处理涉及众多机器、人员或仪器错误的原始数据。数据可能包含可疑记录,甚至无法验证。这些数据不仅是非格式化的,而且还包含适用于特定系统的代码。这时就需要数据工程师的介入。他们不仅提供了提高数据效率、质量和可靠性的方法和技术,还需要实施这些方法。为了处理这种复杂情况,他们需要使用大量工具并掌握各种语言。数据工程师要确保工作架构对于数据科学家是可行的。完成了初始流程后,数据工程师需要将数据交给数据科学家团队进行进一步分析处理。简单来说,数据工程师通过服务器确保数据流的不间断传输,他们主要负责数据所需的架构。数据科学家我们现在已经知道,数据科学家将获得已经由数据工程师处理过的数据。数据已经过清洗和处理,数据科学家可以用这些数据进行分析,以及预测建模。为了构建这些模型,数据科学家需要进行广泛的研究,并从外部和内部数据源积累大量数据,以满足所有业务需求。一旦数据科学家完成最初的分析阶段,他们必须确保所做的工作是自动化的,所有的分析见解会提供给相关人员。确实值得注意的是,数据科学家和数据工程师所需的技能实际上有点类似。但是这两者在行业中区别逐渐变得明显。数据科学家需要了解与统计数据、机器学习和数学相关的知识,以确保能够构建准确的预测模型。此外,数据科学家还需要了解关于分布式计算的内容。通过分布式计算,数据科学家将能够获得工程团队处理的数据。数据科学家还需负责将分析结果汇报给公司上级,因此也需要掌握可视化相关内容。数据科学家利用其分析能力,从输入机器的数据中得出有意义的分析结论。数据领域是正在不断发展,当中涵盖了超过我们想象的可能性。

作者:CDA管理员

本文首发于微信公众号:新金融见闻。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。拥有超过六位数的比特币,从一个“疯狂”购入的买方,到自己募资建立区块链投资基金,成为投资者,在2、3年时间里投出7个独角兽,自己做出1个独角兽。李笑来的背后是一部“比特币首富”成长史。在投资比特币之前,他的身份是:前新东方英语教师、畅销书作者、知识大咖。在他眼中,比特币不只是数字货币,这是一个真实的世界。疯狂生长的加密数字货币,正在从边缘进入主流。最近比特币价格一度突破3000美元,这是历史新高,包括比特币、莱特币、以太币在内的数字货币,市值已经超过1000亿美金,超过300万人正在积极挖掘、积累数字货币。从全球来看,美国商品期货委员会将比特币归类为商品,美国各州相继推出监管法规;德国政府支持比特币合法化,但要对交易正常征税;英国承认比特币作为一种货币存在;俄罗斯政府即将把比特币纳为合法金融工具。在国内,从早期的买币卖币、挖矿到现在的ICO(加密代币众筹)、风投涌入、技术创业,比特币背后的区块链技术,开始从各方面爆发,逐渐形成产业链,越来越多的从业者在其中寻找机会。1、一个快速生长的产业链早期李笑来也挖过矿,不过没赚什么钱,于是去做投资。其实挖矿也是一门生意,简单说就是购买矿机和电力,挖矿获得比特币,卖给市场获得利润利,参与的矿工们通过贡献算力,获得利益。随着比特币价格的高涨,出现了越来越多的矿工、矿机和矿场,每一笔比特币交易中都需要付出一笔矿工费,折合成人民币大概几十元。现在,越来越多的人从事挖矿工作,这些矿机集中起来,便成为矿场,为其他矿工提供托管服务。在中国的四川、贵州、内蒙,都有大规模的比特币矿场。因为电费便宜,规模化作业,这些矿场不断向市场输出新鲜出炉的各种币。如果把挖矿发币作为一个生意的话,这基本上是一个有稳定现金流的事情,每一代矿机买到手基本上都可以赚钱。随着比特币价格的上涨,挖矿的利润就还不错。但比特币价格的上涨幅度远远超过矿机的利润,币价一直在涨,算力也要涨。如果一个从业者卖了一些币去买回来一台矿机,那么这个矿机基本上是挖不回来比特币上涨的利润的。比特币挖矿所消耗的电能早已超过全国用电量的万分之一。越来越多传统行业的人也开始参与这个新兴事业,无论是资金投入还是人力投入。比特币从矿场挖出来后,人们在交易平台进行交易,买入卖出的比特币,是新一轮造富运动的原材料。2、首富的造富历程在场外市场赚钱,常年做买方,而不是短线炒币,因为从二级市场的经验来看,短线操作总是会买错卖错。这是李笑来的经验。2011年,作为科技新闻关注者,他在推特上看到了比特币的信息,一番研究之后,他发现:比特币,本质上是一个去中心化的银行,核心是账目公开,这意味着世界上的一个重要组织,正在被技术改变。他觉得这个机制是可行的。他开始买卖比特币,也曾尝试过挖矿,但效率不高。刚开始入手时,比特币经历了长时间的价格下降过程,在这期间,他大量吸入比特币。从买卖比特币到区块链创业,是一个自然的过程。这些年,李笑来做过一些关于创业的演讲,也曾把斯坦福YC创业公开课的学习笔记发布在个人主页上,受到广大网友欢迎;写过一些创销书,从早年的托福单词书到《和时间做朋友》这类畅销书,他在年轻人中积累了很多粉丝。比特币用技术颠覆了银行,创造了一种新的商业模式,李笑来想基于这一原理做一个新产品,2013年他锁定了版权领域,想针对内容出版物的去中心化发行做应用。当时他把这个想法跟一家VC讲了,不过对方没投,于是他自己募了一个两千万人民币左右的基金。在投资过程中,他看到了一个叫steem.io的平台,这家公司实现了他的想法,2015年底他参与投资这家平台,目前市值5亿美金。“我在2、3年时间里投出7个独角兽,自己做出1个独角兽,接下来我准备发起一个ICO项目Press.one,这是steem.io的升级版。”李笑来告诉全天候科技,现在他组建了一个团队,用自有资金进行投资,关注区块链的创业项目。他口中的ICO目前正在大热,全天候科技此前发表文章《别只盯着比特币!“野蛮生长”的ICO江湖:2年30倍只是寻常》,还原了一个通过ICO实现财务自由的故事。ICO是一种公开发行的行为,发行标的物由证券变成了数字加密货币。一些区块链创业公司通过股权众筹的形式,获得自己的启动资金,给投资者们相应的股权回报,这些股权在区块链上会显示为一种代币。经过私募、ICO等过程,代币会在交易平台流通,参与者们在几天到几个月的时间内,可以交易套现。传统的股权众筹很难让投资者随意退出,ICO解决了一级市场的融资和资金流通问题,基本上代币项目发行几天后,就可以在市场自由交易,实现流动性溢价。目前区块链创业项目通过ICO获得的资金,已经超越了传统VC机构。因为热钱多,行业目前鱼龙混杂,李笑来的建议是:每个投资者应该有自己的分辨价值和投资原则,这个市场充满了投机主义,非常浮躁,如果投资者只是听别人的判断,不会自己判断,那么赚了的钱,迟早有一天也会输回去的。3、圈内一周,圈外一年在大部分普通投资者看来,ICO最具诱惑的是高回报率。初夏的夜晚,上海徐家汇(002561,股吧)的一个花园别墅里,云币网创始人老猫(化名)正在举行一个小型聚会,给投资者们介绍ICO,云币网是一个交易平台,比特币、以太币,以及各种ICO平台发行的代币,都可以在此交易。老猫大学毕业之后在国土局工作了几年,因为不想过一眼看穿人生的生活,辞职出来,做过商业地产、生产型企业、电商,13年开始接触比特币,第一桶金来自于比特币场外交易,在交易所之外进行买卖,在3个月时间,获得了70个比特币,建立了云币网。他身边聚集了很多通过ICO造富的普通人,他说:“从十来万起家,获得百万回报,太常见了,在我看来,最重要的是独立自主的判断能力,可能早期参与的人有信息优势,得到消息就能赚一票,但是这个行业的时间密度很大,圈里的一周,相当于人世间的一年,知识更新迭代很快,我们最终要形成自己的判断。”Hcash(超级现金)基金会成员RyanXu告诉全天候科技:“从ICO中募集的资金,主要用于项目的开发和推广,后续会有专业的审计公司来协助基金会的财物管理。如果ICO没有达到预期融资额,就全额退币,数字货币的保管目前存在一些安全隐患,需要比较专业的IT知识。”Ryan正在操作一轮ICO项目,在他看来,目前市场财富效应非常明显,有过热的趋势,参与ICO的投资者一定要注意风险。当然,ICO也有亏损额投资者,可能一些项目开盘就破发。同时数字货币交易是7/24全年无休的,没有涨跌停限制。此外还有TheDAO,2016年5月开始众筹,这是一个完全由计算机代码控制运作的类似公司的实体,这在人类历史上还是首次。当时共筹集1200多万个ETH。但是最终因受到黑客攻击,再到争论中软硬分叉,最后以解散退回以太币而告终。通过ICO孵化优质的区块链项目,行业基础已经和几年前不一样了。“很多以前火爆的产品,现在都飞快老去,比如莱特币的涨幅,和比特币、以太币,以及新兴的ICO代币,根本不能比,市场不断有更新的、更有投资价值的事物出现。在老项目上,很难孵化出有价值的产品,所以我们需要快速追随新技术,比如最近ICO的量子链,解决了一些平台问题,是更有前景的产品。”老猫告诉全天候科技。在他看来,这本质是一个博弈论的事情,一个产品的最终价值、何时买入、何时卖出,其中也会有囚徒困境、纳什均衡。4、传统行业大举进入越来越多区块链相关的创业项目正在涌现。不只是李笑来这样的个人参与者,还有传统行业龙头参与者也瞄准了这个方向,VC基金不断给予资金扶持,以及建立自己的区块链产业。2015年万向成立了区块链实验室,设立5000万美元分布式资本基金投资区块链创业公司,2016年又相继成立了万向区块链商业创新咨询服务、万云BaaS平台、服务于区块链初创团队的万向新链加速器。2017年初,万向控股正式成立了区块链股份公司,注册资本1亿元。最近万向在杭州萧山的创新聚能城,开始面向全球开展区块链项目招募,希望建设开放式创新生态。万向控股有限公司首席创新官王允臻告诉全天候科技:万向希望结合云计算、大数据、人工智能等前沿科技,打造世界第一个建立在区块链上的新型智慧城市。王允臻曾担任IBM大中华区创新事业部总经理,在他看来,区块链技术,本质上解决了人工智能和大数据在被采用当中所面临的很多挑战,把人工智能和大数据释放到人类世界,把它们社会化。“区块链可以管理人工智能和人类世界的交互,它提供了一个方式,让数据和数据之间完成互联互通,实现智能检索,同时它并不需要原始数据,不需要数据备份和转移,这解决了企业之间、甚至国家与国家的问题。”他说。传统企业的加入,加速了区块链的发展,万向也在为下一个技术风口做准备。而层出不穷的区块链造富故事背后,是一套套独立的判断体系。“这就像一个镜像世界,生活和投资是反的,是不兼容的,生活要热情和努力,投资需要思考和等待,有人会在等待的时候,去读书、旅游、陪家人、写书写博客,很忙的投资者,可能不是最勤奋思考的。”李笑来说。风口之后,还会有更多新风口,机会一直都有,下一个首富,还在不断涌现。

作者:CDA管理员

TensorFlow是谷歌研发的开源框架。本讲座介绍了如何使用TensorFlow创建深度学习应用程序,以及与其他Python机器学习库进行比较。我叫IanLewis,我是谷歌云平台团队的开发者大使(DeveloperAdvocate)。来自日本东京,我在东京居住了大约10年。如果你们有任何问题,可以关注一下我的Twitter账号@IanMLewis。下面我将说明一下PyConJP(PyCon大会:Python语言社群全球性的盛会)。PyConJP是日本的PyCon大会。我们从2011年就开始做PyConJP,有意思的是PyConJP实际上始于2010年的PyCon新加坡。当时我和PyConJP其他的创始人相遇在这个会议。之后我们聚在一起,觉得在日本也需要类似的会议,所以就有了PyConJP。一开始还是一个小型的PyCon,六个月后在2011年我们做了一场真正像样的PyCon。所以如果你有兴趣的话,可以在PyConJP注册报名,和我们一起交流。关于机器学习介绍一下今天的主题,深度学习。我将会介绍一下深度学习的背景,谈一谈深度学习是什么。你们当中有多少人了解机器学习科学家,以及数据科学家?好的,很多人都知道。如果不了解的话,可能会觉得这个讲座有点无聊。希望在我讲TensorFlow时,你们能够有所收获。深度学习是特定的一种机器学习,特定的神经网络。当中的深度部分来自深度神经网络。神经网络指的是取输入到网络中,输入连接到节点,当中包括激活函数。这些将用于输入,之后输入被导出,作为神经网络的输出。我们用一张猫的图片当例子。输入就是图片的像素,经过神经网络得到输出。比如分类,告诉我们这是猫还是狗等等。这些相互连接并传递内容的被称为张量(tensor)。这里介绍一下背景,这些神经网络擅长什么?神经网络擅长两类主要问题,一种是分类问题。比如这是我的输入属于哪个类别。这张照片是狗还是猫还是人类等等,因此它擅长添加标签或者分类等等。另一种是回归,回归是构建数学函数描述你手里的数据。所以你得到很多类型的输出。比起回归,我将多讲讲分类问题。想象你们有一些分类问题,假设你有一些数据。比如图中的蓝色和橘色的数据。可以认为这些是人的身高比上体重,蓝色和橘色的点分别是成人和小孩的分组。你想构建网络或程序,能够通过人的身高体重来判断是成人还是孩子。这是一个很容易解决的问题,你可以在两者之间画一条线就行了。但是这是例子可以通过神经网络解决。假设你有更复杂的问题比如像这个,输入数据不够清晰。那你该使用哪种函数或者分类方法区分这些数据。在这个例子里如果你有一个非常简单的神经网络,没有办法收敛(converge)。无法解决区分这两类数据的问题。所以为了解决这个问题,你需要开发一个更复杂的神经网络深度更深。你可以添加中间这些隐藏层,可以让你利用神经网络进行更复杂的识别和分类。根据我怎么构建,这个可能收敛或者不能。但为了解决这类问题,需要一个更复杂的神经网络。那么神经网络的核心有什么?核心是一个大型函数,输入一个张量,输出另一个张量。中间步骤在张量进行操作,从而生成输出。这类问题就相当于,就像有多少人了解矩阵乘法,这个是高中数学知识。你会对这些张量进行这类操作,通过乘以权重和添加偏差等等。就像流水线一样,为了得到输出一遍一遍地重复。但进行乘法要用到的中间权重。实际上构成了你的神经网络。介绍下TensorFlow名字的由来。TensorFlow指张量(tensor)如何流过(flow)神经网络。但是张量是什么?你们都很熟悉矩阵乘法或矩阵,比如向量或者简单的数组。你将如何把它在编程语言中执行。因此你有许多值组成的数组。矩阵可能是向量的二维或三维版本,你可能在编程语言中有类似这样的三维矩阵。张量实质上是任意类型的矩阵,所以它是任意维数的。因此你有由任意数量组成的数组在你的应用中作为数组执行,这就是张量。只要维数匹配,你就可以在张量上进行矩阵乘法。当实际执行时,神经网络时完全连接的。在输出张量上,每个输入值连接输出值。这意味着,每个连接都有相应的权重。你所做的就是进行加法或乘法。把输入带入神经网络,后面加上一些偏差。这个例子很简单。加上偏差,得到输出向量。比如这里有三个输出值,分别代表三个不同类别。比如对于输入图像,分为猫、狗、人。输出则是百分比或者输出值。显示输入图像与特定分类的匹配度。这个特定值的数值不会太友好,它只是一个数字,代表一个特定的值。反映你手上的图片多大程度上是人狗,还是猫。对这类神经网络,最后你通常会需要增加softmax函数。softmax的作用是选出最大值,或者对所有数据进行标准化。从而得到的输出值在0到1之间。给出一个百分比,说明图像是猫、狗还是人。假设得出一张我的图片是人的可能性为85%,似乎有点低。但你能懂当中的意思。人工神经网络很厉害的一点是,一开始你不需要太了解数据。你可以开始用数据训练模型,然后使用反向传播来继续训练模型。更新权重和偏差,从而提高模型的性能。这正是由我刚才提到的反向传播来完成的,只需为神经网络提供损失函数(lossfunction)或者代价函数(costfunction)。计算期望值和神经网络的实际值之间的差值。我的图片应该是人,那么期望值应该是百分之百,表示这个图片上是人。而人工神经网络可能得出图片是人的概率为85%,使用代价函数得到15%的差值。用这个值更新神经网络的权重和偏差,尽可能让实际值接近期望值。反复迭代,该过程最终会得出最优的权重和偏差。整个过程需要使用一些输入数据。比如这是一张图片,这是对应的标签,或者模型应该得到的正确输出值。以上是关于神经网络的一些背景知识。突破性进展我花了一半时间为大家介绍这些内容。为什么要讲这些内容?无外乎是机器学习领域取得的众多突破性进展。接下来的问题是如何训练模型,如何确定哪些值是预期得到的。因此你需要一些已经匹配的训练数据,期望值和数据相匹配。我们为什么要讨论机器学习?机器学习为什么成了最近的热词?因为机器学习领域出现了众多的突破性进展,让我们能利用它解决实际问题。直到最近,我们能够用机器学习解决一些特定领域的问题,以辅助我们人类完成一些事情。然而我们很难把它做成产品,让它变得容易上手、便于使用。这是我们在谷歌使用的Inception模型,用于训练图像以及给图像匹配标签。接下来我详细介绍一下它的背景。这是深度神经网络。我之前提到的神经网络具有矩阵乘法,但类似这样的深度神经网络,加上"深度(deep)"的关键字或者深度方面。设想每个网络,采用诸如此类的矩阵乘法对输入数据进行操作。比如输入是一张1M大小的图片,设想其中每个都有一个转换为张量的图片。一张1M大小的图片可能包含成千上万个像素点。它们构成张量中数以千计的维度。接下来你需要反复迭代,即对张量值进行数千次乘法运算。不断迭代,整个运行一遍。能够想象这是一个庞大的组合问题。为了训练模型需要完成多少计算,假设一张图片跑一次,而你现在有数以百万计的训练图像。你需要对这些图片进行训练,需要成千上万甚至上百万次,不难想象这是一个超大规模的问题。我们研究发现对这类深度神经网络而言,结构越复杂,层数越多,模型预测性能越好。因此对于大量的输入,如果采用一个大型的深度神经网络,那么同样的训练集可以获得更多的值。但问题是深度神经网络需要大量的计算。为此人们通常构建大型的矩阵,或者有大量GPU的机器用来训练模型。通常需要数小时数天或数周来训练一个模型。仅为了运行一个测试,确保特定的模型或者特定的神经网络能够发挥性能。研究人员需要反复操作,只为获得一个可用的模型。一些研究人员开始利用超级计算机进行训练,目的是加快速度。然而这对大多数人是不可能的。你需要提前租用超级计算机。对于没有超级计算机来处理这类机器学习模型的人,他们实际上利用深度神经网络。在谷歌,我们拥有大量的计算机设备。虽然我们没有超级计算机,但我们有许多计算机。我们另辟蹊径,但是我们通过在谷歌利用机器学习取得了众多重大突破。这些是我们研发的产品。你如果熟悉谷歌图片,可以在你的相册簿批量添加一组图片,然后通过关键词搜索你想要的图片。例如"雕像""婚礼"任何关键词,系统将搜索到与你输入的关键词或标签相匹配的图片。你不需要提前标记这些图片,也不需要教它这些图片是什么。根据之前训练过的模型它已经知道了。这很擅长开发产品和现实中的应用。另外一件我们正在做的是识别图片里的文字。我们有很多街景数据或街景图片。我们想要获得现实中商铺的名字等。因此我们需要通过图片,从图片中得出文本。从而得到索引,弄清楚这些商铺的位置。我们在致力于解决这类问题。你可能听过AlphaGo,这是一个运用机器学习神经网络的项目。它会下围棋,而且听说下得很不错。在Google中机器学习的应用越来越多。这是最近的现象,可以注意到这张图里。在2014年之前Google中应用机器学习项目的数量有着轻微的增长,但是2014年之后就出现了飞速的增长。说明了机器学习近年来发展有多迅速。这是谷歌中的一个项目,称为谷歌大脑。用于构建这类神经网络。我们的方式是,通过将神经网络的问题分配到很多机器上,并同时在很多机器上进行训练和预测。这让我们能够利用Inception模型,在使用ImageNet时能够提升40倍的速度。正如之前展示的图,ImageNet是非常著名的数据集,用于机器学习和训练。同时我们还用RankBrain对搜索结果进行排序的机器学习模型。我们用约50到500个机器节点,来训练这类模型。TensorFlow接下来我们来讲TensorFlow。TensorFlow是谷歌研发的库,用于构建这类机器学习模型。TensorFlow是开源的库,使用Python。同时是用来构建神经网络的通用机器学习库。去年11月我们对它进行了开源。现在已经被用于许多机器学习项目。TensorFlow的名字源于我之前提过的,即让张量(tensor)在管道中流动(flow)。从而有张量的数据流通过神经网络。这个思路来自于为这些张量绘制的流程图。它有一些很酷的特征,比如说能够灵活直观地构建图像框架,支持线程、队列和异步运算。可以在CPUGPU或任何支持TensorFlow的设备上运行。它会在图中进行操作并对其进行分解,分配到许多的CPU和GPU上。TensorFlow的核心数据结构在于图(graph)。操作就是图中的节点,值的张量在操作间传递。包括其他内容比如常量(constants)即在训练时不改变的量。这些可以在训练时或者更新模型时改变,但在单次训练中是不会改变的。还有占位符(placeholders)和变量(variables)。占位符类似于神经网络中的输入,而变量则是在训练神经网络时不断更新的。一般来说,有作为神经网络输入的占位符,以及变量类似在训练中进行更新的权重或者偏差。会话(session)则用于封装运行所在的环境,它的作用类似于把操作映射到设备上。这张幻灯片是非排他性列表,包括TensorFlow所支持的操作。我们有一些TensorFlow中所支持的操作。这是在Jupiternotebook上运行TensorFlow的例子。我将用非常基础的MNIST例子进行讲解,MNIST是用于机器学习的经典数据集,包括许多手写数字的图片。你要做的就是,用这些数字进行光学字符识别(OCR)或者字符识别,从而确定每个图片代表什么数字。如果是1,那么你希望输出文本是1。现在我要加载测试数据,在训练数据集中进行测试。训练图片共有55000张,每张图片都被表述或映射到张量中,大小为784个维度,每一张图片都有784个像素,即28乘28。我调出一张图,这是训练数据集中的第6张图。实际输出是这样。这是数字8的图片,如果看到原始的输入图像,输入图像中的值都代表图像中的一个特定像素。从0到1,代表这个图像多暗。如果是0,像素则为白色。如果是1或者接近1,像素则比较暗。然后看到这里,这些是训练数据。这是训练数据输出的形状。是10维的,大小为10的数组。输出为0、1。训练数据是0或1,或是任何一个值。这说明了训练数据代表什么。这是输入图像的实际训练标签,这里为8。在第8个位置有个1,说明这个图片为8。我们将用它训练神经网络。这是我之前展示的图片。就像你训练神经网络一样会看到每个像素,并为特定像素分配一个权重。因为我将会做一个相当浅的神经网络,只有一个隐藏层。这会要给每个像素分配权重,表示这个像素或者图片是否代表特定数字。这里的蓝色表示正权重值(positiveweight),红色表示负权重值(negativeweight)。所以蓝色区域的像素表示为0。1、2也是同理。具体看到这个,这个类似实际数字的权重。你可以看到,这里的8看起来很像8。一旦完成这一步,你可以设置神经网络。要如何实际训练它。这实际定义神经网络。我创建了X作为占位符,这是神经网络的输入。所以X是输入,形状为784维度。这意味着大小不一定为55000,它可以是任意大小。接着分配这些变量,因此权重和偏差将在训练中更新。然后我要定义在值上进行的操作。这里要进行矩阵乘法,这是我要进行的预定义操作之一。用X乘以W并且乘以所有的权重,即进行这个矩阵乘法。最后加上B,加上偏差。接着在上面运行softmax。这能够让我在神经网络中进行训练。现在要定义训练步骤,这定义了我将在神经网络上进行的反向传播。在这里我定义一个占位符,这是为了损失函数。在这个例子中我将用到交叉熵(cross-entropy)。这是损失函数的一种,你可以尝试其他几个。但这是一个非常简单的例子。我将使用梯度下降优化器,这是用来更新权重和偏差的方法。当出现差异时你可以使用梯度下降,从而明确该如何更新权重和偏见,应该更新多少。你将使用这个优化器,尝试找出输出的差异,然后映射到需要更新的权重和偏差的差异上。这将告诉我如何将交叉熵函数最小化,进行可视化后是这样。有初始值,接着使用梯度下降优化器。从而明确该如何改变这些值,以获得更好的输出。为了得到更好的值需要反复重复该过程。这里存在找到本地最小值的问题,这是调整值的不错方式。接下来我将在神经网络中,使用优化器或者反向传播从而进行训练。这将对会话进行初始化,即对TensorFlow的训练会话进行初始化。然后它会循环,对数据进行数千次的小批量处理。我将取训练集,选出100个值。有意思的是,我不必对整个55000张图像的训练集进行循环,也不必每次训练。我可以随机选取一百个值,并且仅在每个小批次中进行训练。这很有意思,如果你喜欢统计你在做的是选出整个训练集,然后选出当中的随机样本进行训练,这将得到训练集的代表性样本。从统计上来说,最终得到的结果近似于对整个训练集进行训练。这类似于你想知道比起其他总统候选人,人们是否喜欢这个候选人。你不需要问每一个美国人或者每个州的人。你可以对随机人群进行询问,得到的结果与实际结果很相近。这样可以节省很多的时间,只需运行实际数据的百分之五,从而节省大量时间。接下来可以对神经网络进行测试,看其效果如何。这是在TensorFlow中使用的另一种操作,使用argmax函数。这个Y值是从神经网络得出的值,这个质数Y是训练集中得出的实际值,是正确的值。我将对两者都运行argmax函数,这将在输出的每个向量中得出0或者1。最后得出我的神经网络正确率为91%,这实际上很糟糕。十个图像中有一个是不正确的,但这是一个非常简单的例子。你可以开始做更复杂的例子使用MNIST,MNIST当中最好的正确率可以达到99.997%。如果用神经网络做的更多,可以得到更正确的数值。TensorFlow的官网也是很不错的,当中有很多教程。比如这个针对初学者的MNIST例子,关于在TensorFlow上使用MNIST训练集。如果想通过更复杂的操作得到更好的结果,可以试试下一个教程,针对专家的MNIST教程。给原来的神经网络增加了些复杂性,从而提高5%或6%的正确率。还有一些其他教程,比如使用卷积神经网络递归神经网络等等。有很多例子,都是简单易懂的。这让TensorFlow成为机器学习中非常出色的库。在这里出于趣味性,我使用MNIST和Theano库,运行了相同的训练数据。Theano库与TensorFlow的方式很类似,使用方法也类似。在这里我会使用TensorFlow例子中,这里你所做的非常类似。在Theano中存在共享对象(sharedobject),这会用于权重和偏差,而不是用变量。接着你可以对神经网络进行定义,使用相同的softmax再加上偏差。然后对损失函数和训练步骤定义相同的交叉熵。有点不同的是需要进行反向传播。这里是反向传播,这是梯度下降函数。可以给出代价函数的交叉熵,以及权重和偏差。但需要自己进行更新。之后就可以用Theano建立训练模型,然后做数千次批次训练。接着测试,在这里我得到89%正确率。会得到相同的正确率,因为操作类型是相同的。Theano和TensorFlow的区别在于库核心部分的构成。TensorFlow能够让你更容易分解操作,并且映射到特定的设备中。然而Theano是核心库,这让它很难或几乎不可能映射到多个GPU或多个设备进行训练。TensorFlow的与众不同在于分布式训练,这能够对各个GPU和CUP进行映射。并且支持许多不同类型的分布式训练。比如数据并行(dataparallelism),以及模型并行(modelparallelism)等等。数据并行和模型并行中存在一些取舍,两者得到的结果不同。模型并行会分解模型的不同部分,然后在不同设备不同机器上训练相同的数据。数据并行则是在多台机器上运行相同的模型,并拆分数据。两者都有不同的优缺点。在谷歌,我们倾向于使用数据并行。但是模型并行性适用于许多不同类型的任务。TensorFlow两者都支持。我不会介绍过多的细节,比如数据并行、同步模型、异步模型。如果你感兴趣的话,可以之后和我聊聊。当你对这类机器学习模型或训练进行分配时,会存在一些问题。你需要在各个机器之间传输大量的数据,取决于如何分解或分配训练。因此你需要一个快速的神经网络,因为操作在单个GPU上需要花费几纳秒,但是通过网络传输数据需要几毫秒。分布数据的能力上存在数量级的差异。问题的瓶颈在于机器之间的网络。在谷歌我们致力于这类问题。为了使机器间的连接尽可能快,因此我们计划建立一个云版本,称为CloudML。支持在谷歌数据中心运行TensorFlow,能够充分利用谷歌数据中心的硬件,从而进行分布式训练。这可以帮助你减少时间。原来需要8小时如今在20个节点上只需32分钟,快了近15倍。除了能够利用GPU以及这类硬件,我们也在开发自己的硬件用于机器学习和矩阵乘法。这称为TensorProcessingUnit(TPU)。这是我们在谷歌开发的一种ASIC,为了获得更好的性能。GPU是非常耗能的,所以我们开发了一些耗电少的产品。但是这些是专门针对机器学习的。我们也计划把这些作为云计算学习的一部分。如果你们对TensorFlow感兴趣,可以看看这些网站。上面有很多例子和教程。这也是TensorFlow很不错的地方。这些教程真的很棒,编写的很好,简单易懂。还可以看看bit.ly/tensorflow-workshop,很适合构建TensorFlow模型。包括基础和进阶的MNITS例子,还包括如何使用kubernetes,以及使用TensorFlowServing,构建机器学习的产品版本。如果你感兴趣的话一定要看看,谢谢大家来听讲座。

作者:CDA管理员

谷歌的AI击败了一位围棋大师,是一种衡量人工智能突然的快速发展的方式,也揭示了这些技术如何发展而来和将来可以如何发展。人工智能是一种未来性的技术,目前正在致力于研究自己的一套工具。一系列的进展在过去的几年中发生了:无事故驾驶超过300000英里并在三个州合法行驶迎来了自动驾驶的一个里程碑;IBMWaston击败了Jeopardy两届冠军;统计学习技术从对消费者兴趣到以万亿记的图像的复杂数据集进行模式识别。这些发展必然提高了科学家和巨匠们对人工智能的兴趣,这也使得开发者们了解创建人工智能应用的真实本质。开发这些需要注意的第一件事是:哪一种编程语言适合人工智能?你所熟练掌握的每一种编程语言都可以是人工智能的开发语言。人工智能程序可以使用几乎所有的编程语言实现,最常见的有:Lisp,Prolog,C/C++,近来又有Java,最近还有Python.LISP像LISP这样的高级语言在人工智能中备受青睐,因为在各高校多年的研究后选择了快速原型而舍弃了快速执行。垃圾收集,动态类型,数据函数,统一的语法,交互式环境和可扩展性等一些特性使得LIST非常适合人工智能编程。PROLOG这种语言有着LISP高层和传统优势有效结合,这对AI是非常有用的。它的优势是解决“基于逻辑的问题”。Prolog提供了针对于逻辑相关问题的解决方案,或者说它的解决方案有着简洁的逻辑特征。它的主要缺点(恕我直言)是学起来很难。C/C++就像猎豹一样,C/C++主要用于对执行速度要求很高的时候。它主要用于简单程序,统计人工智能,如神经网络就是一个常见的例子。Backpropagation只用了几页的C/C++代码,但是要求速度,哪怕程序员只能提升一点点速度也是好的。JAVA新来者,Java使用了LISP中的几个理念,最明显的是垃圾收集。它的可移植性使它可以适用于任何程序,它还有一套内置类型。Java没有LISP和Prolog高级,又没有C那样快,但如果要求可移植性那它是最好的。PYTHONPython是一种用LISP和JAVA编译的语言。按照Norvig文章中对Lips和Python的比较,这两种语言彼此非常相似,仅有一些细小的差别。还有JPthon,提供了访问Java图像用户界面的途径。这是PeterNorvig选择用JPyhton翻译他人工智能书籍中程序的的原因。JPython可以让他使用可移植的GUI演示,和可移植的http/ftp/html库。因此,它非常适合作为人工智能语言的。在人工智能上使用Python比其他编程语言的好处优质的文档平台无关,可以在现在每一个*nix版本上使用和其他面向对象编程语言比学习更加简单快速Python有许多图像加强库像PythonImagingLibary,VTK和Maya3D可视化工具包,NumericPython,ScientificPython和其他很多可用工具可以于数值和科学应用。Python的设计非常好,快速,坚固,可移植,可扩展。很明显这些对于人工智能应用来说都是非常重要的因素。对于科学用途的广泛编程任务都很有用,无论从小的shell脚本还是整个网站应用。最后,它是开源的。可以得到相同的社区支持。AI的Python库总体的AI库AIMA:Python实现了从Russell到Norvigs的“人工智能:一种现代的方法”的算法pyDatalog:Python中的逻辑编程引擎SimpleAI:Python实现在“人工智能:一种现代的方法”这本书中描述过的人工智能的算法。它专注于提供一个易于使用,有良好文档和测试的库。EasyAI:一个双人AI游戏的python引擎(负极大值,置换表、游戏解决)机器学习库PyBrain一个灵活,简单而有效的针对机器学习任务的算法,它是模块化的Python机器学习库。它也提供了多种预定义好的环境来测试和比较你的算法。PyML一个用Python写的双边框架,重点研究SVM和其他内核方法。它支持Linux和MacOSX。scikit-learn旨在提供简单而强大的解决方案,可以在不同的上下文中重用:机器学习作为科学和工程的一个多功能工具。它是python的一个模块,集成了经典的机器学习的算法,这些算法是和python科学包(numpy,scipy.matplotlib)紧密联系在一起的。MDP-Toolkit这是一个Python数据处理的框架,可以很容易的进行扩展。它海收集了有监管和没有监管的学习算饭和其他数据处理单元,可以组合成数据处理序列或者更复杂的前馈网络结构。新算法的实现是简单和直观的。可用的算法是在不断的稳定增加的,包括信号处理方法(主成分分析、独立成分分析、慢特征分析),流型学习方法(局部线性嵌入),集中分类,概率方法(因子分析,RBM),数据预处理方法等等。自然语言和文本处理库NLTK开源的Python模块,语言学数据和文档,用来研究和开发自然语言处理和文本分析。有windows,MacOSX和Linux版本。案例做了一个实验,一个使用人工智能和物联网做员工行为分析的软件。该软件通过员工情绪和行为的分心提供了一个有用的反馈给员工,从而提高了管理和工作习惯。使用Python机器学习库,opencv和haarcascading概念来培训。建立了样品POC来检测通过安置在不同地点的无线摄像头传递回来基础情感像幸福,生气,悲伤,厌恶,怀疑,蔑视,讥讽和惊喜。收集到的数据会集中到云数据库中,甚至整个办公室都可以通过在Android设备或桌面点击一个按钮来取回。开发者在深入分析脸部情感上复杂点和挖掘更多的细节中取得进步。在深入学习算法和机器学习的帮助下,可以帮助分析员工个人绩效和适当的员工/团队反馈。结论python因为提供像scikit-learn的好的框架,在人工智能方面扮演了一个重要的角色:Python中的机器学习,实现了这一领域中大多的需求。D3.jsJS中数据驱动文档时可视化最强大和易于使用的工具之一。处理框架,它的快速原型制造使得它成为一门不可忽视的重要语言。AI需要大量的研究,因此没有必要要求一个500KB的Java样板代码去测试新的假说。python中几乎每一个想法都可以迅速通过20-30行代码来实现(JS和LISP也是一样)。因此,它对于人工智能是一门非常有用的语言。

作者:CDA管理员

一对一、包学会

老师一对一手把手教学,让教学变得更有针对性、更个性化

学员动态

Hello World!开始你的学习吧

12分钟前 peacocking

开始学习 0 - 课程大纲

12分钟前 尘埃扬起

完成了 3-2概率论基础

12分钟前 peacocking

开始学习 8-2 - 实战2 - 批量下...

13分钟前 diyzhaoyu

开始学习 0 - 课程大纲

14分钟前 hesqlq

开始学习 python1-4-14-4