雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则。选择与开发内容相匹配的工具,常常会使我们事半功倍。但面对人工智能的多个领域,如:机器学习、深度学习、NLP等等,多样的工具有时也让我们也无从选择。

就在最近,一个基于 javascript 的可视化库 D3js(treemap 可视化)对 json 文件生成的技术图,给开发者提供了详细的各领域工具清单,内容涵盖了 11 种极具潜力的 AI 工具类型,雷锋网 AI 开发者将其整理如下,强烈建议大家收藏~

BERT 被称为是 NLP 领域中里程碑的进展;目前,BERT 也是 NLP 深度学习中的重要组成部分,很多之后的自然语言处理模型都是在此基础上优化与改进而得。

汉戈村的主要农产品是黑青稞,原本的生产加工线较简单——炒熟后磨成粉,做成糌粑。黑青稞做成的糌粑含有丰富的生命活性物质和多种微量元素,营养价值高,但是口感特殊,大部分非藏族人吃不惯,藏区之外,糌粑的销路几乎为零。

在迎春购好物板块,京东、苏宁、国美等电商平台,借助“双12”契机,组织线上万款商品参与促销活动,覆盖食品生鲜、数码家电、护肤美妆、服饰箱包等全品类;各区百货商场、购物中心、商业综合体、超市设置网红打卡点及巡游表演,进一步增强顾客线下购物体验。

但大多数游客在汉戈花海都只做短暂逗留,稻城亚丁仍然是最终目的地。“留不住客”是汉戈村乃至理塘县旅游业发展最大的问题,“旅游的景点少,”尹笑江说,“要想办法在花海之外再发展点东西出来。”

在迎春品美味板块,北京烹饪协会等单位组织前门、王府井、国贸、望京、五棵松等线下商圈、千余家品牌餐饮企业和外卖平台,推出北京餐饮数字化升级行动,开展安心享外卖、年夜饭预订、深夜食堂节活动,通过线上直播、短视频展示等方式,为消费者推荐节日特色美食。各区将开展诸多特色美食活动,进一步满足餐饮消费需求,推动全市餐饮消费回暖。

它可用于构建生产级计算机视觉、计算机试听、信号处理和统计应用程序甚至用于商业用途的完整框架,并为.NET 的应用程序提供了统计分析、机器学习、图像处理、计算机视觉相关的算法。

该语音识别工具包使用了 C ++编写,研究开发人员利用 Kaldi 可以训练出语音识别神经网路模型,但如果需要将训练得到的模型部署到移动端设备上,通常需要大量的移植开发工作。

旺季时,村里800亩花田开满金黄的万寿菊和红白相间的格桑花。“很美的”,文雪松骄傲地向北京青年报记者展示照片。

AllenNLP 能让设计和评估新的深度学习模型变得简单,几乎适用于任何 NLP 问题,通过利用一些基础组件,你可以轻松地在云端或是你自己的笔记本上跑模型。

ReAgent 由三部分组成:生成决策并接收决策反馈的模型、用于评估新模型部署前性能的模块及快速迭代的服务平台。同时,ReAgent 也是创建基于 AI 的推理系统的最全面、模块化开源平台,并且是第一个包含策略评估的平台,将会加速相关决策系统的部署。

MXNet 提供了混合编程模型(命令式和声明式)和大量编程语言的代码(包括 Python、C++、R、Scala、Julia、Matlab 和 JavaScript)的能力,是一个易安装易上手的开源深度学习工具,它提供了一个 python 接口 gluon,能够让开发者迅速搭建起神经网络,并进行高效训练。

对于线上直播,37岁的文雪松一点儿也不陌生。他是汉戈村“带货能力”最强的主播,从今年5月他就开始了自己的“主播生涯”,是理塘第一个在抖音上直播的村书记,他在“理塘融媒体”号上直播,观看量高的时候有几千名观众,通过直播间卖出了3800多件货。

理塘县有优质的旅游资源

它已经成为 Python 中最广泛使用的工业级自然语言库之一,它提供了当前最佳的准确性和效率,并且有一个活跃的开源社区支持。

DL4J 是采用 java 和 jvm 编写的开源深度学习库,支持各种深度学习模型。DL4J 最重要的特点是支持分布式,可以在 Spark 和 Hadoop 上运行,它支持分布式 CPU 和 GPU 运行,并可以利用 Spark 在多台服务器多个 GPU 上开展分布式的深度学习模型训练,让模型运行更快。

实习记者史航统筹/计巍

该框架的灵感来源于大脑中奖励-动机行为的主要成分「多巴胺受体」,这反映了神经科学与强化学习研究之间的强大的历史联系,是一个强化学习算法快速原型的研究框架。

与 Keras 和 Pytorch 相比,TensorLayer 提高了神经网络模块的抽象化设计,同时实现了降低使用现有层和开发新层的工作量。

Facebook 推出的一个构建决策推理系统的模块化端到端平台,用于推理系统(强化学习、上下文管理等), 可以显著简化推理模型构建过程。

“你尝尝,这个不会长胖的。”文雪松打开一包黑青稞曲奇,这已经是黑青稞曲奇的第二代产品,相比于上一代产品,这次的曲奇饼干每一块都有独立包装,入口不太甜,有青稞自然的香味。

文雪松感觉“差不多像样了”,就邀请了乡里各个村的村干部来品尝他的新发明。他记得2019年9月的“试吃大会”,不少村干部试吃后向他提意见。2019年10月,文雪松联系了成都的食品厂商,在专业人员的帮助下,汉戈花村黑青稞曲奇上市了,在电商平台上也有销售。

目录: Ⅰ、经典机器学习(1-3) Ⅱ、深度学习(4-8) Ⅲ、强化学习(9-12) Ⅳ、自然语言处理(13-18) Ⅴ、语音识别(19-21) Ⅵ、计算机视觉(22-26) Ⅶ、分布式训练(27-31) Ⅷ、自动建模(32-35) Ⅸ、IDEs系统(36-38) Ⅹ、平台(39-41) Ⅺ、评分推理系统(42-43)

一款简单易用的 Python NLP 库,允许将当前最优自然语言处理(NLP)模型应用于文本,如命名实体识别(NER)、词性标注(PoS)、词义消歧和分类。

理塘县汉戈村的800亩花海

作为 TensorFlow 强有力竞争对手的 PyTorch,也是目前较为主流的深度学习工具之一。

“网上说全国人民都想来理塘看丁真”

文雪松瞄准了村附近山顶上的那片湖泊,他想学习玉龙雪山的模式,“我们开出一条线路来,让村民们牵着马带游客上山赏湖,”文雪松“颇有心机”地说,“等再下山时就晚了,只有在这儿住了嘛。”

这类任务需要「记忆」,下一个句子必须与前一个句的上下文相关联(这是相当关键的),以免丢失重要的信息。通过将 attention 应用到正在使用的单词上,则可以解决当句子太长的时,RNN 或 CNN 无法跟踪上下文和内容的问题。

12月5日,北京消费季”迎春消费月”正式启动。北京市商务局供图

此前,OpenAI 官方宣布了「全面转向 PyTorch」的消息,计划将自家平台的所有框架统一为 PyTorch,也进一步体现了 PyTorch 在深度学习方面的潜力。

scikit-learn 是一种强大的基于 Python 语言的机器学习算法库(https://scikit-learn.org/stable/)。其中,包含了算法预处理,模型参数择优,回归与分类等算法,官方文档包含了每一种算法的例子,代码简洁优美,可视化了每一种算法结果,即能学习 python,也是帮助开发者更好理解机器学习算法的便利工具。

本组文/本报记者颜星悦

适用于经典机器学习的工具

这是一个面向科学家的深度学习和强化学习库。TensorLayer 由底层到上层可以分为三大模块:神经网络模块、工作流模块、应用模块。

fastText 的核心是使用「词袋」的方式,不管文字的顺序;但它不是线性的,而是使用分层分类器来将时间复杂度降低到对数级别,并且在具有更高分类数量的大数据集上更高效。

一款基于 Tensorflow 的框架,旨在为新手和经验丰富的强化学习研究人员提供兼具灵活性、稳定性和可重复性的新工具。

DL4J 的基本特性包括:DL4J 中的神经网络训练通过簇的迭代并行计算;整个过程由 Hadoop 和 Spark 架构支持;使用 Java 允许开发者在 Android 设备的程序开发周期中使用。

到目前为止,汉戈花村黑青稞曲奇在2020年的销量达到了30万元,销售范围主要在四川省内。文雪松还是有点不满意,他想明年到珠海、广州等沿海城市去做展销,目标是在2021年达到月销量5万元。

文雪松是个“不安分”的中年干部,他经常做一些“迷惑行为”——在村委开辟的实验室里折腾“黑暗料理”,请乡里的扶贫干部来开“试吃大会”;37岁的“高龄”了,还偏要做抖音主播给村里带货;现在,在“丁真效应”的启发下,他正在考虑培养一些村里的主播,教他们说普通话。

他卖的货是村里几个扶贫干部一起研发的,是一种青稞曲奇,有袋装和盒装的,包装上印着村里申请的专利品牌:汉戈花村。

PyTorch 是一个开源的机器学习框架,提供了两个高级功能,包括:具有强有力的 GPU 加速度的张量计算(如 NumPy),以及基于磁带自动调整系统构建的深度神经网络;可加快从研究原型到生产部署的过程。

尤其在监督学习部分,Scikit-learn 提供了广义线性模型、支持向量机、最近邻算法、高斯过程、朴素贝叶斯、决策树和集成方法等算法教程,同时还介绍了特征选择、随即梯度下降算法、线性与二次判别分析等在监督学习中非常重要的概念;而在半监督学习中的标签传播算法和无监督学习中的聚类与降维算法方面,也有非常多的教程。

“不要把鸡蛋放在一个锅里煮”,尹笑江说。他觉得,花海的营收有点“看天吃饭”。2018年,甘孜州遭遇春季反寒潮,第一批种的花苗全都夭折,村民们重新种了一批,但花期推迟到了9月,错过了七八月份的旅游旺季,2018年汉戈村的收入少了很多。

适用于语音识别的工具

这两天村里扶贫干部们的想法也多了起来。“我们村子里有几个小伙子也有丁真那么帅。”汉戈村扶贫小组的队员尹笑江说。他琢磨着,明年花开的时候,就组织村里的姑娘小伙,把马骑得漂亮一些,人也“拾掇拾掇”,一起到花海里跳舞、骑马、拍视频,发到短视频平台上,“火不火我们不知道,反正先放上去,让更多的人来了解我们村,来了解我们的汉戈花海,”尹笑江抱着侥幸心理说,“万一有一个火了呢?”

汉戈村位于理塘县东南部,平均海拔3700米,村里有109户人家,三年前刚脱贫。2016年开始打造的“汉戈花海”,今年10月评上了国家4A级旅游景区。

为了让汉戈村不再默默无闻,文雪松什么都要尝试一下,“万一有一个火了呢”?

“这两年汉戈村已经算发展起来了,”文雪松说。2015年,汉戈村的人年均收入不到3000元,村里的房子还都是土坯房,2017年脱贫时,人均收入达到了5900元,而现在已经有了七八千,村里也盖起了新房子,在他看来,汉戈村是濯桑乡里最富裕的村子,“很多别的村的人都希望到我们村来。”

他坐在村委会二楼狭小的办公室里,热切地谋划着。隔壁大一点儿的房间是他“研发产品”用的小厨房,里面堆满了各种在研发中的食材。

丁真火了。距离理塘县城43公里的濯桑乡汉戈村第一书记文雪松特别高兴,他每天在抖音上转发丁真的视频,给丁真的微博点赞。文雪松觉得,丁真红了,汉戈村也有希望了。

2016年,因为电影《从你的全世界路过》的上映,稻城县亚丁成为炙手可热的旅游胜地。而理塘县汉戈村处于大香格里拉环线上,是成都至稻城亚丁的必经之地。自从稻城火了之后,上一任第一书记郭林就起了在沿路上造花海的主意。种花的地是沙地,本也种不了任何作物,做花海既可以防沙又可以发展旅游业。

适用于强化学习的工具

MXNet 是一个功能齐全,可编程和可扩展的深入学习框架,支持最先进的深入学习模式(https://mxnet.apache.org/)。

BERT 是一个基于双向 Transformer 的大规模预训练语言模型,用于对大量未标记的文本数据进行预训练,以学习一种语言表示形式,这种语言表示形式可用于对特定机器学习任务进行微调。

FastText 是 Facebook 人工智能研究实验室(FAIR)开源的一个文本处理库,他是一个专门用于文本分类和外文本表示的库,用于高效文本分类和表示学习。

按照往年的经验,开春后游客会渐渐增多,今年再加上丁真的缘故,文雪松估计明年会迎来理塘旅游的高峰。为此,他已经准备好了——村里新建了一个两层楼客栈,一楼有厨房和餐厅,二楼装修了1个套房,2个单人间,3个标间,都是崭新的,就等明年开春了。除此之外,他和几户藏族家庭都商量好了,来了客人也可以住在有特色的藏式民宿。

尹笑江去过几次稻城亚丁,他觉得理塘不比那里的景色差。尹笑江分析,稻城之所以一直很火,是因为基础设施完备,游客玩得“舒心”,他认为把村里的基础设施建设好更重要。眼下,他正在与旅游公司协商,希望在明年推出更多的旅游产品。

Flair 基于 Pytorch 的 NLP 框架,它的接口相对更简单,允许用户使用和结合不同的词嵌入和文档嵌入,包括 Flair 嵌入、BERT 嵌入和 ELMo 嵌入。

在迎春嬉冰雪板块,开展“欢乐冰雪季”“冰雪总动员”“冬奥知识赢冰票”等活动,通过冰上体验、冬奥知识宣传、体育健身消费热门打卡地推荐展示等多种形式,激发市民对冰雪体育运动的兴趣;举办“全国青少年夏季滑雪挑战赛(北京站)暨第四届京津冀青少年夏季滑雪挑战赛总决赛”“第六届大众冰雪北京公开赛”“北京市青少年高山滑雪锦标赛”“2021年延庆区大众滑雪比赛暨延庆区农民滑雪比赛”等赛事和培训,扩大冰雪运动影响力。(完)

此次启动的北京消费季“迎春消费月”由北京市人民政府主办,北京市商务局、北京市文化和旅游局、北京市体育局和顺义区人民政府承办,北京冬奥组委文化活动部协办,将开展“迎春购好物”“迎春逛大集”“迎春品美味”“迎春享生活”“迎春赏年韵”“迎春嬉冰雪”六个板块约三百项活动。

在迎春赏年韵板块,开展“乐游”博物馆、“趣玩”博物馆、“云赏”博物馆等活动,在线上推出展览、活动、文化讲座,让观众随时随地“云”游博物馆;各区联动开展各类文化旅游活动,带动产业发展和转型。

适用于自然语言处理的工具

这是一个具有工业强度级的 Python 自然语言处理工具包。

“让更多的人了解我们的汉戈花海”

“网上说全国人民都想来理塘看丁真。”37岁的文雪松有点发福,一头白发,笑眯眯地说,“游客好不容易来了理塘不可能只看一个丁真嘛。”从丁真工作的仓央嘉措博物馆开车到汉戈花海只要一个小时,文雪松想请丁真来村口花海里骑骑马,给他拍张照片,再往花海里那么一摆。

丁真的走红是理塘人近日来最津津乐道的话题,距离理塘县城43公里的濯桑乡汉戈村的第一书记文雪松也开始“摩拳擦掌”。他想找丁真来村口的花海里骑骑马,又想把村里帅气的藏族小伙也“拾掇拾掇”拍几个小视频放到网上,总之得借这波流量再造造势。

汉戈村的年轻人基本上都会玩抖音,但是都是随便玩玩,不成气候。文雪松正在考虑培养一些抖音主播,他开始有意识地训练村里的小伙子、小姑娘说普通话,等明年直播的时候,“要让人听得懂”。

本着健康食品的理念,文雪松本打算做100%青稞面的曲奇饼干,但事与愿违,“只用青稞粉它根本聚不起来,饼干成不了型。”文雪松发现黑青稞的黏性太差,只能一点一点加小麦面粉,经过十几次的失败之后,他知道大概的比例了——黑青稞占百分之六七十时,曲奇既能成型又能达到较好的口感。

2017年,汉戈花海景区鲜花盛开,郭林四处奔走,请媒体宣传,效果不错,文雪松估计国庆黄金周时游客可达到每日4000人。花海中扎了“星空帐篷”,388元至488元一晚,一到花季全部住满。花海的维护解决了部分村民们的就业问题,还可以租马给游客骑,或是卖特产来赚点零花钱。

适用于深度学习的工具

在迎春逛大集板块,服装、食品、粮油、家居、电器等多品牌多品类商家,像老字号企业等将在商圈或街区举办年货大集活动,满足消费者囤购年货的需求,营造逛市集、过大年的消费氛围。

Transformers 是神经机器翻译中使用的一种神经网络,它主要涉及将输入序列转换为输出序列的任务,这些任务包括语音识别和文本转换语音。

Kaldi 是目前使用广泛的开发语音识别应用的框架。

文雪松和村里研发的黑青稞曲奇饼干

文雪松想把黑青稞做成大众市场能接受的产品。2019年7月,他和两个扶贫干部,专门买了一个烤箱,天天在村委会的小厨房里“做实验”,“其他同事都开玩笑说我们在做黑暗料理。”文雪松说,他平时很少进厨房,这次,他和同事在网上看视频学习,尝试做了黑青稞米花糖、黑青稞面包、黑青稞爆米花等等,做出来的产品要么口感不佳,要么成本太高,琢磨一个月之后,定下了黑青稞曲奇这个产品。

一个基于 PyTorch 的 NLP 研究库,利用深度学习来进行自然语言理解,通过处理低层次的细节、提供高质量的参考实现,能轻松快速地帮助研究员构建新的语言理解模型。

不仅如此,花海还具有季节性的特征,花季只有7月至10月四个月,在花不开的月份里,文雪松希望能靠黑青稞曲奇来让村民们继续过好日子。“不管是冬天还是夏天,我始终是有销量的,”文雪松说,明年还将扩大村里的青稞田,“农业比旅游业更抗风险,发展旅游业的时候也不能忘本。”

Sonnet 主要用于让 DeepMind 开发的其它模型更容易共享,Sonnet 可以在内部的其它子模块中编写模块,或者在构建新模块时传递其它模型作为参数;同时,Sonnet 提供实用程序来处理这些任意层次结构,以便于使用不同的 RNN 进行实验,整个过程无需繁琐的代码改写。

它无需对 agent 的先验知识,并且采用 python 作为主要开发语言,因此可以简单的和 TensorFlow 等深度学习库进行开发集成,同时直观的将学习结果用画面直观的展示出来。Gym 库中包含许多可以用于制定强化学习算法的测试问题(即环境),这些环境有共享接口,允许编写通用的算法。

在迎春享生活板块,家政服务业、洗染业、美发美容业、修理、出行、教育培训等生活服务业商家,在社区、商圈开展教育培训享福利、健康服务享便利、品质生活享优惠等促销活动,推出春节服务优惠套餐;网约车和骑行平台进行节日打折活动等优惠套餐,让消费者享受优惠便利服务。

宣传的渠道是汉戈村扶贫干部们最头疼的问题,他们通常都只在自己的朋友圈里转发花海的美景,还有当地举办的特色活动,“其实我们村每年也搞赛马比赛,就是大家都不知道罢了。”尹笑江说,理塘县的旅游资源虽好,但是没有渠道宣传出去。

它具有工具、库、社区资源全面且灵活的生态系统,提供稳定的 Python 和 C ++ API,以及其他语言的非保证向后兼容 API;能够帮助开发者们在 ML 领域的研究与发展,并使开发人员轻松构建和部署 ML 支持的应用程序。

XGBoost 最大的特点在于,它能够自动利用 CPU 的多线程进行并行,同时在算法上加以改进提高了精度。它是经过优化的分布式梯度提升库,可扩展性强,高效、灵活且可移植。

自己研发的黑青稞曲奇上了电商平台