Andrew Ng 要加盟百度了!
此条消息一出,立即引爆了互联网圈和科技圈。要知道,这尊“大神”可是 Coursera 的联合创始人,人工智能和机器学习领域国际上最权威的学者之一。作为斯坦福大学计算机科学系副教授、人工智能实验室主任,他在斯坦福大学开设机器学习与人工智能相关的公开课程更是受到了网友们的热捧。2011 年,Ng 在谷歌成立了“Google Brain”项目,利用谷歌的分布式计算框架计算和学习大规模人工神经网络,在 16000 个 CPU 核心上利用深度学习算法学习到的 10 亿参数的神经网络,在没有任何先验知识的情况下,仅仅通过观看无标注的 YouTube 的视频学习到识别高级别的概念。目前由这个项目延伸出的技术已经被应用到了安卓操作系统的语音识别系统上。
若 Andrew Ng 真的加入百度,他将负责“百度大脑”(Baidu Brain)计划。“百度大脑”是百度 CEO 李彦宏曾特别提及的“大数据引擎”的顶层设计,而另外两项分别是开放云和数据工厂。
所谓的“大数据引擎”,简单来说就是从储存到调取再到进行判断的架构,下面,就让我们解析一下这三层结构。
储存:开放云
人类是有极大记忆脑容量的生物,而机器能有的类似功能就是储存。人类没有记忆就不会有关联、决策和创造,如果机器要模仿人类的话,必须有庞大的储存能力。
2010 年,百度只拥有几百台服务器,特征向量(将文本语音图像视频等内容转化为机器能够读懂的一连串关键数据)只有十几万。两年后,百度的单集群规模达到了十几万,特征向量直接上升到两百亿,也就是说这些机器能在同一时间做同一件事。
不过,当特征向量达到这个极大地数量后,再往上增加其实对机器学习的帮助并不是很大,于是这时候就有了“深度“学习的必要。
调取:数据工厂
人类在调取某一部分记忆的时候会自然联想到某些词汇、画面或者声音,大脑的神经连接结构会允许我们做出这样的“搜索”。但机器则没有这样的功能,它必须一个一个资料的找过去。
所以,必须有人来帮助机器建立起分类。不过,在各种极为复杂的语言结构当中,人们很难给一个词语下一个定义。比如,“苹果”这个词,是一种水果还是一个公司?这种情况必须根据语境去判断,可能会出现不同的情况。于是人们对每一个词会定义一个库,这个库中的每一个词又都各自构成库。百度的数据工厂所创造的算法,就是在众多数据中去为他们建立管理,然后索引。
判断:百度大脑
人类大脑有了记忆和关联之后才会进行决策判断。开放云和数据工厂的分析是完全建立在搜索引擎之上的,充其量只是个刚出生的婴儿。而当智能手机和可穿戴设备开始出现后,此时百度的大脑智力就达到了李彦宏所说的“两三岁婴儿水平”。
这是一个从平面到立体的过程。以前百度搜集到的数据只能够是 PC 端用户的文字搜索行为,百度所做的只是对用户的输入文字数据做出的不断处理和反馈。而到了智能手机和智能硬件时代,百度搜集的将不仅仅只会是语言数据,而且还有一整套使用场景数据。这样,百度就从为用户提供搜索结果的搜索引擎转变为向用户提供全方位解决方案的人工智能,这就是“百度大脑”。
总结
作为一家大公司,百度在 PC 时代是成功的,但显然它在移动互联网时代会面临更多挑战。不过挑战里也充满了机遇,这也许就是百度着眼于未来,开发“百度大脑”的原因。如果 Andrew Ng 真的加盟百度,必将大大推进百度大脑的开发,让百度在移动互联网时代不“脑残”。这也就难怪不少媒体会惊呼这是中国互联网公司迄今为止引进的最重量级外援了。