武大国际法研究所教师徐祥博士因病去世享年50岁

中国共产党党员、武汉大学国际法研究所教师徐祥博士,因病于2020年2月17日2时在武汉不幸去世,享年50岁。

徐祥同志1970年10月1日生于湖北省蕲春县,汉族。1990年7月至2000年8月,在华中师范大学人事处工作; 2000年6月,获得中南财经政法大学硕士学位;2007年12月,获得武汉大学国际法学博士学位;2008年4月留校任教。

德霍格还表示,足球赛事重启后,需要修改规则,例如允许裁判警告比赛时吐口水的球员,“这在足球赛里很常见,但不太卫生。”(完)

此外,家居场合除了对唤醒精度有较高要求外,还需要有极低的误报,否则就会出现“深更半夜客厅莫名其妙地出现歌声”的诡异现象。在传统的低功耗唤醒方案中,是否唤醒取决于放在主芯片中的决策模型,因此唤醒的误报水平也取决于它。但如果选用鸿鹄这种端到端的方案,则能避免多级唤醒所引入的错误,从而降低误报率。

山重水复疑无路,柳暗花明又一村。逆境中往往蕴含着新的更大机遇。我们要深入学习深刻领会习近平总书记重要讲话精神,增强辩证思维,提升工作本领,坚持问题导向,充分捕捉和创造疫情中蕴藏的新机遇,以“踏平坎坷成大道,斗罢艰险又出发”的斗争精神,用“办法总比困难多”的必胜信念,靠“乱云飞渡仍从容”的战略定力,把风险挑战、矛盾问题转化为深化改革、扩大开放的良好契机,为决胜全面建成小康社会、决战脱贫攻坚提供更加强大的发展动力。

后端语音识别声学建模模块,会对这一路增强后的语音信号进行深度学习建模。但,

“有的联赛希望6月恢复比赛,但大家必须现实一点。足球是一项接触性运动,我们不要低估疫情,需要更多的耐心。复赛不是钱的问题,而是攸关生死。建议大家继续保持耐心,保持好社交距离。”他说。

2017 年谷歌团队曾最早提出采用神经网络来解决前端语音增强和语音声学建模的一体化建模问题。

百瑞景社区地处武汉中心城区的武昌商圈,属于超大型社区,拥有8000多户、21300位居民。王涯玲介绍,配备的社区服务工作人员仅23人,且大多都是女性,相当于平均每人要服务近1000位居民,大家日常基本都是满负荷运转。

王涯玲说,该社区最难的时间当属一月底至二月初。一方面,社区有五六十名确诊和疑似患者,因武汉当时床位资源极其紧张无法就医,居民怨气冲天。另一方面,政府要求加强疫情防控,患者无法得到安置而进行居家隔离,大量居民买菜、买药等事情,要由社区工作人员送货上门,体力消耗极大。

王涯玲说,这段时间社区工作人员面临的困难和压力可想而知,再加上她们的收入仅仅1000多元人民币,她甚至做好了同事们离职的最坏打算。然而,哭泣和抱怨过后,没有一个人提出辞职,还纷纷表示:“关键时刻,不掉链子、不撂挑子、不当逃兵!”“即便离职,也要等到疫情过后。”

3)真实产品环境复杂,传统方法会影响使用体验。基于波束区域拾音的方法严重依赖于声源定位的准确性,但对于首次唤醒,由于还不知道声源的位置,所以首次唤醒率往往很低。

“把居民发动起来,社区的事干起来就没那么累。”王涯玲说,湖北省委常委、武汉市委书记王忠林近期来到百瑞景社区,为社区工作人员和志愿者“点赞”时说的这句话让她深有体会。社区将发挥好工作人员和志愿者的示范作用,从而尽快打赢这场疫情防控的人民战争。(完)

1)波束区域拾音方法有局限性。上面这一类语音增强技术大都是采用基于MSE的优化准则,从听觉感知上使得波束内语音更加清晰,波束外的背景噪音更小。但是听觉感知和识别率并不完全一致。而且这种方法在噪音内容也是语音内容的时候(例如电视和人在同一个方向时),性能会急剧下降。

“面对居民们的指责,社区只能进行劝导和安抚,可又拿不出实际的解决方案,很多工作人员都觉得很委屈,伤心流泪。”王涯玲坦言,这种状况一直持续到武汉首批新建的三所“方舱医院”投入使用,社区2月7日第一次接到了有安置患者的名额。

图片来源于2019年11月,百度语音引擎论坛

1)在语音识别上错误率平均降低30%;2)高噪声下首次唤醒率提升10%以上,且达到家居场合使用的超低误报要求;3)平均工作功耗仅 100mw左右,待机功耗下降90%。

传统上,为了提升远场语音识别的准确率,一般会使用麦克风阵列作为拾音器,利用多通道语音信号处理技术,增强目标信号,提升语音识别精度。

二、硬件层面:端到端软硬一体远场语音交互方案

需要指出的一点是,智能音箱的上述两级芯片都是基于RAM芯片,这种芯片做语音唤醒和识别,一方面是成本很高(因为对计算能力要求较高),另一方面功耗也很高。一般来说,平均功耗在 1 W 以上。

贾磊曾在去年11月「百度大脑·语音能力引擎论坛」上向雷锋网AI科技评论介绍说:“我们的模型能提取生物的信号本质特征,作为对比,Google的系统是假设两路麦克信号对应频带之间的信息产生关系,这没有挖掘频带之间的信息,这也是Google在识别率上偏低的原因。”

马克思主义哲学告诉我们,危与机对立统一,既相互依存,也可相互转化。突如其来的疫情,不可避免带来各种风险挑战,但中国经济长期向好的基本面没有改变。如果被动应付束手无策,就会步步被动,被风险挑战压垮;只有科学应对、迎难而上,才能化险为夷、浴火重生,在危机中捕捉和创造机遇。

对于智能音箱,唤醒是一个重要的问题。目前业界采用的低功耗唤醒方案常用的方式是两级唤醒。第一级唤醒计算量很小,主要用于监听,是全天候运转的。第二级唤醒计算量很大,是在发生可能疑似唤醒的时候来做决策。通常用的低功耗芯片的远场语音交互解决方案,都是低功耗芯片部分只承载第一级唤醒,这样全天候的监听过程不会耗电特别多。如果发生疑似唤醒,跑在一个更强计算力的主芯片上的第二级唤醒再进行第二次检测,最终确定唤醒是不是发生。这样的两级机制,使得主芯片的算力和资源都要向第二级唤醒倾斜。

同时,由于这种建模方式是端到端一体化,无需定位声源,因此就避免了传统上由于定位出错而导致的识别准确率急剧下降。特别是对于首次唤醒(没有定位信息),高噪音下这种技术的首次唤醒率最大幅度可以提升10%以上,且能保证高精准唤醒的同时,误报率非常低。这是一点,是业内传统技术无法做到的事情。

一、软件层面:语音增强和声学建模一体化端到端建模技术

以百度官方的数据,这次新发布的智能音箱平均待机功耗只有100毫瓦左右,这完全满足 3C 产品的 0.5 瓦的待机标准,这也意味着任何一个国家认证的节能、环保的绿色家电产品,都可以搭载鸿鹄语音芯片。因此可以说,鸿鹄芯片也是业界首个达到该标准的集成完整远场语音交互端侧技术的语音芯片产品。

图片来源于2019年11月,百度语音引擎论坛

三、语音交互领域,端到端的革新

如前面提到,相对于百度智能音箱之前产品所采用的基于传统“数字信号处理的前端增强模块”+“后端语音识别声学建模过程”的串联方法,这种基于复数卷积神经网络的语音增强和声学建模一体化端到端建模技术,获得了错误率超过30%以上的降低。

这种方法的成功,说明了一点:“端到端建模”将成为远场语音识别产业应用的重要发展方向。

雷锋网原创文章,。详情见转载须知。

2)增强和识别模块优化目标不一致。前端语音增强模块的优化过程独立于后端识别模块。该优化目标与后端识别系统的最终目标不一致。目标的不统一很可能导致前端增强模块的优化结果在最终目标上并非最优。

AI 科技评论对其背后技术做了详细分析,认为这主要得益于在他们在语音交互方面提出的两大「端到端一体化」创新,

1)在软件层面。目前智能音箱领域流行的语音交互方案为:先语音增强,后语音识别。这种过程把语音交互分割成了两个独立的过程,在优化过程中往往目标不一致。而百度直接采用了“基于复数卷积神经网络的语音增强和声学建模一体化端到端建模技术”(很长的一段话,关键词:复数卷积、端到端、增强和建模一体化),以字识别准确率作为唯一的优化目标。

机遇要捕捉,也要创造。中国内需市场庞大,要紧紧瞄准需求,补齐短板,加快5G网络、数据中心等“新基建”投资与建设,为新兴产业、未来产业打下坚实基础;要将疫情作为一次“体检”,扫除危机之下的难点、堵点,让全产业链经济循环更加健康畅通;要继续向改革要动力,深入推进重要领域和关键环节改革,力争取得实质性、突破性、系统性成果,让疫情危机切切实实变成发展转机。

一颗芯片,即可同时解决全部的语音交互功能且功耗如此之低,百度鸿鹄无疑为全球业界打造出了一个新的标杆。而回归到智能音箱本身,软硬一体化的大规模使用,或许也将对业内其他厂商带来不小的压力。

基于这种研究,贾磊在去年曾向记者表示:“三年以内,远场语音技术的识别率将达到近场识别率,因为有了这个技术,远场识别问题基本可以得到解决,这是一个很大的跨学科创新。”

与此同时,社区防疫物资奇缺,甚至要拿塑料雨衣当成防护服,再加上每天面对各种负面信息,同事们都心生恐惧。她自己也有一段时间害怕回家,担心把病毒传染给了患病的母亲。

“这我们不应该低估它(新冠病毒),我们必须现实,”他说道,“只有在允许身体接触之后,才有可能进行足球赛事。足球仍是接触性的运动,接触是你首要应该避免的事情之一,每个人都这么说,这仍然事关保持社交距离。”

另一方面,将模型嵌入芯片,用一颗芯片解决所有语音交互问题。不但具备较高的唤醒精度还具备超低的误报。这种新的软硬一体化架构,直接解放了主芯片,大大降低了对主芯片运算性能的要求,从而在价格和功耗上都能得到大幅度优化。这种架构的革新,必将成为改变整个智能音箱(远场交互场景)行业的一次技术革新。

比如,疫情使线下消费骤然遇冷,但也激发了线上“宅经济”火热升温。病毒给人民群众的健康带来威胁,但也促使健康医疗等新兴产业加速成长。疫情在全球加速蔓延,我国外部需求发生逆转,也倒逼我们不断修炼内功,最大化释放内需潜力……只要我们善于危中求机、化危为机,就一定能把握住时与势,催生发展新动能,开辟发展新境界。

离汉通道关闭、城区机动车禁行、居民小区封控管理……伴随着武汉新冠肺炎疫情防控步步升级,人口密集的百瑞景社区患者日渐增多,接踵而来的出行难、就医难、购物难等问题日益突出。

但谷歌提出的FCLP结构(Factored Complex Linear Projection)仍然是以信号处理方法为出发点,用一个深度学习网络去模拟和逼近信号波束,因此也会受限于信号处理方法的一些先验假设。相对于传统基于数字信号处理的麦克阵列算法,谷歌得到了16%的相对错误率降低。

这里需要指出的是,由于鸿鹄芯片可以完成所有语音交互(远场拾音、唤醒、定位等)的功能,这就使得,经鸿鹄芯片提取的特征可以直接传递到云端,在云端进行高精准识别,而无需占用主芯片的任何计算资源。这种软硬一体的端到端架构,实现了高性能语音体验和极低成本智能硬件的统一。

相比于谷歌的方法,该方法彻底抛弃了数字信号处理学科的先验知识,模型结构设计和数字信号处理学科完全脱钩,充分发挥了CNN网络的多层结构和多通道特征提提取的优势。

首先他们提出的“端到端建模技术”,直接将语音增强和声学建模两个过程融合为一,避免了在各自过程中优化不统一所带来的错误率下降,全局的优化目标只有一个,即字准确率。这种想法彻底抛弃了各种先验知识(以及所带来的错误),模型结构设计和数字信号处理学科完全脱钩,充分发挥了CNN网络的多层结构和多通道特征提提取的优势,是一个颠覆性的思想,显然还有更多可开拓的空间。

斯人已去,此情长存。徐祥同志对于事业的拼搏精神、对于学生的关爱之情、对于中国法治建设和中国法学事业的一腔热血,将长留我们的记忆中。

在她最无助的时候,社区居民——瑞景爱心跑团核心成员喻俊的一通电话,主动提出承担代购、送菜等志愿服务,给了她莫大的希望。在他的带动下,如今400多位志愿者伸出了援手,为社区居民提供暖心志愿服务。很多居民看到社区工作人员条件艰苦,主动送来消毒水、酒精、防护服等物资,这让她倍感欣慰。

图片来源于2019年11月,百度语音引擎论坛

目前,绝大多数在售的智能音箱产品系统所采用的多通道语音识别系统,都是由一个前端增强模块和一个后端语音识别声学建模模块串联而成的:

对这些问题最好的解决,就是将语音增强和语音识别的建模进行端到端一体化,设计一套深度学习模型,输入是多路麦克信号,输出是目标语言的文字,模型的优化目标只有一个,即字准确率。

我们仍从传统方法说起。

徐祥同志在武汉大学求学任教二十载,深爱着珞珈山的一切,深爱着法学院、国际法研究所的师生,他忠诚党的教育事业,为人师表、诲人不倦,永远值得我们学习。

“社区工作千头万绪,我们有时感到委屈甚至憋屈,很多同事都哭泣过;有时感到恐惧,关键时刻没有一个撂挑子、当逃兵;有时感到高兴,居民不仅自救,而且还关心我们。”

最近上过央视、受到过湖北省委组织部表彰和武汉市委书记“点赞”,武汉市武昌区百瑞景社区党委书记王涯玲27日提起近期的抗“疫”生活,如此袒露心声。

回过头来,我们去看百度提出的这整套技术所带来的识别错误率降低,首次唤醒率提升(同时误报率极低)以及待机功耗下降,显然还有可提升的空间。这种“可提升”,是由其在软、硬两个层面的革新所带来的。

针对这样的问题,显然设计出一款专用的语音交互芯片,1)通过自定义指令集,来提升算力;2)更重要的是,把所有原来跑在主芯片上的语音交互全部放在这颗芯片中,从而主芯片无需再承载复杂的语音交互的计算功能,这可以显著节省语音交互部分对整体资源的占用;同时主芯片也可以选择比较廉价的芯片。

在家人的坚定支持下,她每天早上7点多钟就来到办公室,给大家梳理问题、加油鼓劲,主动与投诉居民进行沟通,相信自己的热情能够融化居民们的坚冰。

百度在智能音箱上的第二个提升要归功于他们提出的端到端软硬一体化远场语音交互方案。

在保留原始特征相位信息的前提下,这个模型同时实现了前端声源定位、波束形成和增强特征提取。该模型底部CNN抽象出来的特征,直接送入端到端的流式多级的截断注意力模型(SMLTA)中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。

图片来源于2019年11月,百度语音引擎论坛

2)在硬件层面。传统上,智能音箱的语音唤醒一般是两级唤醒,这需要一颗低功耗唤醒芯片和一颗计算性能高的主芯片来配合完成。这种框架导致平均功耗极大(1W以上),且对主芯片的算力要求极高。百度提出了端到端软硬一体化框架,将所有语音交互任务都放到一颗低功耗语音交互芯片(鸿鹄)上,主芯片无需承载复杂的语音交互的计算功能,显著节省语音交互部分对整体系统资源的占用。

重视哲学思维、善用哲学方法,是习近平总书记治国理政思想的鲜明特色。党的十八大以来,习近平总书记多次提出领导干部要学习马克思主义哲学,提高战略思维能力、综合决策能力、驾驭全局能力。在这次人类历史罕见的疫情面前,习近平总书记再次指出了如何化危为机这一重大课题。

这在软、硬两个层面革新,对整个(远场)语音交互都是颠覆性的。

百度采用了类似的思想,即做“语音增强和语音声学建模一体化”的端到端建模,不过他们所采用的是“基于复数的卷积神经网络”。

这样的性能提升在业界可谓首屈一指,值得探索。

需要一提的是,这个端到端网络所占内存不到200K,因此非常适合内嵌到芯片当中。

徐祥同志长期从事国际私法的教学和研究工作,全身心投入到学术研究和教书育人工作之中。他严谨踏实、谦虚随和、认真勤奋、淡泊名利、严于律己,具有高尚的人格魅力和无私的奉献精神,深受学生爱戴,为国际法研究所和法学院的发展做出了重要贡献。

这种对能耗的压缩,是传统基于RAM芯片的架构所无法承担的使命。

但德霍格警告说,最早也要到9月才能恢复足球比赛“世界还没有为足球赛事做好准备,我希望这种情况能很快改变,我真诚希望如此。但现在你需要更多的耐心。”

整个网络的优化准则完全依赖于语音识别网络的优化准则来做,即完全以识别率提升为目标来做模型参数调优。

30%的降低,这也是近期深度学习远场识别技术中,最大幅度的产品性能提升。

首先我们来分析一下,智能音箱的语音交互的软件层面为什么必须选择端到端建模的处理方式。

根据此前传出的消息,德甲正准备下个月重启,英超希望能够6月空场举行,意甲和西甲也都有计划5月中旬恢复训练。

图片来源于2019年11月,百度语音引擎论坛

百度推出的鸿鹄芯片,据官方介绍,采用了双核Hifi4 架构自定义指令集,超大内存,台积电40nm工艺(对于更高的工艺也没有必要),此外100mw左右平均工作功耗,即可同时支持远场语音交互核心的阵列信号处理和可用于唤醒的深度学习计算能力。芯片架构上,鸿鹄内嵌了上面提到的端到端一体化的建模算法,在内存结构和分级内存加载策略,以及cache、双核通信等结构上做了定制化的工作,能够实现深度学习计算过程和数据加载的高度并行。

前端增强模块通常包括到达方向估计(DOA)和波束生成(BF)。DOA技术主要用于估计目标声源的方向,BF技术则利用目标声源的方位信息,增强目标信号,抑制干扰信号。

目前,武汉市7000多个居民小区实行封控管理。为做到24小时内及时处理居民需求,百瑞景社区建立了对口服务的志愿服务机制,成立居民生活保障小组。许多楼栋以前素不相识的居民,如今不仅都在互帮互助,而且积极参与社区疫情防控。