一文讀懂智能語音產業格局:蘋果、微軟無計可施?中國力量正在崛起

時間:2020-9-2 11:00:00

原創:?AI報道?AI報道?

據《圣經·舊約》記載,人類的語言、口音,最初都是一樣的。然而,人類為了對抗上帝“洪水降臨”的誓言,聯合起來修筑通天高塔“巴別塔”。為了阻止這一計劃,上帝打亂了人類的語言和口音,使其變得多種多樣。于是,人們難以相互理解,因爭斗不斷,而四散而去,巴別塔終成廢墟。

小米做家電早就不是什么新鮮事,從2013年開始涉足電視到此次發布的冰箱,小米的家電版圖中已經包含了22個品類。

關于這則寓言的解釋,眾說紛紜,但令人印象深刻的是語言的力量。

如今,隨著AI為代表的新技術、新理念的快速應用和深入發展,語音識別、自然語言處理、機器翻譯等智能語音相關技術已經不再神秘。借助AI的力量,推進下一代人機交互技術的落地,讓計算機“開口說話”,甚至“能說會道”,成為全球科技界共同面對的難關之一。

智能語音:下一代人機交互技術

從理論上來說,智能語音包括語音識別(Automatic Speech Recognition ,簡稱ASR)、自然語言處理(Natural Language Processing ,簡稱NLP)及語音合成(Text To Speech ,簡稱TTS)三大技術體系。

語音交互流程

無論是語音識別,還是自然語言處理和語音合成,都融入了計算機科學、人工智能、語言學等技術和學科。事實上,這三種技術的融合正構成了人與計算機之間語音交互的過程,即“聽見”、“聽懂”及“會說”。

在AI技術的加入之后,計算機能通過機器學習實現訓練和推理,從而讓“能說會道”成為可能。同時,隨著智能語音的發展,也意味著傳統人機交互技術和行業的格局將被徹底顛覆。

應用場景:語音助手貫穿C端、B端

目前,全球智能語音產業鏈的格局已經形成。與計算機視覺等其他AI相關技術一樣,智能語音分為三個層級,即基礎層、技術層和應用層?;A層相應對的就是底層硬件;技術層包含語音勢識別、自然語音處理、語音合成三大核心技術以及其他分支領域;應用層則代表各類應用場景。

智能語音的應用場景分為C端和B端兩大類,分別為移動終端、汽車、家居以及電商、教育、醫療、金融、安防、營銷等傳統行業。其中,以亞馬遜Alexa、蘋果Siri、微軟Cortana、百度小度為代表的語音助手或對話式機器人,在智能手機、智能音箱、車載設備、陪伴機器人以及客服等場景中被廣泛應用。值得注意的是,目前語音助手幾乎成為一種通用技術和平臺貫穿整個智能語音應用場景,是推動行業發展的重要技術和應用。

同時,在市場的需求的刺激下,智能語音也陸續在翻譯機、車載設備、陪伴機器人、服務機器人等應用場景中實現落地,走進了人們的日常生活,能夠完成基本的語音交互??傊?,智能語音所帶來的革命的交互方式,不僅為C端用戶帶去更好地體驗,也有助于B端提升業務的效率,更形成了全新的行業和業態。

行業格局:國外科技巨頭 VS 中國新興力量

在全球,Facebook、亞馬遜、蘋果、微軟和谷歌等科技巨頭在智能語音領域快速布局,對傳統語音技術大廠Nuance形成了巨大的沖擊。而在國內,BAT為首的互聯網巨頭也不甘示弱,紛紛涉足智能語音市場。同時,科大訊飛、云知聲、思必馳等中國新興力量扮演黑馬角色,成長速度令人振奮。尤其是科大訊飛在智能語音領域可謂一枝獨秀,大有追趕國外大廠之勢。

縱觀行業格局來看,老牌科技巨頭和國內BAT基本還是遵循老套路,依靠流量優勢來收割市場。例如,線上依托的是云計算平臺和流量入口,推動了語音助手或對話式機器人的技術輸出;線下推出智能音箱及智能家居設備,開拓出全新的流量入口。

另一邊,新興力量則更緊靠應用場景,例如科大訊飛的翻譯機、陪伴機器人;云知聲深入醫療、汽車及物聯網等領域;思必馳專注汽車、家居和機器人行業,也都闖出一片新天地。

如今,國內外科技及互聯網巨頭基本已經形成了AI技術的閉環或生態,依靠的就是龐大的財力和研發實力,展開激烈的競爭。其中,即便是蘋果Siri都一直被詬病,更被戲稱為“人工智障”。而最近,微軟確認將放棄iOS/Android版Cortana應用,很可能意味著“小娜”已被微軟棄用??梢?,傳統科技巨頭都難以在智能語音市場上輕易占便宜。

而國內以科大訊飛為代表的新興力量則深耕應用場景,并積極向新的場景和領域拓展,實現AI技術的賦能,以求突出重圍。流量、入口、技術、應用場景等,都將成為未來行業不可無視的關鍵詞。

然而,由于目前AI發展仍然處于初級階段,各技術和各領域均未形成牢不可破的“技術壁壘”或“護城河”,所以依舊存在“彎道超車”的可能。未來究竟如何,可謂機遇和挑戰并存。

AI入口之爭:中國力量正在崛起

入口之爭是互聯網時代永恒的話題。而結合人機交互到人機對話的大趨勢來看,智能語音勢必將形成更多全新的AI入口。

以激烈競爭的智能音箱市場為例,各大科技巨頭爭奪的根本目標仍然是入口。這主要取決于AI對數據的無限渴求,只有依托海量的數據,才能提升AI訓練和推理的效率,從而推動相關技術的進步和發展。而更重要的是,如此便利地獲取人類語音數據,是迄今為止絕無僅有的,價值自然不言而喻。

同時,在應用場景的層出不窮的當下,智能語音幾乎能夠應用于任何行業,其對客服行業的影響就是最好的例證。因此,隨著智能語音的發展,AI在深入各行各業的同時,更能形成大量的全新的入口,獲取更多、更復雜的數據源,意義可謂非凡。

現在,國內智能語音行業已呈現出科大訊飛、百度兩大勢力齊頭并進的局面。一個是新興勢力的代表,一個是老牌互聯網巨頭,其中科大訊飛占據市場份額第一的位置,勢頭正勁,而百度則全面擁抱AI,布局大量應用場景,可謂勢均力敵。但毋庸置疑的是,中國力量已經崛起,有實力與國外科技巨頭一較高下。

總而言之,智能語音是AI從感知到認知,再到決策這一AI閉環中的核心技術。借助國內豐富的應用場景、海量的數據積累,勢必為智能語音等AI技術的發展打造出良好的成長環境,有助于中國力量爭奪這一AI關鍵入口。

另一方面,與計算機視覺不同的是,智能語音技術門檻和難度卻更高。尤其在自然語言處理方面,語義的多樣性、歧義性等問題都需要逐一克服和解決。而一旦跨過這一道難關,真正意義上的計算機“能說會道”將不再遙遠。

如果說“巴別塔”是人類文明的制高點的話,那智能語音何嘗不是AI發展中的一座“通天塔”呢?

圖片來源于網絡,侵刪