智能語音識別在廣播電視監(jiān)測的應(yīng)用
時(shí)間:2022-04-09 02:48:05
導(dǎo)語:智能語音識別在廣播電視監(jiān)測的應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:隨著媒體深度融合不斷推進(jìn),各類新興媒體持續(xù)涌現(xiàn)、遍地開花,廣播電視內(nèi)容監(jiān)測從傳統(tǒng)的廣播、電視頻道監(jiān)測擴(kuò)展到了互聯(lián)網(wǎng)新興媒體視聽內(nèi)容。海量、多元的互聯(lián)網(wǎng)視聽內(nèi)容給監(jiān)測監(jiān)管工作帶來了巨大的挑戰(zhàn),如何適應(yīng)這一新形勢是各級監(jiān)管機(jī)構(gòu)面臨的共性問題。本文旨在探討將自動(dòng)語音識別和智能語義分析技術(shù)結(jié)合起來應(yīng)用到監(jiān)測監(jiān)管工作中的可行性及優(yōu)勢。
關(guān)鍵詞:智能語義分析;自動(dòng)語音識別;內(nèi)容監(jiān)測
1引言
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展普及,手機(jī)、電腦逐漸成為了人們獲取信息、學(xué)習(xí)娛樂的主要渠道,與之對應(yīng)的各類互聯(lián)網(wǎng)新媒體傳播平臺(短視頻、直播、視頻網(wǎng)站等)不斷涌現(xiàn),海量的網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)廣播等互聯(lián)網(wǎng)視聽內(nèi)容都成為了廣播電視監(jiān)測監(jiān)管對象,使得監(jiān)測監(jiān)管工作變得更加艱巨和復(fù)雜,對監(jiān)測監(jiān)管從業(yè)人員的專業(yè)素質(zhì)和監(jiān)測技術(shù)手段提出了更高的要求。傳統(tǒng)廣播電視內(nèi)容監(jiān)測是將音視頻節(jié)目錄像先存貯,再通過圖像識別、關(guān)鍵幀對比、語音特征識別等技術(shù)手段進(jìn)行監(jiān)測監(jiān)管,存在監(jiān)測時(shí)效性差、計(jì)算存貯資源需求高、違規(guī)識別準(zhǔn)確率低等問題。隨著互聯(lián)網(wǎng)視聽監(jiān)測業(yè)務(wù)的不斷拓展,這些劣勢越發(fā)凸顯,實(shí)現(xiàn)快速、實(shí)時(shí)、準(zhǔn)確的對巨量、多元的互聯(lián)網(wǎng)視聽內(nèi)容進(jìn)行監(jiān)測監(jiān)管的需求變得越來越迫切。
2自動(dòng)語音識別和智能語義分析技術(shù)
2.1自動(dòng)語音識別。語音識別(ASR)是語音交互中最基礎(chǔ)的一個(gè)AI技術(shù)環(huán)節(jié),就是將一段語音信號轉(zhuǎn)換成相對應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型、語言模型以及字典與解碼四大部分。此外,為了更有效地提取特征,往往還需要對所采集到的聲音信號進(jìn)行濾波、分幀等音頻數(shù)據(jù)預(yù)處理工作,將需要分析的音頻信號從原始信號中合適地提取出來。特征提取工作將聲音信號從時(shí)域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分;而語言模型則根據(jù)語言學(xué)相關(guān)的理論,計(jì)算該聲音信號對應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對詞組序列進(jìn)行解碼,得到最后可能的文本表示,連續(xù)語音識別原理框圖如圖1所示。當(dāng)前,該技術(shù)發(fā)展已非常成熟,車載語音助手、智能語音輸入等都已經(jīng)普及在我們的各種生活場景中。2.2智能語義分析。智能語義分析是自然語言理解(NLP)的關(guān)鍵,自然語言理解是人工智能領(lǐng)域中的核心課題之一。當(dāng)前,智能語義分析可以對文本進(jìn)行自動(dòng)化處理,主要應(yīng)用于要素抽取、智能審核、輿情分析、知識搜索、自動(dòng)寫作等,在分析歧義、詞語省略、代詞所指、意圖識別等的理解方面依然存在不足。但是,隨著近年來人工智能技術(shù)的迅猛發(fā)展,經(jīng)過不斷的演化迭代,其智能化、類人化的理解能力已經(jīng)越來越高,按照這個(gè)趨勢,未來計(jì)算機(jī)一定能夠逐步接近甚至達(dá)到類人自然語言處理能力。通過以上介紹不難發(fā)現(xiàn),將語音自動(dòng)識別和智能語義分析結(jié)合起來,運(yùn)用到廣播電視內(nèi)容監(jiān)測中,從技術(shù)實(shí)現(xiàn)上來說已經(jīng)沒有障礙,首先通過自動(dòng)語音識別將音視頻內(nèi)容文本化,然后再利用智能語義分析對文本化的音視頻內(nèi)容進(jìn)行分析監(jiān)測,輸出監(jiān)測預(yù)警信息。當(dāng)前,語音識別速度和準(zhǔn)確率早已達(dá)到應(yīng)用層面的標(biāo)準(zhǔn),為音視頻內(nèi)容文本化的準(zhǔn)確率提供了保障,通過樣本庫關(guān)鍵詞句進(jìn)行文本檢索,就可以快速準(zhǔn)確識別一般違規(guī)信息,這只是快速發(fā)現(xiàn)的第一步。對于較為復(fù)雜的違規(guī)信息,智能語義分析系統(tǒng)在不斷的使用優(yōu)化過程中,通過長期連續(xù)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和人工糾偏,逐步提高對長文本、復(fù)雜結(jié)構(gòu)句式、特殊發(fā)聲等各種定制監(jiān)測需求違規(guī)信息的理解識別準(zhǔn)確率,由文本內(nèi)容檢索逐步進(jìn)化到擬人化的感知思考,應(yīng)用前景明朗。
3現(xiàn)有監(jiān)測監(jiān)管技術(shù)手段存在的不足
3.1計(jì)算資源耗用高、時(shí)效性差。我們通常采用的視頻識別對比監(jiān)測需要對整個(gè)視頻內(nèi)容進(jìn)行解碼,然后將視頻的每一幀或關(guān)鍵幀利用圖像的顏色特征、形狀特征、紋理特征等進(jìn)行模板匹配,根據(jù)同樣本庫樣本的相似程度做出評價(jià),從而作為監(jiān)測定性的依據(jù)。不管是結(jié)構(gòu)識別還是統(tǒng)計(jì)識別的圖像識別模式,視頻圖像識別對存貯讀寫速度、網(wǎng)絡(luò)傳輸速率、CPU/GPU運(yùn)算能力都提出了較高要求,占用計(jì)算資源較多,監(jiān)測運(yùn)行處理過程耗時(shí),效率較低;音頻內(nèi)容則大多采用特征值提取的監(jiān)測方式。在傳統(tǒng)主流廣播電視音視頻內(nèi)容監(jiān)測中,監(jiān)測系統(tǒng)在計(jì)算資源需求和數(shù)據(jù)處理時(shí)長上同監(jiān)測對象的數(shù)據(jù)量成正比,實(shí)踐中我們往往采取先采集收錄,再分時(shí)段調(diào)配資源對內(nèi)容進(jìn)行監(jiān)測監(jiān)管的方法,絕大部分都是事后監(jiān)管,時(shí)效性較差,想實(shí)現(xiàn)多套節(jié)目內(nèi)容實(shí)時(shí)監(jiān)測需要大量硬件投入。3.2違規(guī)誤判較多、人工參與程度高。視頻內(nèi)容因其畫面、顏色、構(gòu)圖方式存在千差萬別,而且畫面內(nèi)容往往非常復(fù)雜,干擾因素多,通常采用的是特征符號對比、顏色比例規(guī)則等方式進(jìn)行內(nèi)容監(jiān)測,輸出的疑似違規(guī)報(bào)警信息數(shù)量龐大,報(bào)假警比例較高,需要投入大量人力進(jìn)行人工審核來確定其是否違規(guī),在當(dāng)前互聯(lián)網(wǎng)視聽內(nèi)容海量化的現(xiàn)狀下,監(jiān)測能力捉襟見肘。雖然利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法進(jìn)行圖像識別的研究經(jīng)過數(shù)年來不斷的迭代優(yōu)化,擬合能力和泛化能力越來越強(qiáng),當(dāng)前來看靜態(tài)圖像識別有一定的市場應(yīng)用,但對視頻流的識別準(zhǔn)確率依然沒有質(zhì)的提升,同時(shí)對硬件資源的高度依賴也限制了它的發(fā)展前景。
4智能語音識別分析在廣播電視內(nèi)容監(jiān)測中的應(yīng)用優(yōu)勢
4.1技術(shù)成熟,資源耗用低,易于實(shí)現(xiàn)多路視聽節(jié)目內(nèi)容的實(shí)時(shí)監(jiān)測。實(shí)時(shí)自動(dòng)語音識別早已通過手機(jī)、電視、汽車等產(chǎn)品融入我們的日常生活,極大地提升了我們通信、居家、出行、購物等方方面面的用戶體驗(yàn)。一臺普通的手機(jī),實(shí)時(shí)調(diào)用極少資源,即可勝任從語音識別分析到文字輸出或者執(zhí)行用戶語音指令任務(wù)的全部流程,如果將現(xiàn)有的監(jiān)測監(jiān)管服務(wù)器集群計(jì)算資源處理能力應(yīng)用到多路自動(dòng)語音識別,那么對多路視聽內(nèi)容的實(shí)時(shí)監(jiān)聽能力將成指數(shù)級增長。每一路視聽節(jié)目都分別生成一路文本輸出,甚至可以要求互聯(lián)網(wǎng)視聽內(nèi)容入網(wǎng)必須自主接入自動(dòng)語音識別功能,向監(jiān)測監(jiān)管機(jī)構(gòu)實(shí)時(shí)發(fā)送監(jiān)聽文本信息,監(jiān)管機(jī)構(gòu)的智能語義分析系統(tǒng)只需對多路輸入的文本進(jìn)行實(shí)時(shí)分析監(jiān)測,整體上不會(huì)形成像處理視頻流對硬件資源造成的需求壓力,一旦達(dá)到這樣的能力,網(wǎng)絡(luò)空間的各類視聽內(nèi)容資源全部納入實(shí)時(shí)監(jiān)測不難實(shí)現(xiàn),廣播電視監(jiān)測監(jiān)管應(yīng)管盡管的愿景成為可能,語音識別分析監(jiān)管系統(tǒng)流程圖如圖2所示。4.2監(jiān)測對象音頻輸出品質(zhì)有保障,語音識別準(zhǔn)確率高。廣播電視及互聯(lián)網(wǎng)音視頻內(nèi)容,大部分錄音錄像或者配音都有相對專業(yè)的錄播間,以及普通話更加標(biāo)準(zhǔn)的主播、主持人。語音識別系統(tǒng)能獲得環(huán)境噪聲低、發(fā)音更加專業(yè)的高質(zhì)量音源,有條件的音視頻源碼流可以直接將人聲音軌進(jìn)行分離,相對于大家日常的語音識別應(yīng)用場景,納入監(jiān)管的視聽節(jié)目源能夠保證較高的語音識別轉(zhuǎn)換準(zhǔn)確率,為后續(xù)內(nèi)容分析監(jiān)測提供有力的支撐。4.3其他語種語言識別轉(zhuǎn)換更加便捷?;ヂ?lián)網(wǎng)音視頻內(nèi)容極其豐富,全世界不同地區(qū)、種族、語言的音視頻內(nèi)容在大屏小屏上經(jīng)??梢?,圖像識別和語音特征值提取此時(shí)基本成了“睜眼瞎”和“聾子”。一般監(jiān)測監(jiān)管工作人員通過人工都很難有效辨別有害信息,而多語言混合識別技術(shù)只需要增加相應(yīng)語種的聲學(xué)模型,即可完成監(jiān)測內(nèi)容的文本輸出和智能語義分析,可以替代需要多個(gè)擁有多語種能力人員完成的大量工作。4.4文本內(nèi)容監(jiān)管對違規(guī)有害信息的發(fā)現(xiàn)準(zhǔn)確率高。語言作為意識形態(tài)傳播的物質(zhì)外殼,擁有其他傳播形式不可撼動(dòng)的核心地位。對于一張圖片或者一段視頻資源,同一畫面內(nèi)容的語言解讀,可以有千百種,僅依靠畫面監(jiān)測或單純的語音特征識別技術(shù)并不能有效發(fā)現(xiàn)違法違規(guī)的事件解讀和輿論導(dǎo)向意圖。文本智能語義分析可以進(jìn)行同音、同義、同形等方面的變形分析,同時(shí)進(jìn)行網(wǎng)絡(luò)新詞自動(dòng)跟蹤,對最新出現(xiàn)的網(wǎng)絡(luò)用語進(jìn)行識別,能夠有效預(yù)警各種變形信息和潛在不良信息。智能語義分析系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)算法,通過對大量現(xiàn)有及新增的違規(guī)案例的持續(xù)學(xué)習(xí)反饋訓(xùn)練,可以讓計(jì)算機(jī)不斷提升對各種表述方式的理解能力,準(zhǔn)確分析出文本信息的內(nèi)在邏輯和思想要義,從而提高內(nèi)容違規(guī)判別準(zhǔn)確性。
5結(jié)語
智能語音識別分析技術(shù)相比傳統(tǒng)廣播電視監(jiān)測手段具有天然的優(yōu)勢,雖然目前智能語義分析能力還不完美,需要更加深入地開發(fā)和修正,但在當(dāng)前將其作為廣播電視監(jiān)測新的補(bǔ)充手段值得探索。
參考文獻(xiàn)
[1]洪青陽,李琳.語音識別:原理與應(yīng)用[M].北京:電子工業(yè)出版社,2020.
[2]鄧力.基于深度學(xué)習(xí)的自然語言處理[M].北京:清華大學(xué)出版社,2020.
作者:許永武 鄒金池 趙時(shí) 單位:湖北省新聞出版廣電監(jiān)管中心