來源:科技日報 發(fā)布時間:2024-6-17 10:7
科技日報訊 (記者崔爽)記者6月16日獲悉,中國電信人工智能研究院發(fā)布業(yè)內(nèi)首個支持30種方言自由混說的語音識別大模型——星辰超多方言語音識別大模型。它打破了單一模型只能識別特定單一方言的困境,可同時識別理解粵語、上海話、四川話、溫州話等30多種方言,是國內(nèi)支持方言種類最多的語音識別大模型。
基于幾億用戶和豐富應(yīng)用場景優(yōu)勢,中國電信人工智能研究院構(gòu)建了超30種、超30萬小時的高質(zhì)量方言數(shù)據(jù)庫,推出星辰超多方言語音識別大模型。研發(fā)團隊通過超大規(guī)模語音預(yù)訓(xùn)練和多方言聯(lián)合建模,率先實現(xiàn)單一模型支持30種方言自由混說語音識別,是國內(nèi)支持方言種類最多、覆蓋人口最多的語音大模型。
團隊首創(chuàng)“蒸餾+膨脹”聯(lián)合訓(xùn)練算法,解決超大規(guī)模多場景數(shù)據(jù)集和大規(guī)模參數(shù)條件下,預(yù)訓(xùn)練坍縮的問題,實現(xiàn)1B參數(shù)80層模型穩(wěn)定訓(xùn)練。星辰超多方言語音識別大模型也是業(yè)內(nèi)首個開源的基于離散語音表征的語音識別大模型,將推理時語音傳輸比特率降低數(shù)十倍。
據(jù)悉,星辰超多方言語音識別大模型已在福建、江西、廣西等地的智能客服試點應(yīng)用。接入大模型后,智能客服能秒懂30種方言,日均處理約200萬通電話。星辰超多方言語音識別大模型還落地多地市12345平臺,為客服人員賦能,提升溝通效率,助力政務(wù)工作智能化升級。