人工智能的快速發(fā)展和廣泛應(yīng)用使語(yǔ)言學(xué)研究步入新的階段,方言研究也隨之煥發(fā)新的生機(jī)。人工智能可以有效幫助人們識(shí)別方言,甚至學(xué)習(xí)不同地區(qū)的方言。不過(guò),人工智能在推動(dòng)方言研究發(fā)展的同時(shí),也存在一定局限性。對(duì)此,要綜合語(yǔ)言學(xué)專(zhuān)業(yè)知識(shí)和人工智能技術(shù),使之互補(bǔ)融合、協(xié)同發(fā)展。
應(yīng)用舉隅
人工智能在語(yǔ)音識(shí)別、合成與翻譯等領(lǐng)域已得到廣泛應(yīng)用,眾多語(yǔ)音識(shí)別、合成與翻譯軟件不斷涌現(xiàn),很多方言也被納入其中。比如,中國(guó)電信星辰超多方言語(yǔ)音識(shí)別大模型能夠同時(shí)識(shí)別理解粵語(yǔ)、上海話(huà)、四川話(huà)、溫州話(huà)等30多種方言,廣泛應(yīng)用于智能客服等領(lǐng)域。微信的語(yǔ)音輸入已支持對(duì)粵語(yǔ)的識(shí)別,實(shí)現(xiàn)了粵語(yǔ)向普通話(huà)的翻譯。訊飛聽(tīng)見(jiàn)具備將語(yǔ)音實(shí)時(shí)轉(zhuǎn)換成文字的功能,支持多種語(yǔ)言和方言的識(shí)別,并且還配備了翻譯功能。訊飛輸入法內(nèi)置202種方言語(yǔ)音識(shí)別能力,借助訊飛星火語(yǔ)音大模型的語(yǔ)音合成技術(shù),可以聽(tīng)到各地方言的表達(dá)。2019年,廈門(mén)大學(xué)中國(guó)語(yǔ)言文學(xué)系的許彬彬團(tuán)隊(duì)攜手洪青陽(yáng)科研團(tuán)隊(duì)成功研發(fā)出閩南方言人工智能語(yǔ)音系統(tǒng),由世界晉江青年聯(lián)誼會(huì)推出的“說(shuō)咱閩南話(huà)”應(yīng)用程序正是搭載了這一人工智能語(yǔ)音系統(tǒng)。該應(yīng)用程序具備高度精確的方言識(shí)別能力,能夠辨識(shí)閩南方言不同地域方言及其多樣化的口音特征。此外,它實(shí)現(xiàn)了語(yǔ)音與文字之間的無(wú)縫轉(zhuǎn)換,以及普通話(huà)甚至英語(yǔ)與閩南方言的雙向互譯,搭建起溝通與交流的橋梁,為文化對(duì)話(huà)開(kāi)辟了新途徑。閩南地區(qū)擁有豐富的旅游資源,而作為“古漢語(yǔ)活化石”的閩南方言對(duì)于非閩南方言區(qū)的中國(guó)人而言往往較難理解,遑論外國(guó)游客。而有了閩南方言人工智能語(yǔ)音系統(tǒng),各地游客就可以輕松實(shí)現(xiàn)與當(dāng)?shù)鼐用竦慕涣鳎私猱?dāng)?shù)氐臍v史和文化,從而更加深入地體驗(yàn)閩南的風(fēng)土人情。
在方言研究領(lǐng)域,人工智能技術(shù)的應(yīng)用可以使研究者更便捷甚至深入地了解方言詞匯,包括其發(fā)音、意義、用法,甚至是起源和發(fā)展。比如,在閩南方言研究中,人工智能可以通過(guò)分析大量閩南方言語(yǔ)料庫(kù),識(shí)別并提取出閩南方言詞匯特征,如詞匯結(jié)構(gòu)、類(lèi)別和用法等,從而有助于理解閩南方言詞匯的構(gòu)成規(guī)律,并且還可以輔助研究者進(jìn)行方言歷時(shí)演變的研究。人工智能的應(yīng)用推動(dòng)了不同學(xué)科研究方法的交叉使用,可以幫助研究者提高研究效率。以往,方言地圖的繪制需要依靠大量人力去實(shí)地考察、記錄和整理數(shù)據(jù)。這一過(guò)程不僅需要耗費(fèi)大量時(shí)間和精力,而且容易受到主觀(guān)因素干擾,從而影響結(jié)果的精確性。而借助人工智能技術(shù),研究者只需要輸入相關(guān)的方言數(shù)據(jù),就可以自動(dòng)生成所需的方言地圖,不僅提升了研究效率,還降低了人為因素帶來(lái)的誤差。人工智能在地理語(yǔ)言學(xué)領(lǐng)域的應(yīng)用,為語(yǔ)言資源的深度開(kāi)發(fā)提供了更多可能性,同時(shí)也為方言資源的保護(hù)與開(kāi)發(fā)提供了強(qiáng)有力的支撐。此外,人工智能提供了新的研究方法和視角。比如,實(shí)驗(yàn)語(yǔ)音學(xué)借助人工智能技術(shù)可以對(duì)方言語(yǔ)音進(jìn)行更為精細(xì)化的分析,包括音高、音長(zhǎng)、音強(qiáng)、音色等語(yǔ)音四要素的定量分析與對(duì)比研究。這不僅有助于揭示方言間的聲學(xué)差異,還能深入探索語(yǔ)音演變的規(guī)律。借助自然語(yǔ)言處理技術(shù),可以高效處理語(yǔ)料庫(kù)中文本的自動(dòng)分詞、詞性標(biāo)注以及句法結(jié)構(gòu)的分析,提升數(shù)據(jù)處理的效率與精確度。
未來(lái)展望
方言語(yǔ)音識(shí)別種類(lèi)與覆蓋區(qū)域有待增加。雖然閩南方言的語(yǔ)音識(shí)別已取得一定成果,但其他諸多方言的識(shí)別進(jìn)程仍較為緩慢,這極大限制了方言研究的廣度和深度。比如,在當(dāng)前的方言語(yǔ)音識(shí)別系統(tǒng)中,客家方言的識(shí)別率普遍較低,可識(shí)別的詞匯和句子種類(lèi)也相對(duì)較少。在方言語(yǔ)音合成領(lǐng)域,某些方言的處理仍面臨挑戰(zhàn)。以蘇州方言為例,蘇州方言有31個(gè)聲母、41個(gè)韻母以及7個(gè)聲調(diào),其語(yǔ)音特征表現(xiàn)出高度的復(fù)雜性和多樣性。在語(yǔ)音合成過(guò)程中,人工智能需要準(zhǔn)確模擬蘇州方言的發(fā)音特點(diǎn)和語(yǔ)調(diào)變化,這需要大量的語(yǔ)料數(shù)據(jù)和精細(xì)的算法設(shè)計(jì)。目前的方言語(yǔ)音識(shí)別、合成與翻譯等,往往只在局部方言區(qū)得到使用,而難以真正實(shí)現(xiàn)各種方音全部涵蓋。因此,為促進(jìn)方言語(yǔ)音識(shí)別、合成與翻譯等技術(shù)的發(fā)展,應(yīng)進(jìn)一步加強(qiáng)方言語(yǔ)音資源的搜集和整理工作,以提高方言識(shí)別系統(tǒng)的準(zhǔn)確率和覆蓋率。
方言研究的數(shù)據(jù)化資源支持有待提高。人工智能依托于大規(guī)模的數(shù)據(jù)模型,而方言數(shù)據(jù)的不足會(huì)導(dǎo)致研究者難以全面、準(zhǔn)確地了解方言的多樣性和復(fù)雜性。方言類(lèi)型多樣,流傳時(shí)間久,但方言資源大規(guī)模的系統(tǒng)性記錄卻很晚才開(kāi)始,且方言點(diǎn)的采樣依舊不夠完善。目前學(xué)術(shù)研究涉及的只有“中國(guó)語(yǔ)言資源保護(hù)工程采錄展示平臺(tái)”屬于系統(tǒng)性采集。研究者在探索方言的演變規(guī)律、特點(diǎn)以及與其他方言的異同點(diǎn)時(shí),缺少足夠的數(shù)據(jù)支持。此外,數(shù)據(jù)庫(kù)的匱乏亦可能引發(fā)方言研究的偏頗性和主觀(guān)傾向。由于數(shù)據(jù)資料的缺乏,研究者只能依據(jù)有限的語(yǔ)料進(jìn)行推斷和分析,這可能導(dǎo)致研究結(jié)果的片面性和主觀(guān)性。同時(shí),缺乏數(shù)據(jù)支持的研究也難以得到廣泛的認(rèn)可和驗(yàn)證,從而影響了方言研究的科學(xué)性和權(quán)威性。此外,數(shù)據(jù)化資料的缺乏限制了方言研究的現(xiàn)代化手段應(yīng)用。在人工智能背景下,大數(shù)據(jù)分析等技術(shù)逐漸成為語(yǔ)言研究的關(guān)鍵工具。然而,受限于方言數(shù)據(jù)庫(kù)的匱乏,這些技術(shù)難以在方言研究中得到廣泛應(yīng)用。比如,在方言語(yǔ)料庫(kù)的建立上,由于缺乏足夠的原生方言語(yǔ)料數(shù)據(jù),方言語(yǔ)料庫(kù)建立困難,方言的語(yǔ)音、詞匯和語(yǔ)法研究也因此受到了限制,影響了方言語(yǔ)音技術(shù)的實(shí)際應(yīng)用效果。對(duì)此,應(yīng)加強(qiáng)方言數(shù)據(jù)的收集和整理工作,建立更加完善、系統(tǒng)的方言數(shù)據(jù)庫(kù),為方言研究提供有力的數(shù)據(jù)支持。
應(yīng)用于方言研究的人工智能技術(shù)有待進(jìn)一步發(fā)展。目前的人工智能技術(shù)尚無(wú)法處理語(yǔ)言交際中一些涉及語(yǔ)氣和情感的難以形式化或規(guī)則化的語(yǔ)音、詞匯或語(yǔ)法單位。盡管在方言研究方面人工智能發(fā)揮了很大作用,但也存在一定的局限性,研究者不能完全把方言研究交給人工智能。在方言的語(yǔ)音分析中,人工智能技術(shù)可以精確測(cè)量和比對(duì)方言的語(yǔ)音參數(shù)。然而,語(yǔ)音往往受語(yǔ)境、情感等因素的影響,這些復(fù)雜因素是人工智能很難捕捉和分析的。比如,閩南方言的連讀變調(diào)受到復(fù)雜的語(yǔ)法規(guī)則、語(yǔ)用功能的控制,則難以讓機(jī)器理解和生成。再如,溫州方言中的“爭(zhēng)”字,表示“爭(zhēng)取”意義時(shí)是陰平調(diào),表示“爭(zhēng)奪”意義時(shí)是陰上調(diào),表示“爭(zhēng)論”意義時(shí)是陽(yáng)上調(diào)。這種語(yǔ)調(diào)的微妙變化,需要根據(jù)上下文語(yǔ)境具體分析,只有當(dāng)?shù)厝嘶驅(qū)υ摲窖院苁煜さ娜?,才能真正把握。而人工智能在處理這方面的問(wèn)題時(shí),由于尚無(wú)法充分理解這些方言音韻的內(nèi)在規(guī)律,也就無(wú)法很好地應(yīng)對(duì)。此外,方言作為語(yǔ)言的一種變體形式,承載著特定地域的文化與歷史傳承,方言往往承載著當(dāng)?shù)厝嗣癃?dú)特的生活方式和情感。以閩南方言“趁食”和粵方言“揾食”為例,它們描繪人們?yōu)榱松?jì)找工作謀生路不斷奔波的情景,展現(xiàn)了勤勞和堅(jiān)持不懈的精神。這兩個(gè)詞語(yǔ)如果從字面義理解(“趁”是“賺”的意思,“趁食”的字面義是“賺吃的”;“揾”是“找”的意思,“揾食”的字面義是“找吃的”),可能會(huì)使人誤解為與實(shí)際內(nèi)涵相反的意思,這種復(fù)雜的情感與語(yǔ)境是人工智能難以完全理解的。因此,鑒于目前的發(fā)展程度,在進(jìn)行方言研究時(shí),研究者暫時(shí)只能將人工智能視為一種輔助工具,發(fā)揮其檢索和分析的能力,以確保研究的科學(xué)性和準(zhǔn)確性。
總的來(lái)說(shuō),人工智能帶來(lái)了方言研究的新發(fā)展,但在深度和廣度上仍存在不足。因此,語(yǔ)言學(xué)研究者還需對(duì)方言的各個(gè)領(lǐng)域進(jìn)行深入探索,全面收集足夠豐富的方言數(shù)據(jù),推動(dòng)方言研究的進(jìn)一步發(fā)展。只有如此,在人工智能帶來(lái)方言研究發(fā)展的同時(shí),方言研究才能為人工智能的發(fā)展提供正向反饋。人工智能與方言研究的協(xié)同發(fā)展,或許能夠?yàn)樽匀徽Z(yǔ)言及人工語(yǔ)言的研究與應(yīng)用帶來(lái)更多可能。
(作者系華僑大學(xué)文學(xué)院教授)
原文鏈接:
中國(guó)社會(huì)科學(xué)網(wǎng):https://cssn.cn/skgz/bwyc/202501/t20250122_5841705.shtml
學(xué)習(xí)強(qiáng)國(guó):https://www.xuexi.cn/lgpage/detail/index.html?id=2165914416949160291&item_id=2165914416949160291
(編輯:王一力)