計算機(jī)科研課題推薦：基于神經(jīng)網(wǎng)絡(luò)的語音合成，帶你入門科研

Category: STEM國際競賽, 熱門資訊, 翰林嚴(yán)選 Date: 2022年4月26日上午11:32

外祖母一直是個倔強(qiáng)的小老太太，家里人怎么勸都堅決不放棄自己的粉紅翻蓋手機(jī)，可是隨著疫情不斷反復(fù)，沒有健康碼連菜市場都進(jìn)不去的外祖母終于急了，終于換上了智能手機(jī)。

自從小輩們教會外祖母使用微信，顧及到老太太的老花眼，發(fā)語音就成了家族群的常態(tài)。

老太太一發(fā)就是一長串，有時候出門在外，難免會有不方便聽的時候。每每此時，大家就不禁感嘆微信的語音轉(zhuǎn)文字功能是多么便捷。

文字、語音都是為交流服務(wù)的，而科技的進(jìn)步也讓交流變得更加快捷。在語音轉(zhuǎn)文字、文字合成語音等“黑科技”的背后，蘊(yùn)含著哪些巧妙、實(shí)用、改變?nèi)藗兩畹募夹g(shù)呢？這些源自生活的研究，能否為中學(xué)科研帶來靈感呢？

社恐福音：語音轉(zhuǎn)文字
語音識別是一門非常復(fù)雜的學(xué)科，包含了聲學(xué)、信號處理、計算機(jī)科學(xué)、語言學(xué)、心理學(xué)等相關(guān)學(xué)科的知識，也是十年來發(fā)展最快的技術(shù)之一，并已經(jīng)滲透到了人們的生活中，比如微信語音轉(zhuǎn)文字功能。

19年微信語音添加了語音轉(zhuǎn)文字功能后，解決了某些場合不方便聽語音的難題，并且經(jīng)過幾年技術(shù)優(yōu)化，一部分方言的識別也得以實(shí)現(xiàn)。

“再也不用擔(dān)心上學(xué)/上班時家里人發(fā)語音，又不方便戴耳機(jī)聽的情況啦！"

語音轉(zhuǎn)文字的出現(xiàn)，不僅滿足了不同場景下人們的社交需求，還可以應(yīng)用到記錄工具，將聲音轉(zhuǎn)換為文字，便于工作學(xué)習(xí)等的記錄，提高效率。

從文字到語音的“逆發(fā)展”
外祖母老花眼，看手機(jī)信息還要帶上老花鏡，所以家里人都盡量給她發(fā)語音，但是總有不方便說話的時候，這就需要語音合成技術(shù)的幫忙了。

語音合成又稱文本語音轉(zhuǎn)換（Text to Speech，TTS）技術(shù)，顧名思義，是把文本信息轉(zhuǎn)化成語音信息。

在2011年9月20日iPhone4S的發(fā)布會上，蘋果高管與手機(jī)中Siri的對話被媒體稱是人工智能和人類的一次經(jīng)典問答，語音助手也逐漸進(jìn)入到大眾視野。

語音助手的出現(xiàn)，依托于5G技術(shù)與人工智能技術(shù)。人們與語音助手對話時，它們在數(shù)據(jù)庫搜索相關(guān)信息，再模擬人類的聲音表達(dá)出來，實(shí)現(xiàn)由字到音的轉(zhuǎn)化。

小到手機(jī)中的智能語音助手，大到物聯(lián)網(wǎng)智能家居，智能工廠等……可以預(yù)見在未來某些情境下，語音指令或?qū)⒅鸩酱嫖淖种噶睢?/p>

語音合成技術(shù)被大眾所知是因?yàn)檎Z音助手，“機(jī)器朗讀”有聲書的出現(xiàn)，才讓這項技術(shù)真正廣泛地應(yīng)用到實(shí)際生活中。

語音合成技術(shù)將文字轉(zhuǎn)換合成為可理解的自然語音，這在人機(jī)交互過程中具有著極為重要的意義。

不只是“機(jī)器朗讀”有聲書，我們在看視頻時，經(jīng)常會聽到一些機(jī)器合成的配音，用聲調(diào)平淡、發(fā)音機(jī)械的聲音讀出詼諧風(fēng)趣的句子，其反差經(jīng)常讓人捧腹大笑。

國內(nèi)不少學(xué)者在研究中指出，“【聲音】在未來傳播中將回歸主流介質(zhì)”。語音合成技術(shù)的不斷進(jìn)步影響著交流速度、交互性、可及性的改變，從而創(chuàng)造了新的社交語境和文化，改變?nèi)藗兊娜粘Ｉ睢?/p>

翰林有方W老師也曾在講座中分享過：中學(xué)生選題做科研時，要學(xué)會立足于實(shí)際生活，注重觀察，在日常生活中學(xué)會發(fā)現(xiàn)問題，解決問題。

無論是語音轉(zhuǎn)文字，還是用文字合成語音，都是生活中常見的技術(shù)應(yīng)用，它們同樣可以作為研究主體，并且解決實(shí)際問題。如果你也對語音合成有興趣，不妨了解下這個課題。

課題介紹
課題名稱: 基于神經(jīng)網(wǎng)絡(luò)的語音合成

相關(guān)學(xué)科：計算機(jī)科學(xué)技術(shù)

課題介紹：本研究課題預(yù)期通過深度網(wǎng)絡(luò)模型進(jìn)行語音合成，將文本通過網(wǎng)絡(luò)學(xué)習(xí)生成對應(yīng)的發(fā)音。通過本項目的研究會提出一種語音合成方法，能夠提升合成語音的自然度以及對應(yīng)MOS打分。最終實(shí)驗(yàn)會在公開數(shù)據(jù)集LJ speech上進(jìn)行語音合成。

導(dǎo)師介紹
復(fù)旦大學(xué)計算機(jī)博士，國內(nèi)某高科技公司高級算法研究員；
研究領(lǐng)域：文本語音合成（TTS），音樂人工智能，音樂信息檢索，語音檢測，歌手識別等；
發(fā)表多篇SCI和國際頂會論文，曾申請多項國家級專利；
有多年中學(xué)生、本科生教學(xué)經(jīng)驗(yàn)。

聯(lián)系我們，開始你的科研之路
掃碼添加翰林顧問老師，咨詢了解