澳門科技大學教育發展中心與國際學院於2026年4月10日聯合主辦「智能時代古籍語料庫和人文知識庫的建設與應用」講座。本次講座由南京師範大學文學院計算語言學方向教授、語言大數據與計算人文研究中心負責人李斌主講,由國際學院英語專業協調人胡波副教授主持,吸引了國際學院及校內眾多師生與業內專家參與,現場氣氛熱烈。

李斌教授現任南京師範大學文學院計算語言學方向教授,並任語言大數據與計算人文研究中心負責人。主要講授中文信息處理概論、句法學、數據結構、數理邏輯、人工智能、數字人文與數據庫應用等研究生和本科課程。李斌教授曾於2010-2013年在南京大學計算機科學與技術系從事博士後研究,並先後於2015年和2019年赴美國Brandeis大學計算機學院和哈佛大學計量社會科學研究所從事訪問研究,2024年任澳門大學人文學院客座研究員。研究領域包括詞法分析、認知語義計算、語料庫技術、語法理論、數字人文等,已出版專著《動賓搭配的語義分析和計算》《語言探秘》等3部、教材1部,發表論文70多篇、專利1項、軟著15項,主持完成國家社會科學基金項目2項、教育部項目1項、橫向課題10項。

在講座中,李斌教授從計算語言學與人工智能的起源展開討論,以諾姆•喬姆斯基(Noam Chomsky)強調的個體語感(先天語言能力)與傑弗裡•辛頓(Geoffrey Hinton)提出的語言表徵(神經網路學習)之間的學術分歧為切入點,引導在場師生共同剖析普通語言學與計算語言學在語言本質認知上的差異。隨後,李斌教授介紹了形式語言學的理論基礎與計算語言學所依托的信息論與機器學習理論的不同範式,並指出當前計算語言學研究的瓶頸在於語言數據的收集過程存在制約。李教授系統梳理了從傳統語料庫技術到深度學習時代的語言信息處理發展脈絡,指出隨著人工智能技術的不斷進步,語言數據的收集也從人工數據標註逐步轉向機器學習模型生成,並進一步發展為以新型數據作為測試樣本的前沿模式。

講座現場大合照
講座過程中,李斌教授分享了目前通過人工智能三要素,即大算力、大模型與大數據,對破損古籍文獻進行復原的底層邏輯、訓練過程與產業前沿發展。李教授以傳統中國古籍文獻數據庫檢索系統為例,指出當前古籍文獻數字化過程中的數據轉換仍存在從文本庫到語料庫轉化的技術層面挑戰,特別是語言標註的準確性亟待突破。此外,他以中國與美國歷代人物傳記資料庫的智庫建設為例,鼓勵學者們採用量化分析方法,從人物關係、行動軌跡及政治關係等維度開展多元實證研究。同時,他建議在當代及現代漢語的研究中引入連續性假設,對詞義演變與保留機製進行溯源分析。
李斌教授重點分享了其團隊在認知語義計算模型構建與古漢語文獻智能化處理等方面的創新實踐。通過「漢語大辭典數字化」、「漢源日詞」、「詞義知識譜」等研究案例,展示了數字技術在古籍語料庫與人文知識庫構建與發展中的賦能作用,拓展了人工智能時代計算語言學與多語言比較視域下的學術研究新範式。在講座最後的互動環節中,李斌教授就當前語言學科、歷史學科與人工智能技術發展路徑的融合與師生們展開深入探討,為本次講座畫上圓滿句號。