項目名稱: 概念層次網(wǎng)絡(luò)理論(HNC)
推薦單位: 中國科學(xué)院
項目簡介: 1.所屬科學(xué)領(lǐng)域
HNC是 Hierarchical Network of Concepts(概念層次網(wǎng)絡(luò))的簡稱,是關(guān)于自然語言理解處理的理論框架,屬于計算機(jī)科學(xué)和語言學(xué)的交叉學(xué)科――計算語言學(xué)的研究領(lǐng)域。
2.主要研究內(nèi)容
發(fā)達(dá)國家對自然語言理解已進(jìn)行了長達(dá)50余年的研究,但所獲甚微。究其原因,西方文明缺乏切入語言本體研究的基礎(chǔ),而以方塊字為基礎(chǔ)的漢語卻為攻克這一難題提供了天然條件。黃曾陽發(fā)現(xiàn)漢語"字義基元化,詞義組合化"的現(xiàn)象,提出具有原始創(chuàng)新特征的、切合語言本質(zhì)的概念層次網(wǎng)絡(luò)理論,其主要思路就是對不同層級的語言單位設(shè)計相應(yīng)的基元模式,以有限的基元表述無限的語言現(xiàn)象,讓計算機(jī)通過對有限基元的操控完成對自然語言的理解處理,F(xiàn)已經(jīng)形成完整的理論框架,形成語句分析和句群篇章處理技術(shù)。目前已有基于HNC技術(shù)的軟件產(chǎn)品問世,顯現(xiàn)出"懂"的特點。HNC還將形成一系列計算機(jī)自動處理人類語言的理論成果與核心技術(shù),為我國搶占信息時代的技術(shù)制高點奠定堅實基礎(chǔ)。
3.科學(xué)價值
該理論有助于推進(jìn)自然語言理解處理研究,有望在自然語言語義知識的利用方面取得突破性進(jìn)展,它對語言學(xué),人工智能,計算機(jī)科學(xué)和認(rèn)知科學(xué)等都具有重要的理論和應(yīng)用價值,對中文信息處理和漢語研究尤其具有特殊重要的意義。
4.同行引用評價情況
HNC理論已經(jīng)作為一門研究生課程,進(jìn)入高等學(xué)府。全國人大副委員長、著名語言學(xué)家許嘉璐先生曾撰文將HNC理論列為目前我國中文信息處理的三大流派之一。該理論提出的學(xué)術(shù)觀點及研究方法為國內(nèi)外學(xué)術(shù)界所公認(rèn)和引用:"HNC理論,提出了創(chuàng)新的自然語言理解處理思路,突破了現(xiàn)有的自然語言的知識表述和處理模式,直接進(jìn)入自然語言的語義深層進(jìn)行處理,特別適合于非形態(tài)變化的漢語的理解與處理,在漢語語句理解處理方面達(dá)到國際領(lǐng)先水平。"(見信息產(chǎn)業(yè)部科技司組織的技術(shù)鑒定會的專家鑒定意見),經(jīng)中科院文獻(xiàn)情報中心查詢中國科學(xué)引文數(shù)據(jù)庫(CSCD)1997~2004年數(shù)據(jù),黃曾陽發(fā)表論文(著)被收錄1篇;有7篇(部)論著被他人引用28次。
主要發(fā)現(xiàn)點: 1、自然語言理解是人工智能的重要組成部分,也是根本難題之一。HNC理論發(fā)現(xiàn)了世界上各種語言都對應(yīng)著一個語言概念空間,漢語具有"字義基元化,詞義組合化"的特點。設(shè)計了數(shù)字化的語言概念空間,建立了模擬人腦交際引擎的交互引擎,為自然語言理解處理提供了凸現(xiàn)自然語言內(nèi)在關(guān)聯(lián)性的符號設(shè)計,把語義內(nèi)容的關(guān)聯(lián)顯現(xiàn)出來,使語義變成可計算的內(nèi)容。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410),見論文“HNC理論概要”和專著《HNC(概念層次網(wǎng)絡(luò))理論》。
2、發(fā)現(xiàn)了語言概念空間包括四個層級:概念基元空間,句類空間,語境單元空間,語境空間。四層級的發(fā)現(xiàn),為自然語言理解處理建立了從詞語到篇章的全景處理模式。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410),見論文“在反思中前進(jìn),在碰撞中成長”和專著《語言概念空間的基本定理和數(shù)學(xué)物理表示式》。
3、在語言概念空間的基礎(chǔ)上,發(fā)現(xiàn)了語言概念無限而語言概念基元有限,語句無限而句類有限,語境無限而語境單元有限。從而在自然語言處理上能化無限為有限,化繁為簡。本發(fā)現(xiàn)點屬于人工智能理論(5201410),見論文“在反思中前進(jìn),在碰撞中成長”和專著《語言概念空間的基本定理和數(shù)學(xué)物理表示式》。
4、在語言概念空間的基礎(chǔ)上,發(fā)現(xiàn)了自然語言理解處理的3級提升,形成了計算機(jī)理解自然語言詞句、句群以及篇章語義的三大核心技術(shù):句類分析技術(shù),語境單元萃取技術(shù),語境生成技術(shù)。為從詞語到篇章的內(nèi)容處理建立恰當(dāng)?shù)奶幚韺蛹,使處理具備了可以攀登的臺階。本發(fā)現(xiàn)點屬于人工智能理論(5201410),參見同上。
5、從句類分析的角度出發(fā),發(fā)現(xiàn)了語句處理的20項難點,從深層次揭示語句處理的本質(zhì),給自然語言處理研究提供一個新的角度,必將使語言分析更深入、更透徹。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410),見網(wǎng)上公布的專著《自然語言理解處理的20項難點及其對策》。
6、發(fā)現(xiàn)了語境單元萃取的8項基本原則:語境單元與句群SG對應(yīng)原則、 領(lǐng)域DOM認(rèn)定原則、領(lǐng)域句類SCD認(rèn)定原則、情景SIT框架描述原則、事件背景BACE描述原則、情景與事件背景轉(zhuǎn)換原則、述者背景的立場判定原則、基本判斷句功能原則,為計算機(jī)具有短時記憶或工作記憶機(jī)制奠定了基礎(chǔ)。本發(fā)現(xiàn)點屬于語言信息理論與系統(tǒng)(1201040)和人工智能理論(5201410)及語言認(rèn)知理論(3105425),見論文“在反思中前進(jìn),在碰撞中成長”和專著《語言概念空間的基本定理和數(shù)學(xué)物理表示式》。
7、發(fā)現(xiàn)了語境生成ABS的6項基本原則:變換原則、同步原則、適應(yīng)原則、對應(yīng)原則、虛實原則、層次與要點原則,為計算機(jī)獲得長時記憶、知識存儲和自學(xué)習(xí)能力奠定了基礎(chǔ)。所屬學(xué)科及參見同上。
主要完成人: 1. 黃曾陽
對"主要發(fā)現(xiàn)點"欄中全部發(fā)現(xiàn)點均做出了創(chuàng)造性貢獻(xiàn):
第1-2點:發(fā)現(xiàn)語言概念空間及四層級,漢語"字義基元化,詞義組合化";
第3-4點:發(fā)現(xiàn)語言概念基元,句類及語境單元的有限性和3級提升;
第5-7點:提出語句和語境處理的原則。
投入本項目研究的工作量占本人工作量的100%。
10篇代表性論文: 1. 《HNC(概念層次網(wǎng)絡(luò))理論》/清華大學(xué)出版社
2. HNC理論概要/中文信息學(xué)報
3. HNC理論與自然語言語句的理解/中國基礎(chǔ)科學(xué)
4. HNC的發(fā)展與未來/漢語學(xué)報
5. 語義及概念體系在NLP中的作用/中文信息處理若干重要問題/科學(xué)出版社
6. 語言概念空間的基本定理和數(shù)學(xué)物理表示式/海洋出版社
7. 在反思中前進(jìn),在碰撞中成長/第二屆HNC與語言學(xué)研討會論文集/海洋出版社
|