<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 后記:語言的挑戰 自然語言拋出一些有趣的計算性挑戰。我們已經在前面的章節探討過許多這樣的挑戰,包括分詞、標注、分類、信息提取和建立句法和語義表示。你現在應該已經準備好操作大型數據集,來創建語言現象的強健模型,并將它們擴展到實際語言技術的組件中。我們希望自然語言工具包(NLTK)對于開放令人振奮的實用自然語言處理的的努力到比以前更廣泛的受眾已經起作用。 盡管已經取得前面的所有成果,語言呈現給我們的遠遠不是計算上的臨時挑戰。考慮下面的句子,它們證實語言的豐富性: | (1) | | &#124; a. &#124; &#124; Overhead the day drives level and grey, hiding the sun by a flight of grey spears. (William Faulkner, _As I Lay Dying_, 1935) &#124; &#124; b. &#124; &#124; When using the toaster please ensure that the exhaust fan is turned on. (sign in dormitory kitchen) &#124; &#124; c. &#124; &#124; Amiodarone weakly inhibited CYP2C9, CYP2D6, and CYP3A4-mediated activities with Ki values of 45.1-271.6 μM (Medline, PMID: 10718780) &#124; &#124; d. &#124; &#124; Iraqi Head Seeks Arms (spoof news headline) &#124; &#124; e. &#124; &#124; The earnest prayer of a righteous man has great power and wonderful results. (James 5:16b) &#124; &#124; f. &#124; &#124; Twas brillig, and the slithy toves did gyre and gimble in the wabe (Lewis Carroll, _Jabberwocky_, 1872) &#124; &#124; g. &#124; &#124; There are two ways to do this, AFAIK :smile: (internet discussion archive) &#124; | 語言豐富性的其他證據是以語言為工作中心的學科的浩瀚陣容。一些明顯的學科包括翻譯、文學批評、哲學、人類學和心理學。許多不太明顯的學科研究語言的使用,包括法律、詮釋學、辯論術、電話學、教育學、考古學、密碼分析學及言語病理學。它們分別應用不同的方法來收集觀察資料、發展理論和測試假設。它們都有助于加深我們對語言和表現在語言中的智能的理解。 鑒于語言的復雜性和從不同的角度研究它的廣泛的價值,很顯然這里我們僅僅已經觸及了表面。此外,在 NLP 本身,有許多我們沒有提到的重要方法和應用。 在我們的后記中,我們將以更寬廣的視角看待 NLP,包括它的基礎和你可能想要探索的進一步的方向。一些主題還沒有得到 NLTK 很好的支持,你可能想通過為工具包貢獻新的軟件和數據來修正這些問題,。 ## 語言處理與符號處理 以計算方式處理自然語言的真正觀念脫胎于一個研究項目,可以追溯到 1900 年代早期,使用邏輯重建數學推理,最清楚地表明是在 Frege、Russell、Wittgenstein、Tarski、Lambek 和 Carnap 的工作中。這項工作導致語言作為可以自動處理的形式化系統的概念。三個后來的發展奠定了自然語言處理的基礎。第一個是形式語言理論。它定義一個語言為被一類自動機接受的字符串的集合,如上下文無關語言和下推自動機,并提供計算句法的支柱。 第二個發展是符號邏輯。它提供一個捕捉選定的自然語言的表達的邏輯證明的有關方面的形式化方法。符號邏輯中的形式化演算提供一種語言的句法和推理規則,并可能在一套理論模型中對規則進行解釋;例子是命題邏輯和一階邏輯。給定這樣的演算和一個明確的句法和語義,通過將自然語言的表達翻譯成形式化演算的表達式,聯系語義與自然語言的表達成為可能。例如,如果我們翻譯 John saw Mary 為公式`saw(j,m)`,我們(或明或暗地)將英語動詞 saw 解釋為一個二元關系,而 John 和 Mary 表示個體元素。更多的一般性的表達式如 All birds fly 需要量詞,在這個例子中是?,意思是對所有的:?x (bird(x) → fly(x))。邏輯的使用提供了技術性的機制處理推理,而推理是語言理解的重要組成部分。 另一個密切相關的發展是組合原理,即一個復雜表達式的意思由它的各個部分的意思和它們的組合模式組成([10.](./ch10.html#chap-semantics))。這一原理提供了句法和語義之間的有用的對應,即一個復雜的表達式的含義可以遞歸的計算。考慮句子 It is not true that p,其中 p 是一個命題。我們可以表示這個句子的意思為 not(p)。同樣,我們可以表示 John saw Mary 的意思為 saw(j, m)。現在,我們可以使用上述信息遞歸地計算 It is not true that John saw Mary 的表示,得到 not(saw(j,m))。 剛剛簡要介紹的方法都有一個前提,自然語言計算關鍵依賴于操縱符號表示的規則。NLP 發展的一個特定時期,特別是 1980 年代,這個前提為語言學家和 NLP 從業人員提供了一個共同的起點,導致一種被稱為基于歸一(基于特征)語法的形式化語法家族(參見[9.](./ch09.html#chap-featgram)),也導致了在 Prolog 編程語言上實現 NLP 應用。雖然基于語法的自然語言處理仍然是一個研究的重要領域,由于多種因素在過去的 15-20 年它已經有些黯然失色。一個顯著的影響因素來自于自動語音識別。雖然早期的語音處理采用一個模擬一類基于規則的音韻處理的模型,典型的如 _Sound Pattern of English_ [(Chomsky & Halle, 1968)](./bibliography.html#chomskyhalle68),結果遠遠不能夠解決實時的識別實際的講話這樣困難的問題。相比之下,包含從大量語音數據中學習的模式的系統明顯更準確、高效和穩健的。此外,言語社區發現建立對常見的測試數據的性能的定量測量的共享資源對建立更好的系統的過程有巨大幫助。最終,大部分的 NLP 社區擁抱面向數據密集型的語言處理,配合機器學習技術和評價為主導的方法的越來越多地使用。 ## 當代哲學劃分 在上一節中描述的自然語言處理的兩種方法的對比與在西方哲學的啟蒙時期出現的關于理性主義與經驗主義和現實主義與理想主義的早期形而上學的辯論有關。這些辯論出現在反對一切知識的來源被認為是神的啟示的地方的正統思想的背景下。在十七和十八世紀期間,哲學家認為人類理性或感官經驗優先了啟示。笛卡爾和萊布尼茲以及其他人采取了理性的立場,聲稱所有的真理來源于人類思想,從出生起在我們的腦海中就植入的“天賦觀念”的存在。例如,他們認為歐幾里德幾何原理是使用人的理性制定的,而不是超自然的啟示或感官體驗的結果。相比之下,洛克和其他人采取了經驗主義的觀點,認為我們的知識的主要來源是我們的感官經驗,人類理性在翻譯這些經驗上起次要作用。這一立場經常引用的證據是伽利略的發現——基于對行星運動的仔細觀察——太陽系是以太陽為中心,而不是地球為中心。在語言學的背景下,本次辯論導致以下問題:人類語言經驗與我們先天的“語言能力”各自多大程度上作為我們的語言知識的基礎?在 NLP 中這個問題表現為在計算模型構建中語料庫數據與語言學反省之間的優先級。 還有一個問題,在現實主義和理想主義之間的辯論中被奉若神明的是理論結構的形而上學的地位。康德主張現象與我們可以體驗的表現以及不能直接被認識的“事情本身”之間的相互區別。語言現實主義者會認為如名詞短語這樣的理論建構是一個現實世界的實體,是人類看法和理由的獨立存在,它實際 _ 導致 _ 觀測到的語言現象。另一方面,語言理想主義者會說名詞短語以及如語義表示這樣更抽象的結構本質上無法觀察到,只是擔任有用的虛構的角色。語言學家寫理論的方式往往與現實主義的立場相違背,而 NLP 從業人員占據中立地位,不然就傾向于理想主義立場。因此,在 NLP 中,如果一個理論的抽象導致一個有用的結果往往就足夠了;不管這個結果是否揭示了任何人類語言處理。 這些問題今天仍然存在,表現為符號與統計方法、深層與淺層處理、二元與梯度分類以及科學與工程目標之間的區別。然而,這樣的反差現在已經非常細微,辯論不再像從前那樣是兩極化。事實上,大多數的討論——大部分的進展——都包含一個“平衡協調”。例如,一種中間立場是假設人類天生被賦予基于類比和記憶的學習方法(弱理性主義),并使用這些方法確定他們的感官語言經驗(經驗主義)的有意義的模式。 整本書中,我們已經看到了這種方法的很多例子。每次語料統計指導上下文無關語法產生式的選擇,統計方法就會給出符號模型,即“語法工程”。每次使用基于規則的方法創建的一個語料被用來作為特征來源訓練統計語言模型時,符號方法都會給出統計模型,即“語法推理”。圓圈是封閉的。 ## NLTK 路線圖 自然語言工具包是在不斷發展的,隨著人們貢獻代碼而不斷擴大。NLP 和語言學的一些領域(還)沒有得到 NLTK 很好的支持,特別歡迎在這些領域的貢獻。有關這本書的出版之后的開發新聞,請查閱`http://nltk.org/`。 | 音韻學和形態學: | | --- | | | 研究聲音模式和文字結構的計算方法,通常用一個有限狀態機工具包。如不規則詞形變化和非拼接形態這樣的現象使用我們一直在學習的字符串處理方法很難解決。該技術面臨的挑戰不僅僅是連接 NLTK 到一個高性能的有限狀態機工具包,而且要避免詞典數據的重復以及鏈接形態分析器和語法分析器所需形態學特征。 | | 高性能模塊: | | --- | | | 一些 NLP 任務的計算量太大,使純 Python 實現不可行。然而,在某些情況下,耗時只出現在訓練模型期間,不是在標注輸入期間使用它們。NLTK 中的包系統提供了一個方便的方式來發布訓練好的模型,即使那些使用不能隨意發布的語料庫訓練的模型。替代方法是開發高性能的機器學習工具的 Python 接口,或通過使用類似與 MapReduce 的并行編程技術擴展 Python 的能力。 | | 詞匯語義學: | | --- | | | 這是一個充滿活力的領域,目前的研究大多圍繞詞典、本體、多詞表達式等的繼承模型,大都在現在的 NLTK 的范圍之外。一個保守的目標是從豐富的外部存儲獲得詞匯信息,以支持詞義消歧、解析和語義解釋等任務。 | | 自然語言生成: | | --- | | | 從含義的內在表示生產連貫的文本是 NLP 的重要組成部分;用于 NLP 的基于歸一的方法已經在 NLTK 中開發,在這一領域做出更大的貢獻還有限制。 | | 語言實地調查: | | --- | | | 語言學家面臨的一個重大挑戰是記錄數以千計的瀕危語言,這項工作產生大量異構且快速變化的數據。更多的實地調查的數據格式,包括行間的文本格式和詞匯交換格式,在 NLTK 中得到支持,幫助語言學家維護和分析這些數據,解放他們,使他們能在數據提煉中花費盡可能多的時間。 | | 其他語言: | | --- | | | 對英語以外的語言的 NLP 改進支持包括兩方面的工作:獲準發布更多 NLTK 中的收集的語料庫;寫特定語言的 HOWTO 文件發布到`http://nltk.org/howto`,說明 NLTK 中的使用,討論語言相關的 NLP 問題,包括字符編碼、分詞、形態。一個特定語言專長的 NLP 研究人員可以安排翻譯這本書,并在 NLTK 的網站上保存一個副本;這將不僅僅是翻譯討論的內容,而要使用目標語言的數據提供等效的可行的例子,一項不平凡的事業。 | | NLTK-Contrib: | 許多 NLTK 中的核心組件都由 NLP 社區成員貢獻,它們最初被安置在 NLTK 中的“Contrib”包,`nltk_contrib`。對添加到這個包中的軟件的唯一要求是它必須用 Python 編寫,與 NLP 有關,并給予與 NLTK 中其他軟件一樣的開源許可。不完善的軟件也是值得歡迎的,隨著時間的推移可能會被 NLP 社區的其他成員改進。 | | --- | --- | | 教材: | | --- | | | 從 NLTK 開發的最初起,教材一直伴隨著軟件逐漸擴大填補這本書,也加上大量的網上材料。我們希望弄清楚提供這些材料包括:幻燈片、習題集、解答集、我們所覆蓋的主題更詳細的理解的教員的名字,并通知作者,我們可以為他們在`http://nltk.org/`上做鏈接。具有特殊價值的材料,幫助 NLP 成為計算機科學和語言學系的本科主流課程,或者使 NLP 在二級本科課程中可以獲得,在那里對語言、文學、計算機科學以及信息技術課程中的計算內容有明顯的限制。 | | 只是一個工具包: | 在序言中已經指出,NLTK 是一個工具包,而不是一個系統。在 NLTK、Python、其他 Python 庫、外部 NLP 的工具和格式的接口集成中會有很多問題需要解決。 | | --- | --- | ## Envoi... 語言學家有時會被問到他們說多少種語言,不得不解釋說這一領域實際上關注語言間共享的抽象結構的研究,一種比學說盡可能多的語言更深刻更難以捉摸的研究。同樣的,計算機科學家有時會被問到他們懂多少種編程語言,不得不解釋說計算機科學實際上關注能在任何編程語言中實施的數據結構和算法的研究,一種比爭取學習盡可能多的編程語言更深刻更難以捉摸。 這本書涵蓋了自然語言處理領域的許多主題。大多數的例子都使用 Python 和英語。不過,如果讀者得出的結論是 NLP 是有關如何編寫 Python 程序操縱英文文本,或者更廣泛的,關于如何編寫程序(以任何一種編程語言)處理(任何一種自然語言)文本的,這將是不幸的。我們選擇 Python 和英語是權宜之計,僅此而已。即使我們關注編程本身也只是一種解決問題的手段:作為一種了解表示和操縱語言標注文本的集合的數據結構和算法的方式,作為一種方法來建立新的語言技術,更好地服務于信息社會的需求,并最終作為對人類語言極度豐富性的更深的理解的方法。 _ 但是目前為止,happy hacking!_ 關于本文檔... 針對 NLTK 3.0 作出更新。本章來自于 _Natural Language Processing with Python_,[Steven Bird](http://estive.net/), [Ewan Klein](http://homepages.inf.ed.ac.uk/ewan/) 和[Edward Loper](http://ed.loper.org/),Copyright ? 2014 作者所有。本章依據 _Creative Commons Attribution-Noncommercial-No Derivative Works 3.0 United States License_ [[http://creativecommons.org/licenses/by-nc-nd/3.0/us/](http://creativecommons.org/licenses/by-nc-nd/3.0/us/)] 條款,與 _ 自然語言工具包 _ [`http://nltk.org/`] 3.0 版一起發行。 本文檔構建于星期三 2015 年 7 月 1 日 12:30:05 AEST
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看