一、數據科學 · UCB Data8 計算與推斷思維

# 一、數據科學 > 原文：[Data Science](https://github.com/data-8/textbook/tree/gh-pages/chapters/01) > 譯者：[飛龍](https://github.com/wizardforcel) > 協議：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) > 自豪地采用[谷歌翻譯](https://translate.google.cn/) ## 什么是數據科學數據科學是通過探索，預測和推斷，從大量不同的數據集中得出有用的結論。探索涉及識別信息中的規律。預測涉及使用我們所知道的信息，對我們希望知道的值作出知情的猜測。推斷涉及量化我們的確定程度：我們發現的這些規律是否也出現在新的觀察中？我們的預測有多準確？我們用于探索的主要工具是可視化和描述性統計，用于預測的是機器學習和優化，用于推理的是統計測試和模型。統計學是數據科學的核心部分，因為統計學研究，如何用不完整的信息做出有力的結論。計算是一個重要組成部分，因為編程允許我們將分析技巧應用于大量不同的數據集，它們在真實應用中出現：不僅包括數字，還包括文本，圖像，視頻和傳感器讀數。數據科學就是所有這些東西，但是由于應用的原因，它不僅僅是其部分的總和。通過理解一個特定的領域，數據科學家學習提出有關他們的數據的適當的問題，并正確地解釋我們的推理和計算工具提供的答案。 ## 簡介數據是對我們周圍世界的描述，通過觀察來收集并存儲在計算機上。計算機使我們能夠從這些描述中推斷出世界的特性。數據科學是使用計算從數據中得出結論的學科。有效的數據分析有三個核心方面：探索，預測和推理。本文對三者進行了一致的研究，同時介紹了統計思想和計算機科學的基本思想。我們專注于一套最小的核心技巧，應用于廣泛的實際應用。數據科學的基礎不僅需要理解統計和計算技巧，還需要認識到它們如何應用于真實場景。對于我們希望研究的世界的任何方面，無論是地球氣象，世界市場，政治民意調查還是人類思想，我們收集的數據通常都提供了這個主題的不完整描述。數據科學的核心挑戰是使用這部分信息作出可靠的結論。在這個努力中，我們將結合兩個基本工具：計算和隨機化。例如，我們可能想使用溫度觀測來了解氣候變化的趨勢。計算機允許我們使用所有可用的信息得出結論。我們不僅僅關注一個地區的平均氣溫，而是將整個溫度的范圍一起考慮，來構建更加細致的分析。隨機性允許我們考慮許多不同方式，來完善不完整的信息。我們不會假設溫度會以某種特定的方式變化，而是學習使用隨機性來設想許多可能的情景，這些情景都與我們觀察到的數據一致。應用這種方法需要學習，如何為一臺計算機編程，所以這個文本穿插了編程的完整介紹，并假設沒有任何先驗知識。具有編程經驗的讀者會發現，我們涵蓋了計算中的幾個主題，這些主題并沒有出現在典型的計算機科學課程中。數據科學也需要對數量進行仔細的推理，但是本書并不假設超出基本代數的數學或統計背景。在本文中你會發現很少的方程。相反，技巧使用一種編程語言描述，對于讀者和執行它們的計算機來說，是相同的。 ### 計算工具本文使用 Python 3 編程語言，以及數值和數據可視化的標準工具集，它們在商業應用，科學實驗和開源項目中廣泛使用。 Python 已經招募了許多專業人士，它們使用數據得出結論。通過學習 Python 語言，你將加入一個擁有百萬人口的，軟件開發人員和數據科學家社區。入門。開始用 Python 編寫程序的最簡單和推薦的方法是，登錄到本文的配套網站 <https://datahub.berkeley.edu/>。如果你擁有`@ berkeley.edu`電子郵件地址，則你已經可以完全訪問該網站上托管的編程環境。如果沒有，請填寫[此表格](https://goo.gl/forms/saQpxdqzS2rKxjTc2)來申請訪問。你不能完全僅僅使用這個基于 Web 的編程環境。 Python 程序可以由任何計算機執行，無論其制造商或操作系統如何，只要安裝了該語言的支持。如果你希望安裝符合本文的 Python 版本及其附帶庫，我們推薦將 Anaconda 發行版與 Python 3 語言解釋器，IPython 庫和 Jupyter 筆記本環境打包在一起。本文包括所有這些計算工具的完整介紹。你將學習編寫程序，從數據生成圖像，并使用在線發布的真實世界的數據集。 ### 統計技巧統計學科長期以來一直面臨與數據科學相同的根本挑戰：如何使用不完整的信息得出有關世界的有力結論。統計學最重要的貢獻之一是，用于描述觀察與結論之間關系的，一致而準確的詞匯。本文繼續保持同樣的傳統，重點是統計學中的一組核心推斷問題：假設檢驗，置信度估計和未知量預測。數據科學通過充分利用計算，數據可視化，機器學習，優化和信息訪問來擴展統計領域。快速計算機和互聯網的結合使得任何人都能夠訪問和分析大量的數據集：數百萬篇新聞文章，完整的百科全書，任何領域的數據庫以及大量的音樂，照片和視頻庫。真實數據集的應用激發了我們在整個文本中描述的統計技巧。真實數據通常沒有規律或匹配標準方程。如果把過多的注意力集中在簡單的總結上，比如平均值，那么真實數據中有趣的變化就會丟失。計算機使一系列基于重采樣的方法成為可能，它們適用于各種不同的推理問題，考慮了所有可用的信息，并且需要很少的假設或條件。雖然這些技巧經常留作統計學的研究生課程，但它們的靈活性和簡單性非常適合數據科學應用。 ## 為什么是數據科學最重要的決策僅僅使用部分信息和不確定的結果做出。然而，許多決策的不確定性，可以通過獲取大量公開的數據集和有效分析所需的計算工具，而大幅度降低。以數據為導向的決策已經改變了一大批行業，包括金融，廣告，制造業和房地產。同時，大量的學科正在迅速發展，將大規模的數據分析納入其理論和實踐。學習數據科學使個人能夠將這些技巧用于工作，科學研究和個人決策。批判性思維一直是嚴格教育的標志，但在數據支持下，批判往往是最有效的。對世界任何方面的批判性分析，可能是商業或社會科學，涉及歸納推理；結論很少直接證明，僅僅由現有的證據支持。數據科學提供了手段，對任何一組觀測結果進行精確，可靠和定量的論證。有了信息和計算機的前所未有的訪問，如果沒有有效的推理技巧，對世界上任何可以衡量的方面的批判性思考都是不完整的。世界上有太多沒有答案的問題和困難的挑戰，所以不能把這個批判性的推理留給少數專家。所有受過教育的社會成員都可以建立推斷數據的能力。這些工具，技巧和數據集都是隨手可用的；本文的目的是使所有人都能訪問它們。 ## 繪制經典作品在這個例子中，我們將探討兩個經典小說的統計：馬克吐溫（Mark Twain）的《哈克貝利·芬歷險記》（The Adventures of Huckleberry Finn）和路易莎·梅·奧爾科特（Louisa May Alcott）的《小女人》（Little Women）。任何一本書的文本都可以通過電腦以極快的速度讀取。 1923 年以前出版的書籍目前處于公有領域，這意味著每個人都有權以任何方式復制或使用文本。 [古登堡計劃](http://www.gutenberg.org/)是一個在線出版公共領域書籍的網站。使用 Python，我們可以直接從網絡上加載這些書籍的文本。這個例子是為了說明本書的一些廣泛的主題。如果還不理解程序的細節，別擔心。相反，重點關注下面生成的圖像。后面的部分將介紹下面使用的 Python 編程語言的大部分功能。首先，我們將這兩本書的內容讀入章節列表中，稱為`huck_finn_chapters`和`little_women_chapters`。在 Python 中，名稱不能包含任何空格，所以我們經常使用下劃線`_`來代表空格。在下面的行中，左側提供了一個名稱，右側描述了一些計算的結果。統一資源定位符或 URL 是互聯網上某些內容的地址；這里是一本書的文字。`#`符號是注釋的起始，計算機會忽略它，但有助于人們閱讀代碼。 ```py # Read two books, fast! huck_finn_url = 'https://www.inferentialthinking.com/chapters/01/3/huck_finn.txt' huck_finn_text = read_url(huck_finn_url) huck_finn_chapters = huck_finn_text.split('CHAPTER ')[44:] little_women_url = 'https://www.inferentialthinking.com/chapters/01/3/little_women.txt' little_women_text = read_url(little_women_url) little_women_chapters = little_women_text.split('CHAPTER ')[1:] ``` 雖然計算機不能理解書的文本，它可以向我們提供文本結構的一些視角。名稱`huck_finn_chapters`現在已經綁定到書中章節的列表。我們可以將其放到一個表中，來觀察每一章的開頭。 ```py # Display the chapters of Huckleberry Finn in a table. Table().with_column('Chapters', huck_finn_chapters) ``` | Chapters | | --- | | I. YOU don't know about me without you have read a book ... | | II. WE went tiptoeing along a path amongst the trees bac ... | | III. WELL, I got a good going-over in the morning from o ... | | IV. WELL, three or four months run along, and it was wel ... | | V. I had shut the door to. Then I turned around and ther ... | | VI. WELL, pretty soon the old man was up and around agai ... | | VII. "GIT up! What you 'bout?" I opened my eyes and look ... | | VIII. THE sun was up so high when I waked that I judged ... | | IX. I wanted to go and look at a place right about the m ... | | X. AFTER breakfast I wanted to talk about the dead man a ... | （已省略 33 行）每一章都以章節號開頭，以羅馬數字的形式，后面是本章的第一個句子。古登堡計劃將每章的第一個單詞變為大寫。 ### 文本特征《哈克貝利·芬歷險記》描述了哈克和吉姆沿著密西西比河的旅程。湯姆·索亞（Tom Sawyer）在行動進行的時候加入了他們的行列。在加載文本后，我們可以快速地看到這些字符在本書的任何一處被提及的次數。 ```py # Count how many times the names Jim, Tom, and Huck appear in each chapter. counts = Table().with_columns([ 'Jim', np.char.count(huck_finn_chapters, 'Jim'), 'Tom', np.char.count(huck_finn_chapters, 'Tom'), 'Huck', np.char.count(huck_finn_chapters, 'Huck') ]) # Plot the cumulative counts: # how many times in Chapter 1, how many times in Chapters 1 and 2, and so on. cum_counts = counts.cumsum().with_column('Chapter', np.arange(1, 44, 1)) cum_counts.plot(column_for_xticks=3) plots.title('Cumulative Number of Times Each Name Appears', y=1.08); ``` ![](https://box.kancloud.cn/417b780bcc8e58c8e9dc57d3a2c4ad0d_566x322.png) 在上圖中，橫軸顯示章節號，縱軸顯示每個字符在該章節被提及到的次數。吉姆是核心人物，它的名字出現了很多次。請注意，第 30 章中湯姆出現并加入了哈克和吉姆，在此之前，湯姆在本書中幾乎沒有提及。他和吉姆的曲線在這個位置上迅速上升，因為涉及兩者的行動都在變多。至于哈克，他的名字幾乎沒有出現，因為他是敘述者。《小女人》是南北戰爭期間四個姐妹一起長大的故事。在這本書中，章節號碼拼寫了出來，章節標題用大寫字母表示。 ```py # The chapters of Little Women, in a table Table().with_column('Chapters', little_women_chapters) ``` | Chapters | | --- | | ONE PLAYING PILGRIMS "Christmas won't be Christmas witho ... | | TWO A MERRY CHRISTMAS Jo was the first to wake in the gr ... | | THREE THE LAURENCE BOY "Jo! Jo! Where are you?" cried Me ... | | FOUR BURDENS "Oh, dear, how hard it does seem to take up ... | | FIVE BEING NEIGHBORLY "What in the world are you going t ... | | SIX BETH FINDS THE PALACE BEAUTIFUL The big house did pr ... | | SEVEN AMY'S VALLEY OF HUMILIATION "That boy is a perfect ... | | EIGHT JO MEETS APOLLYON "Girls, where are you going?" as ... | | NINE MEG GOES TO VANITY FAIR "I do think it was the most ... | | TEN THE P.C. AND P.O. As spring came on, a new set of am ... | （已省略 37 行）我們可以跟蹤主要人物的提及，來了解本書的情節。主角喬（Jo）和她的姐妹梅格（Meg），貝絲（Beth）和艾米（Amy）經常互動，直到第 27 章中她獨自搬到紐約。 ```py # Counts of names in the chapters of Little Women counts = Table().with_columns([ 'Amy', np.char.count(little_women_chapters, 'Amy'), 'Beth', np.char.count(little_women_chapters, 'Beth'), 'Jo', np.char.count(little_women_chapters, 'Jo'), 'Meg', np.char.count(little_women_chapters, 'Meg'), 'Laurie', np.char.count(little_women_chapters, 'Laurie'), ]) # Plot the cumulative counts. cum_counts = counts.cumsum().with_column('Chapter', np.arange(1, 48, 1)) cum_counts.plot(column_for_xticks=5) plots.title('Cumulative Number of Times Each Name Appears', y=1.08); ``` ![](https://box.kancloud.cn/373f799a51b03645e8194aaab1e35c1b_566x317.png) 勞里（Laurie）是個年輕人，最后和其中一個女孩結婚。看看你是否可以使用這個圖來猜測是哪一個。 ### 另一種文本特征在某些情況下，數量之間的關系能讓我們做出預測。本文將探討如何基于不完整的信息做出準確的預測，并研究結合多種不確定信息來源進行決策的方法。作為從多個來源獲取信息的可視化的例子，讓我們首先使用計算機來獲取一些信息，它們通常手工難以獲取。在小說的語境中，“特征”（Character）這個詞有第二個含義：一個印刷符號，如字母，數字或標點符號。在這里，我們要求計算機來計算《哈克貝利·芬》和《小女人》的每章中的字符和句號數量。 ```py # In each chapter, count the number of all characters; # call this the "length" of the chapter. # Also count the number of periods. chars_periods_huck_finn = Table().with_columns([ 'Huck Finn Chapter Length', [len(s) for s in huck_finn_chapters], 'Number of Periods', np.char.count(huck_finn_chapters, '.') ]) chars_periods_little_women = Table().with_columns([ 'Little Women Chapter Length', [len(s) for s in little_women_chapters], 'Number of Periods', np.char.count(little_women_chapters, '.') ]) ``` 這里是《哈克貝利·芬》的數據。表格的每一行對應小說的一個章節，并顯示章節中的字符和句號數量。毫不奇怪，字符少的章節往往句號也少，一般來說 - 章節越短，句子越少，反之亦然。然而，這種關系并不是完全可以預測的，因為句子的長度各不相同，還可能涉及其他標點符號，例如問號。 `chars_periods_huck_finn` | 《哈克貝利·芬》章節長度 | 句號數量 | | --- | --- | | 7026 | 66 | | 11982 | 117 | | 8529 | 72 | | 6799 | 84 | | 8166 | 91 | | 14550 | 125 | | 13218 | 127 | | 22208 | 249 | | 8081 | 71 | | 7036 | 70 | （已省略 33 行）這里是《小女人》的對應數據： `chars_periods_little_women` | 《小女人》章節長度 | 句號數量 | | --- | --- | | 21759 | 189 | | 22148 | 188 | | 20558 | 231 | | 25526 | 195 | | 23395 | 255 | | 14622 | 140 | | 14431 | 131 | | 22476 | 214 | | 33767 | 337 | | 18508 | 185 | （已省略 37 行）你可以看到，《小女人》的章節總的來說比《哈克貝利·芬》的章節要長。讓我們來看看這兩個簡單的變量 - 每一章的長度和句子數量 - 能否告訴我們這兩本書的更多內容。我們實現它的一個方法是在同一個圖上繪制兩組數據。在下面的圖中，每本書的每一章都有一個點。藍色圓點對應于《哈克貝利·芬》，金色圓點對應于《小女人》。橫軸表示句號數量，縱軸表示字符數。 ```py plots.figure(figsize=(6, 6)) plots.scatter(chars_periods_huck_finn.column(1), chars_periods_huck_finn.column(0), color='darkblue') plots.scatter(chars_periods_little_women.column(1), chars_periods_little_women.column(0), color='gold') plots.xlabel('Number of periods in chapter') plots.ylabel('Number of characters in chapter'); ``` ![](https://box.kancloud.cn/ab27a6f1dcd3fb1aa2f87fdc1f22a491_566x501.png) 這個繪圖向我們展示，《小女人》的許多章節，而不是所有章節都比《哈克貝利·芬》的章節長，正如我們通過查看數字所看到的那樣。但它也向我們展示了更多東西。請注意，藍點粗略聚集在一條直線上，黃點也是如此。此外看起來，兩種顏色的點可能聚集在同一條直線上。現在查看包含大約 100 個句號的所有章節。繪圖顯示，這些章節大致包含約 10,000 個字符到約 15,000 個字符。每個句子大約有 100 到 150 個字符。事實上，從這個繪圖看來，這兩本書的兩個句號之間平均有 100 到 150 個字符，這是一個非常粗略的估計。也許這兩個偉大的 19 世紀小說正在表明我們現在非常熟悉的東西：Twitter 的 140 個字符的限制。