<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 數據管理至關重要以及為什么需要認真對待它 > 原文: [https://machinelearningmastery.com/data-management-matters-and-why-you-need-to-take-it-seriously/](https://machinelearningmastery.com/data-management-matters-and-why-you-need-to-take-it-seriously/) 我們生活在一個淹沒在數據中的世界。互聯網跟蹤,股票市場運動,基因組測序技術及其同類產品都會產生大量數據。 這些數據中的大部分都是別人的責任,由其他人生成,存儲在別人的數據庫中,由數據庫保存并提供......你猜對了......別人。 但。每當我們執行機器學習項目時,我們正在處理所有數據的一小部分。 無論您是生成自己的數據,還是使用公開數據,您的結果都必須是可重現的。分析的可重復性主要取決于數據管理。 [![Data Management Matters](https://img.kancloud.cn/fc/5d/fc5db9630ca163e8bceac22f08cf52cc_640x427.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/11/data-management-matters.jpg) 數據管理事項 攝影: [Ken Teegardin](https://www.flickr.com/photos/teegardin/5537894072) ,保留一些權利 ## 什么是數據管理? 數據管理是存儲,處理和保護原始數據和任何相關元數據的過程。 這個過程包括: 1. 為您的分析確定適當的數據 2. 下載數據 3. 根據需要重新格式化 4. 清理數據 5. 將數據存儲在適當的存儲庫中 6. 備份數據 7. 使用元數據進行批注 8. 維護數據 9. 將數據提供給您想與之共享的人 10. 保護數據免受惡意或意外訪問 上面列表中的前四個點已在此博客的其他帖子中得到解決。在這篇文章中,我們將介紹處理工作數據集的過程。 > 組織良好,文檔齊全,保存和共享數據對于推進科學探究和增加學習和創新機會具有不可估量的價值。 - [英國數據檔案](http://ukdataservice.ac.uk/manage-data/lifecycle.aspx) ## 為什么不把它留給別人呢? 如果要生成自己的數據,則需要明確數據管理。但是,即使您使用其他人的數據,您仍需要制定經過深思熟慮的數據管理政策和程序。 大多數在線數據庫都在不斷增長,而且往往呈指數級增長。如果您已經生成了今天可用數據的結果,那么在一個月內,您的數據集將僅代表更大數據集的一部分,并且在兩年內它可能只是當前數據庫的一小部分。為了產生可重現的結果,您必須下載,清理和保護您自己的數據集。 ## 按數字劃分的數據管理流程 ### 1.將數據存儲在適當的存儲庫中 有幾種不同類型的數據存儲庫具有不同的用途。這些包括,從最簡單到最復雜: **數據庫**:“_有組織的相關信息_”([定義](http://wordnet.princeton.edu/perl/webwn)) 這里的關鍵術語是有條理的。簡單的關系數據庫以明確定義的結構化方式存儲記錄和記錄之間關系的最基本信息。結構是關鍵,數據庫不一定需要掌握有關存儲的數據或它們的含義的任何知識。許多類型的數據甚至可以存儲為二進制大對象(BLOBS)。 **數據倉庫**:“_來自多個可能異構數據源的數據集成存儲庫,具有一致且一致的語義_”([定義](http://www.genomicglossaries.com/content/algorithms_glossary.asp)) 隨著數據倉庫的語義被添加到數據結構中。語義算法試圖通常以本體的形式為數據添加含義。基于受控詞匯表的本體,在詞匯術語之間具有明確定義的關系(例如,“_醇脫氫酶_”是A“_蛋白質_”)。 **數據存檔**:“_保存用于歷史或參考目的的文檔版本_”([定義](http://www.bbn.com/glossary)) 數據存檔通常保存在可靠的媒體上,并且不一定必須快速訪問,因為數據是為了歷史目的而保存的。許多組織要求將數據保留一段特定的時間,即使在分析數據并公布結果之后也是如此。 **數據集成**:“_組合駐留在不同來源的數據并為用戶提供這些數據的統一視圖的過程_”([定義](http://en.wikipedia.org/wiki/Data%20integration)) 前三種類型的存儲庫通常處理單一類型的數據:就業記錄,或蛋白質 - 蛋白質相互作用數據。數據集成不是一個存儲庫,而是一組用于將不同數據類型組合到單個數據集中的算法,以便允許更有用的分析。例如,將人口統計數據(年齡,性別,BMI等)與血液檢測結果和經濟數據相結合,可以讓您比單獨的血液檢查更深入地了解您的健康狀況。 ### 2.備份數據 每個人都知道應該定期備份所有硬盤驅動器,盡管可怕的比例人們并不經常這樣做。這樣做吧!數據備份應包括: 每日增量備份到不同的硬盤驅動器,甚至是USB記憶棒。有許多備份解決方案,包括免費和專有。 [維基百科有一個相當全面的清單](http://en.wikipedia.org/wiki/List_of_backup_software)。 文件同步軟件不會嘗試從一個驅動器備份到另一個驅動器的所有內容,但會跟蹤每個文件的上次更新版本,并保存最新版本。如果文件已在兩個位置同時更新,則大多數應用程序將詢問用戶選擇哪一個。 [請參閱維基百科列表](http://en.wikipedia.org/wiki/Comparison_of_file_synchronization_software)。 對于它的價值,我使用Unison,并且對它的表現非常滿意。 除每日增量備份外,還應定期執行完整備份。備份的一個副本應存儲在現場,以便在發生災難時快速訪問,并且至少有一個異地,以防發生真正的災難。如果您有硬盤故障并需要訪問您的文件,它們應該在抽屜中。如果您的辦公室燒毀,文件應該在您家或媽媽的家里。 ### 3.使用元數據進行批注 當我們第一次下載數據時,它的來源和含義對我們來說是非常明顯的。我們知道為什么我們想要它,我們做了什么,以及它意味著什么。但是,經過幾個月,這種理解可能不那么清楚。 元數據是關于數據的數據。元數據可以包括諸如誰生成數據,何時生成數據,何時下載,使用哪些分析,使用了哪些實驗條件,使用了哪些文件以及是否存在任何已知問題等信息。數據。 有許多以社區為基礎的組織旨在指定復制數據所需的最少信息,特別是現代分子生物學實驗產生的復雜數據。 元數據注釋看起來像是一個真正的問題,但如果您的結果值得報告,則值得再現,元數據對于長期理解原始數據至關重要。 ### 4.維護數據 一旦您選擇,清理,正確存儲,注釋和備份數據,您可能會認為困難部分已經結束。當然,它不是那么簡單,它永遠不會。必須保持數據。 維護涉及: * 添加新數據(和適當的元數據) * 更新現有數據(和關聯的元數據) * 在錯誤顯現(并更新元數據)時處理錯誤 如果你有一次性數據集,第一點可能沒有實際意義,但最后兩點很重要。存儲的數據應反映您當前對問題的最佳理解,并且任何更新,更改或丟棄都應記錄在元數據中。 數據維護的另一個重要問題是媒體問題。存儲介質變得過時,真正令人恐懼。 如今,大多數數據集都存儲在硬盤上,并備份到DVD或USB記憶棒。這些媒體將不可避免地變得過時,在比現在看來可能更少的年代,機器學習從業者必須非常了解這一趨勢。特別是在檔案數據集(可能無法經常訪問)的情況下,定期檢查以確保數據仍然可讀并且采用現代格式是必不可少的。 > 十多年來,1976年維京火星登陸的磁帶未經處理。后來分析時,數據是不可讀的,因為它是一種未知的格式,原來的程序員已經死亡或者離開了NASA - 來自[數字黑暗時代](http://en.wikipedia.org/wiki/Digital_dark_age)的維基百科文章。 ### 5.向那些人提供數據,并且僅向那些與您共享數據的人員提供數據 許多出版論壇堅持認為用于生成報告結果的數據可供感興趣的讀者使用。即使在出版之外,您也可能希望與朋友和同事共享數據,以便進行更深入的分析。 當然,問題在于免費提供的數據可能會被濫用。只讀數據可能會被競爭對手或那些歪曲它的人下載和使用,以推進可能不屬于您的原因。具有讀/寫訪問權限的數據可能會被惡意個人修改,也可能被您或您的同事意外修改。 數據安全和訪問控制是一個巨大的研究領域,而且許多可用的材料都非常技術性。基本上,大多數數據庫管理系統都具有不同粒度級別的內置訪問控制,通常采用熟悉的帳戶和密碼形式。通過網站提供的數據可能沒有這些內置保護,必須根據具體情況實施適當的保護措施。 每個數據管理員都在安全和共享之間走一條路。 ## 數據管理教程和秘籍 一個絕對的初學者對備份的介紹(這個有點舊,所以技術有所改進,但基本原則是合理的): &lt;iframe allowfullscreen="" frameborder="0" height="281" src="https://www.youtube.com/embed/k6dosJ9phWY?feature=oembed" width="500"&gt;&lt;/iframe&gt; 密歇根大學的Todd Austin撰寫的一篇(大部分)計算機安全簡介: &lt;iframe allowfullscreen="" frameborder="0" height="375" src="https://www.youtube.com/embed/o6pgd8gLFHg?feature=oembed" width="500"&gt;&lt;/iframe&gt; * 英國數據檔案館有一份數據管理清單,[可在此處獲取](http://www.data-archive.ac.uk/create-manage/planning-for-sharing/data-management-checklist)。 * 關于數字黑暗時代的優秀文章,當存儲媒體變得不可讀時[可在維基百科](http://en.wikipedia.org/wiki/Digital_dark_age)上找到。 * 計算機存儲介質的老化速度有多快? [查看這篇文章?](http://www.zetta.net/history-of-computer-storage/) * 有關生物學和生物醫學最低信息標準的概要,請參閱[開放生物學和生物醫學本體](http://www.obofoundry.org/)。 * Web應用程序訪問控制的一個很好的概述,來自名為[訪問控制備忘單](https://www.owasp.org/index.php/Access_Control_Cheat_Sheet)的Open Web Application Security Project。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看