<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ??一站式輕松地調用各大LLM模型接口,支持GPT4、智譜、豆包、星火、月之暗面及文生圖、文生視頻 廣告
                # 隨機化在機器學習中解決混雜變量的作用 > 原文: [https://machinelearningmastery.com/confounding-variables-in-machine-learning/](https://machinelearningmastery.com/confounding-variables-in-machine-learning/) 應用機器學習的很大一部分是關于運行受控實驗以發現在預測建模問題上使用什么算法或算法配置。 一個挑戰是問題的某些方面和稱為混雜變量的算法無法控制(保持不變)并且必須進行控制。一個例子是在學習算法中使用隨機性,例如隨機初始化或學習期間的隨機選擇。 解決方案是以一種已成為應用機器學習標準的方式使用隨機性。通過使用隨機臨床試驗,我們可以簡要地了解為什么使用隨機性來管理醫學中的混雜變量,我們可以更多地了解在對照實驗中使用隨機性的基本原理。 在這篇文章中,您將發現混淆變量以及我們如何使用隨機化工具解決它們。 閱讀這篇文章后,你會知道: * 與獨立變量和因變量相關的混雜變量會混淆影響并影響實驗結果。 * 應用機器學習涉及遭受已知混雜變量的受控實驗。 * 實驗隨機化是控制機器學習實驗中混雜變量的關鍵。 讓我們開始吧。 ![The Role of Randomization to Address Confounding Variables in Machine Learning](img/050bf669417117f0f98ce5a56a05678f.jpg) 隨機化在機器學習中解決混淆變量的作用 照片由 [Funk Dooby](https://www.flickr.com/photos/funkdooby/33051321096/) ,保留一些權利。 ## 概觀 這篇文章分為四個部分:l它們是: 1. 混淆變量 2. 混淆機器學習 3. 實驗隨機化 4. 機器學習中的隨機化 ## 混淆變量 在實驗中,我們經常對自變量對因變量的影響感興趣。 混淆變量是混淆獨立變量和因變量之間關系的變量。 > 混淆,有時被稱為混雜偏見,主要被描述為效果的“混合”或“模糊”。 - [混淆:它是什么以及如何處理它](https://www.sciencedirect.com/science/article/pii/S0085253815529748),2008。 混雜變量可以通過多種方式影響實驗結果,例如: * 相關性無效。 * 增加差異。 * 引入偏見。 混淆變量可能是已知的或未知的。 它們通常被表征為與獨立變量和因變量具有關聯或相關性。 另一個特征是混雜變量以不同方式影響群體或觀察。 > 混淆變量或混淆因素通常被定義為變量與因變量和自變量相關(正或負)。 Confounder是一個無關變量,其存在會影響正在研究的變量,因此結果不會反映所研究變量之間的實際關系。 - [如何通過統計分析控制混雜效應](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4017459/),2012。 混淆變量的更大難度在于它們存在并且影響結果可能并不明顯。 混淆變量的影響通常不明顯甚至無法識別,除非它們在實驗或數據收集方法的設計中得到明確解決。 ## 混淆機器學習 混淆變量傳統上是應用統計中的一個問題。 這是因為在統計中我們經常關注自變量對數據中因變量的影響。統計方法旨在發現和描述這些關系,混淆變量本質上可以破壞或使發現無效。 機器學習從業者通常對預測模型的技能感興趣,而不太關心模型的統計正確性或可解釋性。因此,混淆變量在數據選擇和準備方面是一個重要的主題,但在開發描述性統計模型時不那么重要。 然而,混淆變量在應用機器學習中至關重要。 機器學習模型的評估是具有獨立和因變量的實驗。因此,它受到混淆變量的影響。 可能令人驚訝的是,您已經知道這一點,并且應用機器學習中的黃金標準實踐解決了這個問題。因此,需要深入了解機器學習實驗中的混雜變量,才能理解機器學習模型評估的選擇和解釋。 考慮一下影響機器學習模型評估的因素,有哪些獨立變量? 一些例子包括: * 數據準備方案的選擇。 * 選擇訓練數據集中的樣本。 * 選擇測試數據集中的樣本。 * 學習算法的選擇。 * 選擇初始化學習算法。 * 選擇學習算法的配置。 這些選擇中的每一個都將影響機器學習實驗中的因變量,該實驗是用于在進行預測時估計模型技能的所選度量。 機器學習模型的評估涉及受控實驗的設計和執行。受控實驗保持所有元素不變,除了研究中的一個元素。機器學習中兩種最常見的對照實驗類型是: * 受控實驗可以改變和評估學習算法。 * 受控實驗可以改變和評估學習算法配置。 然而,存在一些混淆變量,受控實驗不能保持不變。具體而言,存在隨機性的來源,如果它們保持不變將導致對模型的無效評估。三個例子包括: * 數據樣本中的隨機性。 * 模型初始化中的隨機性。 * 學習算法中的隨機性。 例如,神經網絡中的權重被初始化為隨機值。隨機梯度下降使得時期中的樣本的順序隨機化以改變所執行的更新的類型。為隨機森林中的每個可能的切割點選擇隨機的特征子集。還有更多的例子。 機器學習算法中的隨機化不是一個bug;它是一種旨在平均超過經典確定性方法來改善模型表現的特征。 > 隨機性可以在許多不同水平的ML中存在,通常增強表現或減輕經典方法的問題和困難。 - [隨機機器學習方法:最新發展和挑戰](https://www.researchgate.net/publication/316740225_Randomized_Machine_Learning_Approaches_Recent_Developments_and_Challenges),2017年。 這些是混淆變量,我們不能保持不變。如果它們保持不變,模型的評估將不再提供對結果的普遍性的深入了解。我們將了解模型在特定數據樣本上的表現如何,或者在學習過程中對決策序列的初始化進行初始化,但對模型在一般情況下的表現幾乎一無所知。 我們可以處理無法控制的混雜變量的方法是使用隨機化。 ## 實驗隨機化 隨機化是一種用于實驗設計的技術,用于控制不能(不應該)保持不變的混雜變量。 例如,在評估治療時,在臨床實驗中使用隨機化來控制個體之間的生物學差異。這就是為什么在研究結果可以概括之前必須對多個人而不是單個個體進行評估的原因。 > 在隨機化中,將研究對象隨機分配到暴露類別,以打破暴露和混雜因素之間的任何聯系。通過生成與已知和未知混雜變量相當可比的組,可以減少混淆的可能性。 — [How to control confounding effects by statistical analysis](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4017459/), 2012. 隨機化是實驗設計中的一個簡單工具,它允許混雜變量在樣本中產生影響。它將實驗從單個案例轉移到觀察集合,其中統計工具用于解釋發現。 在醫學中,隨機化是評估治療的金標準,被稱為隨機臨床試驗。它旨在不僅消除生物學差異的混雜影響,而且還消除偏差,例如實驗者選擇治療成員和非治療組的效果。你可以想象,如果選擇一個隊列中病情最輕的成員進行治療,治療看起來會非常成功。 > [隨機臨床試驗]是一項特殊的隊列研究,其特征是患者被隨機分配到實驗組(有暴露)和對照組(無暴露)。 [...]因此,隨機化有助于防止臨床醫生選擇,并有助于建立與相關預后因素相同的群體。 - [隨機臨床試驗:臨床研究中無與倫比的標準?](http://www.kidneyinternational-online.org/article/S0085-2538(15)52692-6/fulltext) ,2007年。 使用隨機臨床試驗時仍存在混淆變量。一個例子是實驗者知道研究的參與者正在接受什么樣的治療。這可能會影響實驗者與參與者互動的方式,從而影響實驗結果。 答案是在參與者或實驗者不知道治療的情況下使用致盲。理想情況下,采用雙盲實驗,確保參與者和實驗者都不知道他們的治療方法。 > 在可行的情況下,強烈建議在隨機化后,患者和臨床醫生不知道誰接受干預,誰不接受干預。研究可以是單盲(患者或臨床醫生不知道誰接受治療,誰不接受治療)或雙盲(患者和臨床醫生都不知道誰接受治療)。 — [The randomized clinical trial: An unbeatable standard in clinical research?](http://www.kidneyinternational-online.org/article/S0085-2538(15)52692-6/fulltext), 2007. 請注意,在我們繼續研究機器學習中隨機化的使用之前,請考慮使用其他方法來管理混雜變量的影響。 [維基百科在這里有一個很好的清單](https://en.wikipedia.org/wiki/Confounding#Decreasing_the_potential_for_confounding)。 ## 機器學習中的隨機化 隨機化用于評估機器學習模型以管理不可控制的混雜變量。 它是評估機器學習模型所描述的標準方法的關鍵,也是使用數據重采樣和重復實驗等方法的基本原理。 * 重采樣方法用于隨機化訓練和測試數據集,以幫助估計訓練和評估來自域的隨機數據樣本的模型,而不是特定的數據樣本。 * 重復評估實驗以幫助估計具有不同隨機初始化和學習決策的模型的技能,而不是基于單個初始條件和學習決策序列。 隨機化允許機器學習從業者概括發現,使其有用和適用。這就是為什么仔細設計測試線束和重采樣方法很重要的原因。這就是為什么我們重復模型的評估以及我們不在偽隨機數生成器上修復種子的原因。 我在帖子中詳細介紹了這些主題: * [在機器學習中擁抱隨機性](https://machinelearningmastery.com/randomness-in-machine-learning/) * [如何評估深度學習模型的技巧](https://machinelearningmastery.com/evaluate-skill-deep-learning-models/) ### 我們應該盲目審判嗎? 當我們仔細研究為什么我們使用隨機化來控制混雜變量時,它會引發對我們可能無法控制的其他混雜因素的質疑。 例如,機器學習從業者在通過數據準備和超參數調整為每個模型提供最佳機會之前了解模型的技能。也許從業者應該盲目地消除偏向最終模型選擇的可能性。 風險在于,真正喜歡人工神經網絡的從業者將“_發現_”一種優于其他模型的神經網絡配置。 對于預測建模項目的簡約解決方案,最好是統計僥幸或違反Occam的Razor;在最壞的情況下,這是科學欺詐。臨床醫生積極消除這種偏見的原因是人們的生命處于危險之中。我們可以通過機器學習算法來達到這一點,例如:在汽車里。 在實踐中,今天,我認為這是通過大量精心設計實現前期加載實驗的良好動機,并使結果的執行和統計解釋自動化。 ## 進一步閱讀 如果您希望深入了解,本節將提供有關該主題的更多資源。 * [混淆維基百科](https://en.wikipedia.org/wiki/Confounding) * [控制維基百科上的變量](https://en.wikipedia.org/wiki/Controlling_for_a_variable) * [維基百科上的隨機對照試驗](https://en.wikipedia.org/wiki/Randomized_controlled_trial) * [隨機臨床試驗:臨床研究中無與倫比的標準?](http://www.kidneyinternational-online.org/article/S0085-2538(15)52692-6/fulltext) ,2007年。 * [混淆:它是什么以及如何處理它](https://www.sciencedirect.com/science/article/pii/S0085253815529748),2008。 * [機器學習預測中的混淆變量?在交叉驗證](https://stats.stackexchange.com/questions/271694/confounding-variables-in-machine-learning-predictions) * [如何通過統計分析控制混雜效應](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4017459/),2012。 * [隨機機器學習方法:最新發展和挑戰](https://www.researchgate.net/publication/316740225_Randomized_Machine_Learning_Approaches_Recent_Developments_and_Challenges),2017年。 ## 摘要 在這篇文章中,您發現了混淆變量以及我們如何使用隨機化工具解決它們。 具體來說,你學到了: * 混淆變量與獨立變量和因變量相關,并混淆影響并影響實驗結果。 * 應用機器學習涉及遭受已知混雜變量的受控實驗。 * 實驗隨機化是控制機器學習實驗中混雜變量的關鍵。 你有任何問題嗎? 在下面的評論中提出您的問題,我會盡力回答。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看