<ruby id="bdb3f"></ruby>

    <p id="bdb3f"><cite id="bdb3f"></cite></p>

      <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
        <p id="bdb3f"><cite id="bdb3f"></cite></p>

          <pre id="bdb3f"></pre>
          <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

          <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
          <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

          <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                <ruby id="bdb3f"></ruby>

                ThinkChat2.0新版上線,更智能更精彩,支持會話、畫圖、視頻、閱讀、搜索等,送10W Token,即刻開啟你的AI之旅 廣告
                # 使用orange進行聚類分析 小麥籽粒幾何性狀的測定 ## 知識點 - 數據的預處理 - Orange 數據集的格式 - 數據分布的含義 - 特征排序 - ## 實驗過程 ### 數據集 種子數據集:https://archive.ics.uci.edu/ml/datasets/seeds > 以下鏈接下載的文件是一個txt文件,使用TAB格式分隔的,數據需要簡單的處理以下才能正常使用。 https://archive.ics.uci.edu/ml/machine-learning-databases/00236/seeds_dataset.txt 處理完的實驗數據集,在課程資源包中提供,并做了漢化。 ??? 三種不同品種小麥籽粒幾何性狀的測定。用于軟X射線技術和GRAINS構建七個實值屬性,所有這些參數都是實值連續的。 ??? 1、面積A,? ??? 2、周長P,? ??? 3、緊湊度C = 4 * pi * A / P ^ 2,4? ??? 4、籽粒長度,? ??? 5、籽粒寬度,? ??? 6、不對稱系數? ??? 7、核槽的長度。? ??? 下載數據的文件格式為.txt格式,將文件格式改為.csv或.xlsx格式。 使用Data Table組件查看數據,顯示的一部分數據 ![](https://img.kancloud.cn/65/79/6579f25f0d3183cc62f8c524ead2dd62_1028x597.png) ### 數據預處理 打開orange軟件,進行數據預處理 ![](https://img.kancloud.cn/7d/fd/7dfde66b1b10953606b040af194dbebc_325x237.png) 加入文件(File)組件,設置數據源(File)為前面下載并處理后的數據集,設置類別的角色(Role)為目標(target),并將其類型(Type)改成目錄化(Categorical) ![](https://img.kancloud.cn/25/15/2515d9915817c55201190a52dd8fe034_616x589.png) 特征排序組件(Rank)可以根據數據特征的相關性對其進行排名和篩選,我們只關心那些對分類有較大幫助的特征(信息量比較大的),雙擊控件: ![](https://img.kancloud.cn/01/8a/018a8d702ab838732040eb1802351859_937x466.png) 可以看出,緊湊度(compactness)和不對稱性(asymmetry)特征的信息量值很低,故將其篩除。 > 可以用數據分布組件(Distributions)通過觀察緊湊度(compactness)和不對稱性(asymmetry)特征值的分布進行驗證。 緊湊度的統計分布 ![](https://img.kancloud.cn/62/25/62256fccd532f93a0a391df49d807c26_936x571.png) > 分布圖中可以看出3種類別的數據都混合在一起,因此該特征很難區分不同的類別的種子,因此不合適作為分類的特征,或者說該特征對分類任務來說提供的信息量是很少的。 不對稱系統的統計分布 ![](https://img.kancloud.cn/ca/be/cabeb0b4954601a56c90d84d49d3cb64_936x571.png) ## 聚類 ### K-means算法 k均值聚類算法(k-means clustering algorithm)是一種迭代求解的算法,其步驟是: 預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。 雙擊K-means控件,設置算法參數: > 輸入固定簇數(Number of Clusters):3 ![](https://img.kancloud.cn/57/83/5783fe66b5a17873ee7e9c642c65b842_239x335.png) > 選擇使用K-means++算法進行初始化 ### 層次聚類 先用距離組件(Distances)計算成對距離的矩陣,然后用層次聚類組件(Hierarchical Clustering)顯示從輸入距離矩陣構造的層次聚類的樹形圖 ?????? 選擇Top N = 3,傳入數據流到Scatter Plot控件進行可視化: 結果分析: ?????? 用Silhouette Plot輪廓組件評價聚類效果。數據越靠近數據簇中心,輪廓值越大;離簇中心越遠,輪廓值越小:0為位于兩簇之間的點,負數為錯誤劃分到別的簇中。 K-means輪廓圖: ![](https://img.kancloud.cn/34/0e/340ef743bb421abd5149095a94feb461_616x616.png) K-means++輪廓圖 層次輪廓圖: ?????? 通過對比其輪廓圖,我們發現:在對該數據進行聚類時,K-means算法要比層次聚類要好,層次聚類中有出現負值;而k-means++算法將數據聚成兩簇,沒有達到我預期得到的聚類結果。
                  <ruby id="bdb3f"></ruby>

                  <p id="bdb3f"><cite id="bdb3f"></cite></p>

                    <p id="bdb3f"><cite id="bdb3f"><th id="bdb3f"></th></cite></p><p id="bdb3f"></p>
                      <p id="bdb3f"><cite id="bdb3f"></cite></p>

                        <pre id="bdb3f"></pre>
                        <pre id="bdb3f"><del id="bdb3f"><thead id="bdb3f"></thead></del></pre>

                        <ruby id="bdb3f"><mark id="bdb3f"></mark></ruby><ruby id="bdb3f"></ruby>
                        <pre id="bdb3f"><pre id="bdb3f"><mark id="bdb3f"></mark></pre></pre><output id="bdb3f"></output><p id="bdb3f"></p><p id="bdb3f"></p>

                        <pre id="bdb3f"><del id="bdb3f"><progress id="bdb3f"></progress></del></pre>

                              <ruby id="bdb3f"></ruby>

                              哎呀哎呀视频在线观看