<!--                                                                                                                              
                                                                                                                             
                                                                                                                             
                                         ..;+$&& &&&&$Xx;                                                                  
                                      ..;+$&&&&&&&&&&&&&&&&&$Xx;                                                                  
                                      .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&:                                                             
                                   .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                          
                                   X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                       
                                 .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&X:                                                    
                                :X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x                                                   
                              :$&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&.                                                 
                             :$&&&&&&&&&&&&&$$$$$$$$$$$$$$&&&&&&&&&&&&&&&&&&&&&&&+                                                
                            ;$&&&&&&&&&$$$XXXXXXXxxxxxxXXXXXX$$$$&&&&&&&&&&&&&&&&&x                                               
                            X&&&&&&&&$$XXXXXXxXxxxxxxxxxxxxxxxxxxxxX$&&&&&&&&&&&&&&&                                              
                           :&&&&&&&$$$XXXXXXxxxxxxx+x++++++++++++xxxxxxX$&&&&&&&&&&&;                                             
                          .$&&&&&&$$$XXXXXxxxxxxxxxx++++++++++++++++++xxxx$&&&&&&&&&X                                             
                          $&&&&&&$$$XXXXxxxxxxxxx+++++++++++++++++++++++xxxx$&&&&&&&&                                             
                         :&&&&&&$$$XXXXXxxxxxxxxx+++++++++++++;+++++++++++xxxX$&&&&&&.                                            
                         $&&&&&$$$XXXXXXxxxxxxx++++++++++++++++++++++++++++xxxX$&&&&&+                                            
                        .&&&&&&$$XXXXXxxxxxxxxx++++++++++++;;+++++++++++++++xxxX$&&&&+                                            
                        ;&&&&&&$$XXXXxxxxxxxx+++++++++++++++++++++;++++++++++xxxX&&&&x                                            
                        X&&&&&$$XXXXXXXXxxxxx+++++;;+;;;;;;;;;++;;;;++++++++++xxX$&&&&.                                           
                        X&&&&&$XX$&&&&&&&&&$$Xxxx++++++;;;;;+++++;++++++++++++xxX$&&&&X                                           
                        X&&&&$X$&&&&&&&&&&&&&&&$$Xxxxx++++++++++++++++++++++xxxxx$&&&&$                                           
                        &&&&&XX$&&&$$$$$$$$$$&&$$$$XXXx+++++++xxxXXX$$$&&&$$$$$XxX&&&&+                                           
                        X&&&&XXXXXXXxxxx++xxXX$$$$XXXXxx++++xxXXXX$$$&&&&&&&&&&&Xx&&&&.                                           
                        +&&&XXxXXxxxxxx++++++xxxXXXXXxxx++++xxXXXXXXXXxxxxxxX$$$$X&&&x                                            
                        X&&&XXXXXxXX$XXXXxxxX$XxxXXXXxxx+++++xXXXXxxxx++++++++xxxx&&&;                                            
                       ;$&&XxxXXXX$$&&&&&&&&&&$$xXXXXXx++;+++xXXXX$$&&$$$$Xx++++++X&&                                             
                       X$&&xxxxXX$$$$$$&&&&&&X$&$+xxxXx++;+++xxxX&&&&&&&&$&&&$Xx++x&+                                             
                      ;$$&$XxxxxxxxxXxxXXXXxxx+++++xxxx++;++++++++xxX&&&&XXXXXXx+++&$:                                            
                      +$$$$xxxxxxx++xxxxxxxxxx++x+xxxxx++;;+++++++xxx++++++++++++++$$+                                            
                      .XX$$xxxxxxx+++++++++++++++xxxxxx++;+++++++++++xxx+++++++++++Xx+                                            
                       xX$$xxxxxxx++++++++++++++xxxxxxx++;;+++++++;+++;+;;;;;++++++x++                                            
                       ;XX$Xxxxxxx+++++++++++++xxxxxxxx++;+++++++++;;;;;;;;;;+++++++;.                                            
                        +X$XXxxxx+++++++++++++xxXXxxxxx+;;;++++xx+++;;;;;;++++++++++.                                             
                         +$XXXxxxx+++++++++++xxxxxxxxxx+;;;+++++xxx+++;;;+;;;++++++:                                              
                          XXXXxxxx+++++++++xxxxx+++xxxx++++++++++xxx++++++++++++++.                                               
                           ;XXXXxxxx++++xxxxxxxxxxxxxxxx++++++++++xxxx+++++++++++;                                                
                            xXXXXxxxxxxxxxxxxX$$$$&&&$$XXXX$&&$$Xx++xxxx+++++++++:                                                
                            +XXXXXXXXxXxxxxxxX$$$$$$$$$$$$$$$$$$X++++xxxxxxxxx+++                                                 
                            ;XXX$$XXXxxxxxxxxXXXXXXXXXXXXx++++++++++++xxxxxxxxx+;                              ;++;:              
                            .xXX$$$XxxxxxxxxXxxxxxxx++++++++++++++xxx++++xxxxx++                              ;xx++;;             
                             +XXX$XXxxxxxxXXXXxxxxxx++++++++++++++xxxxx+++xxxxx:            .                .xxx+++;             
                              XXXXXXXxxxxX$&&&&&&$$$$XxxxXX$$$$$$&&&$Xx++++xxx;           :+++;.             +xxxx++;             
                              .XXX$XXXxxxxxxXX$$$$$$$$&$$$XxXXXXx+xxXXxx+xxxx;            x+++;;             Xxx+x++:             
                               ;$$$$XXXxxxxxxxxXXX$$$XXxxxxXXxx++++++xxxxxxx+            .xx++;;.           :Xxxxx++.             
                                +$$$$$$XXxxxxxxxxXXXXXXXXXXxxxx++++++xxxxxx;             :xx+++;;           ;Xxxxxx+              
                                 $&$$$$$$XXxxxxxxxxXXXXXXXXxxxx++++xxxxxXx;              :x+++++;           xx+++++:              
                            ..   $&&&$$$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxxxxX:               .Xx+++++          .xx+++++.              
                        X&&&&&&&&&&&&&&&$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxx+                  XXxxx++.         +xx+++++.              
                      $&&&&&&&&&&&&$&&&&&$$$XXXxxxxxxxxxxxxxxxxxxxxXXX+                   +xx+++;;        .Xx++++++               
                   :$&&&&&&&&&&&&&&&&$&&&&&&$$XXXXXXXXXXXXxxxxXXXXXXXx.                   ;Xx+++++.       ;Xxx+++++               
                  $&&&&&&&&&&&&&&$$$&&&&&&&&&&&$$$XXXXXXXXXXXX$$$$$Xxx                    +Xx+++++;       xxx+xxx+;               
             .;&&&&&&&&&&&&&&&&&&$$$$$&&&&&&&&&&&&&&&$$$$$$&&&&$$XXxx+                    +Xxxxx+++      :Xxx+++++:               
       +$&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$&&&&&&&&&&&&&&&&&&&&&$$XXxxxx+                    .$Xxxx+++:     xXxx++++;.               
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$&&&&&&&&&&&&&&&&&&$$XXxxxxx;                     XXx+++++:    .XXxx++++;                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$XXX$$$$&&&&&&$$&&&&&$$$$Xxxxxxxx&.                    +Xx+++++;    ;XXxx++++:                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXXXX$$$$$&&&&&&&$$$$$$XXXxxxxxX&&:                   ;Xxx+++++   .xXxxxxx++                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XxxxXXXX$$$$$$$$$$$XXXXxxxxxxx&&&&                   .$Xxx++++.  +xxxxxxx+;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&xxxxxxxxxxx+++x++xxxxxxxxxxx$&&&&&&&&&&&&X.        .XXxx+++++;;;;+++++++;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x+xxxxxxxxxxxxx+xxxxxxxxxX&&&&&&&&&&&&&&&&&;     .$$Xx+++++++++++++++++;;::.            
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+xxxxxxxx++xxxxxxxxxxXX$&&&&&&&&&&&&&&&&&&&.   .$Xxx++++++++++++++x+++xxxxxx+++       
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxxxxxx+++++xxxxxxxXX$&&&&&&&&&&&&&&&&&&&&X  .$$Xxx++++++++++x++xxxXXxxXxx++;++.    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$xxxxx+++++++xxxxX$$&$&&&&&&&&&&&&&&&&&&&&  $$Xx+++++++++++xx+XXX$$$X$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxx++++++++xxxX$$$$&&&&&&&&&&&&&&&&&&&&&:X$$x+x++xx+x++xxxxX$X$$$$$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xx++++xxxX$$&&&&&&&&&&&&&&&&&&&&&&&&&$$X++x++xx+++xxxXX$$$$$$Xx+++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXX+++++++++xxxXX$$$$$$Xx+++++++x;  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XX$X++++++++xxxXX$$$$$$x++++++++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxx$$x+++++xxxxX$$$$$$Xx+++++++++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxx$Xx+++++xxxX$$$$$Xxx++++++++++++
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxxx$$x++++xXX$$$$$$Xxx+++++x+++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXxxxxX$x+++xXXxxXXxxxxxx+;+xx++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXxxxxxXXXXXxxxxXXXxx++++++xx++++: 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXXX$$$$$Xxx++xxxxxxx+++++xXxx++. 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xx++++xxXXxxx++x+xXXxx:  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xxx+xxxxxxxxxxxXXXXx    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$$XxxxxxxxxxxXxxXXx+.     
    
    这些是HTML代码，真没啥好看的 - 杰
    
-->


<!-- 
conda换源：
conda config --show channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

pip换源：
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
-->


<!DOCTYPE html>
<html lang="zh-CN" color-mode="light">

<head>
  <meta charset="utf-8">
  <!-- <meta name="viewport" content="width=device-width, initial-scale=1" /> -->
  <meta name="viewport" content="width=device-width, initial-scale=0.8, maximum-scale=1, user-scalable=no">

  
  <meta name="author" content="杰" />
  <meta name="description" content="" />
  
  
  <title>
    
      实验：机器学习之K-Means聚类 
      
      
      |
    
     人工智能小站站
  </title>

  
    <link rel="apple-touch-icon" href="/images/favicon.png">
    <link rel="icon" href="/images/favicon.png">
  

  <!-- Raleway-Font -->
  <!-- <link href="https://fonts.googleapis.com/css?family=Raleway&display=swap" rel="stylesheet"> -->

  <!-- hexo site css -->
  <link rel="stylesheet" href="/css/main.css" />
  <link rel="stylesheet" href="//at.alicdn.com/t/font_1886449_67xjft27j1l.css" />

  <!-- <style>
    @font-face {
      font-family: 'NotoSansSC';
      src: url('https://pub-0a02c629549c4638b41011dd3ce66f6a.r2.dev/NotoSansSC-Regular.ttf') format('truetype');
    }

    body {
      font-family: NotoSansSC,sans-serif;
    }
  </style> -->

  <!-- 代码块风格 -->
  

  <!-- jquery3.3.1 -->
  
    <script defer type="text/javascript" src="/plugins/jquery.min.js"></script>
  

  <!-- fancybox -->
  
    <link href="/plugins/jquery.fancybox.min.css" rel="stylesheet">
    <script defer type="text/javascript" src="/plugins/jquery.fancybox.min.js"></script>
  
  
<script src="/js/fancybox.js"></script>


  <script>
    var html = document.documentElement
    const colorMode = localStorage.getItem('color-mode')
    if (colorMode) {
      document.documentElement.setAttribute('color-mode', colorMode)
    }
  </script>
<!-- hexo injector head_end start -->
<link rel="stylesheet" href="/plugins/katex/dist/katex.min.css">

<link rel="stylesheet" href="/plugins/hexo-math/dist/style.css">
<!-- hexo injector head_end end --><meta name="generator" content="Hexo 7.3.0"></head>


  <body>
    <div id="app">
      <div class="header">
  <div class="avatar">
    <a href="/">
      <!-- 头像取消懒加载，添加no-lazy -->
      
        <img src="/images/avatar.webp" alt="">
      
    </a>
    <div class="nickname"><a href="/">hahaha.love 个人学习笔记</a></div>
  </div>
  <div class="navbar">
    <ul>
      
        <li class="nav-item" data-path="/">
          <a href="/">首页</a>
        </li>
      
        <li class="nav-item" data-path="/tags/编程语言/">
          <a href="/tags/编程语言/">编程语言</a>
        </li>
      
        <li class="nav-item" data-path="/archives/">
          <a href="/archives/">日期归档</a>
        </li>
      
        <li class="nav-item" data-path="/tags/">
          <a href="/tags/">标签</a>
        </li>
      
        <li class="nav-item" data-path="/life/">
          <a href="/life/">生活</a>
        </li>
      
        <li class="nav-item" data-path="/software/">
          <a href="/software/">软件下载</a>
        </li>
      
        <li class="nav-item" data-path="/about/">
          <a href="/about/">关于我</a>
        </li>
      
    </ul>
  </div>
</div>


<script src="/js/activeNav.js"></script>


        <div class="flex-container">
          <!-- 文章详情页，展示文章具体内容，url形式：https://yoursite/文章标题/ -->
<!-- 同时为「标签tag」，「朋友friend」，「分类categories」，「关于about」页面的承载页面，具体展示取决于page.type -->


  <!-- LaTex Display -->

  
    <script async type="text/javascript" src="/plugins/mathjax/tex-chtml.js"></script>
  
  <script>
    MathJax = {
      tex: {
        inlineMath: [['$', '$'], ['\\(', '\\)']]
      }
    }
  </script>


        <!-- clipboard -->

  
    <script async type="text/javascript" src="/plugins/clipboard.min.js"></script>
  
  
<script src="/js/codeCopy.js"></script>


                                  <!-- 文章内容页 url形式：https://yoursite/文章标题/ -->
                                  <div class="container post-details" id="post-details">
                                    <div class="post-content">
                                      <div class="post-title">实验：机器学习之K-Means聚类</div>
                                      <div class="post-attach">
                                        <span class="post-pubtime">
                                          <i class="iconfont icon-updatetime mr-10" title="更新时间"></i>
                                          2024-10-22 14:52:45
                                        </span>
                                        
                                          <span class="post-tags">
                                            <i class="iconfont icon-tags mr-10" title="标签"></i>
                                            
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                  #人工智能
                                                </a>
                                              </span>
                                              
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/" title="机器学习">
                                                  #机器学习
                                                </a>
                                              </span>
                                              
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/" title="无监督学习">
                                                  #无监督学习
                                                </a>
                                              </span>
                                              
                                          </span>
                                          
                                      </div>
                                      <div class="markdown-body">
                                        <h1 id="实验：机器学习之-K-Means-聚类"><a href="#实验：机器学习之-K-Means-聚类" class="headerlink" title="实验：机器学习之 K-Means 聚类"></a>实验：机器学习之 K-Means 聚类</h1><h2 id="第一章-K-Means-介绍"><a href="#第一章-K-Means-介绍" class="headerlink" title="第一章 K-Means 介绍"></a>第一章 K-Means 介绍</h2><h3 id="第一节-什么是-K-均值聚类"><a href="#第一节-什么是-K-均值聚类" class="headerlink" title="第一节 什么是 K 均值聚类"></a>第一节 什么是 K 均值聚类</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>如今人工智能发展迅速，有许多用于“聚类”的模型。在这个课程中，我们将展示被认为是其中最简单的模型之一：K-Means 聚类。尽管“K-Means”很简单，但它仍然在许多数据科学应用中被广泛用。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>无监督机器学习是一个过程，即教导计算机运用未标记、未分类的数据，使算法能在无监督情况下对这些数据进行操作。在没有先前数据训练的情况下，机器的任务就是依据相似性、模式和变化来整理未排序的数据。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>K 代表聚类，它依据数据点与聚类中心的距离，将数据点分配到 K 个聚类中的一个。它首先会在空间中随机设定簇质心，然后每个数据点根据与簇质心的距离分配到相应的簇。在将每个点分配到某个簇后，会重新设定簇质心。此过程不断迭代，直至找到良好的集群。在分析中，假定簇的数量是预先给定的，且必须将点归入其中一组。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在某些情形下，K 没有明确界定，我们需考虑 K 的最佳数量。K 意味着聚类表现最佳，数据能很好地分离。当数据点重叠时，该聚类不适用。与其他聚类技术相比，K 均值聚类速度更快，提供了数据点之间的强耦合。但 K 均值聚类不能提供明确的聚类质量信息，不同的簇质心初始分配可能导致不同的簇。此外，K 均值算法对噪声敏感，可能陷入局部最小值。</p>
<p><strong>K-Means 应用案例：</strong></p>
<ul>
<li>客户细分</li>
<li>了解网站访问者试图完成什么</li>
<li>模式识别</li>
<li>机器学习</li>
<li>数据压缩</li>
</ul>
<h3 id="第二节-k-均值聚类的目标是什么"><a href="#第二节-k-均值聚类的目标是什么" class="headerlink" title="第二节 k 均值聚类的目标是什么"></a>第二节 k 均值聚类的目标是什么</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>聚类的目标在于把总体或数据点集划分成多个组，使得每个组内的数据点相互间更具可比性，同时与其他组内的数据点存在差异。其本质就是依据事物间相似程度与不同程度来对事物进行分组。</p>
<h3 id="第三节-k-均值聚类的工作原理"><a href="#第三节-k-均值聚类的工作原理" class="headerlink" title="第三节 k 均值聚类的工作原理"></a>第三节 k 均值聚类的工作原理</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>我们获取一组具有特定特征及对应值（如向量形式）的项目数据集，任务是对这些项目进行分类。为此，我们采用 K-means 算法，这是一种无监督学习算法，其中的“K”代表要将项目分类成的组或簇的数量。（可将项目视作 n 维空间中的点来理解）。该算法会把项目分成 k 个相似的组或簇，计算相似度时采用欧几里得距离作为度量标准。</p>
<p>其具体工作流程如下：<br>首先，随机初始化 k 个点，称之为均值或聚类质心。然后，将每个项目归类到距离其最近的均值所属的类别，并更新均值的坐标，使其成为该簇中已分类项目的平均值。重复该过程特定的迭代次数后，便得到最终的簇。上述所提到的“点”被称作均值，是因为它们是所在分类项目的平均值。对于初始化这些均值，我们有多种选择，一种较为直观的方法是用数据集中随机项目的均值来初始化，另一种方法是在数据集边界范围内的随机值处初始化均值（若对于特征 x，项目的值处于[0,3]区间内，就用[0,3]内的 x 值来初始化均值）。</p>
<p>K-Means 伪代码：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line">初始化 k 个均值为随机值</span><br><span class="line">重复以下步骤指定的迭代次数：</span><br><span class="line">    遍历所有项目：</span><br><span class="line">        计算项目与每个均值的欧几里得距离</span><br><span class="line">        确定最接近项目的均值</span><br><span class="line">        将项目分配给该均值</span><br><span class="line">    对于每个簇：</span><br><span class="line">        通过计算簇中项目的平均值来更新该簇的均值</span><br></pre></td></tr></table></figure>

<h2 id="第二章-实验部分"><a href="#第二章-实验部分" class="headerlink" title="第二章 实验部分"></a>第二章 实验部分</h2><h3 id="第一节-安装环境"><a href="#第一节-安装环境" class="headerlink" title="第一节 安装环境"></a>第一节 安装环境</h3><figure class="highlight shell"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pip install seaborn pandas numpy matplotlib</span><br></pre></td></tr></table></figure>

<h3 id="第二节-K-Means-聚类实验（纯代码实现）"><a href="#第二节-K-Means-聚类实验（纯代码实现）" class="headerlink" title="第二节 K-Means 聚类实验（纯代码实现）"></a>第二节 K-Means 聚类实验（纯代码实现）</h3><p> <span style='display: inline-block; width: 3.6rem;'></span><code>make_blobs</code>函数是<code>sklearn.datasets</code>中的一个函数，主要用于产生聚类数据集，生成一个数据集和相应的标签。以下是<code>make_blobs</code>函数的参数说明：</p>
<ul>
<li><code>n_samples</code>：表示数据样本点个数，默认值为 100。</li>
<li><code>n_features</code>：表示每个样本的特征（或属性）数，也表示数据的维度，默认值为 2。</li>
<li><code>centers</code>：表示类别数（标签的种类数），默认值为 3。</li>
<li><code>cluster_std</code>：表示每个类别的方差，浮点数或者浮点数序列，默认值为 1.0。例如，若希望生成 2 类数据，其中一类比另一类具有更大的方差，可以将<code>cluster_std</code>设置为浮点数 1.0~3.0。</li>
<li><code>center_box</code>：中心确定之后的数据边界，默认值为(-10.0,10.0)。</li>
<li><code>shuffle</code>：将数据进行洗乱，默认值是<code>True</code>。</li>
<li><code>random_state</code>：官网解释是随机生成器的种子，可以固定生成的数据。给定数之后，每次生成的数据集就是固定的。若不给定值，则由于随机性将导致每次运行程序所获得的结果可能有所不同。在使用数据生成器练习机器学习算法练习或 python 练习时建议给定数值。</li>
</ul>
<h4 id="2-1-数据初始化"><a href="#2-1-数据初始化" class="headerlink" title="2.1 数据初始化"></a>2.1 数据初始化</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"><span class="keyword">import</span> matplotlib.pyplot <span class="keyword">as</span> plt</span><br><span class="line"><span class="keyword">from</span> sklearn.datasets <span class="keyword">import</span> make_blobs</span><br><span class="line"></span><br><span class="line"><span class="comment"># 生成聚类数据集</span></span><br><span class="line">X,y = make_blobs(n_samples = <span class="number">500</span>, n_features = <span class="number">2</span>, centers = <span class="number">3</span>, random_state = <span class="number">23</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 绘制数据集的二维平面图</span></span><br><span class="line">fig = plt.figure(<span class="number">0</span>)</span><br><span class="line">plt.grid(<span class="literal">True</span>)</span><br><span class="line">plt.scatter(X[:,<span class="number">0</span>], X[:,<span class="number">1</span>])</span><br><span class="line">plt.show()</span><br></pre></td></tr></table></figure>

<h4 id="2-2-初始化随机质心"><a href="#2-2-初始化随机质心" class="headerlink" title="2.2 初始化随机质心"></a>2.2 初始化随机质心</h4><p>代码为 K-means 聚类初始化三个聚类。它设置一个随机种子并在指定范围内生成随机簇中心，并为每个簇创建一个空的点列表。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 定义要划分的簇的数量</span></span><br><span class="line">k = <span class="number">3</span></span><br><span class="line"></span><br><span class="line"><span class="comment"># 创建空字典来存储簇的信息</span></span><br><span class="line">clusters = &#123;&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 设置随机种子为固定值，使得每次实验的效果是一致的</span></span><br><span class="line">np.random.seed(<span class="number">23</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 按簇数量次数循环</span></span><br><span class="line"><span class="keyword">for</span> idx <span class="keyword">in</span> <span class="built_in">range</span>(k):</span><br><span class="line">    <span class="comment"># 生成在指定区间 (-2, 2) 内的随机向量来作为中心</span></span><br><span class="line">	center = np.random.uniform(low=-<span class="number">2</span>, high=<span class="number">2</span>, size=X.shape[<span class="number">1</span>])</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 创建一个空列表来存储属于该簇的点</span></span><br><span class="line">	points = []</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 将 中心点和点列表 存储在clusters[idx]</span></span><br><span class="line">	clusters[idx] = &#123;</span><br><span class="line">		<span class="string">&#x27;center&#x27;</span> : center,</span><br><span class="line">		<span class="string">&#x27;points&#x27;</span> : []</span><br><span class="line">	&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 打印查看</span></span><br><span class="line">clusters</span><br></pre></td></tr></table></figure>

<h4 id="2-3-绘制中心点"><a href="#2-3-绘制中心点" class="headerlink" title="2.3 绘制中心点"></a>2.3 绘制中心点</h4><p>该图以网格线显示数据点 $(X[:,0], X[:,1])$ 的散点图。它还标记了 <strong>K-means</strong> 聚类生成的初始聚类中心(红色星星)。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 绘制随机生成的簇数据</span></span><br><span class="line">plt.scatter(X[:,<span class="number">0</span>], X[:,<span class="number">1</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示网格</span></span><br><span class="line">plt.grid(<span class="literal">True</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 用红色的星号形状，显示中心点位置</span></span><br><span class="line"><span class="keyword">for</span> i <span class="keyword">in</span> clusters:</span><br><span class="line">    center = clusters[i][<span class="string">&#x27;center&#x27;</span>]</span><br><span class="line">    plt.scatter(center[<span class="number">0</span>],center[<span class="number">1</span>],marker = <span class="string">&#x27;*&#x27;</span>,c = <span class="string">&#x27;red&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示图片</span></span><br><span class="line">plt.show()</span><br></pre></td></tr></table></figure>

<h4 id="2-4-定义欧几里得距离"><a href="#2-4-定义欧几里得距离" class="headerlink" title="2.4 定义欧几里得距离"></a>2.4 定义欧几里得距离</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>欧几里得距离是一种在欧几里得空间中衡量两点之间距离的方法。<br> <span style='display: inline-block; width: 3.6rem;'></span>具体来说，对于空间中的两个点 $P(x_1,y_1,z_1,…)$ 和 $Q(x_2,y_2,z_2,…)$，它们之间的欧几里得距离就是各对应坐标分量差值的平方和的平方根，即：</p>
<p>$$<br>d(P,Q) &#x3D; \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2 + (z_2 - z_1)^2 + \cdots}<br>$$</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>它是一种非常基础且广泛应用的距离概念，在许多领域如数学、物理学、计算机科学等中都有重要作用，常用于聚类分析、模式识别等方面。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 定义欧式距离</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">distance</span>(<span class="params">p1, p2</span>):</span><br><span class="line">	<span class="keyword">return</span> np.sqrt(np.<span class="built_in">sum</span>((p1 - p2) ** <span class="number">2</span>))</span><br></pre></td></tr></table></figure>

<h4 id="2-5-创建分配和更新集群中心的功能"><a href="#2-5-创建分配和更新集群中心的功能" class="headerlink" title="2.5 创建分配和更新集群中心的功能"></a>2.5 创建分配和更新集群中心的功能</h4><p>E 步（Expectation 步）是根据当前的聚类中心，计算每个数据点属于每个聚类的概率。</p>
<p>在 K-Means 中，可以通过计算每个数据点到每个聚类中心的距离来确定概率。距离越近，数据点属于该聚类的概率就越高。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 实施E步</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">assign_clusters</span>(<span class="params">X, clusters</span>):</span><br><span class="line">    <span class="comment"># 获取数据点的个数</span></span><br><span class="line">    dots_num = X.shape[<span class="number">0</span>]</span><br><span class="line"></span><br><span class="line">    <span class="keyword">for</span> idx <span class="keyword">in</span> <span class="built_in">range</span>(dots_num):</span><br><span class="line">        <span class="comment"># 创建一个距离列表</span></span><br><span class="line">        dist = []</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 获取数据点</span></span><br><span class="line">        curr_x = X[idx]</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 按簇数量个数进行循环</span></span><br><span class="line">        <span class="keyword">for</span> i <span class="keyword">in</span> <span class="built_in">range</span>(k):</span><br><span class="line">            <span class="comment"># 计算当前数据点与该簇中心的欧几里得距离</span></span><br><span class="line">            dis = distance(curr_x, clusters[i][<span class="string">&#x27;center&#x27;</span>])</span><br><span class="line"></span><br><span class="line">            <span class="comment"># 保存到距离列表</span></span><br><span class="line">            dist.append(dis)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 找到距离列表中最小值的索引</span></span><br><span class="line">        curr_cluster = np.argmin(dist)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 将当前数据点添加到该簇的点列表中</span></span><br><span class="line">        clusters[curr_cluster][<span class="string">&#x27;points&#x27;</span>].append(curr_x)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 返回簇</span></span><br><span class="line">    <span class="keyword">return</span> clusters</span><br></pre></td></tr></table></figure>

<p>所以，E 步实际上找 一个蓝色的点 与 三个红色星星 对比距离，距离短的，就归属对应的红色星星所有。</p>
<p><img src="/images/%E5%AE%9E%E9%AA%8C%EF%BC%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B9%8BK-Means%E8%81%9A%E7%B1%BB/assets/1715793341382.png" alt="1715793341382"></p>
<p>M 步（Maximization 步）是根据 E 步计算出的概率，重新计算聚类中心。</p>
<p>在 K-Means 中，更新聚类中心的方法是将属于每个聚类的数据点的平均值作为新的聚类中心。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 实施M步</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">update_clusters</span>(<span class="params">X, clusters</span>):</span><br><span class="line">    <span class="comment"># 按簇数量个数进行循环</span></span><br><span class="line">    <span class="keyword">for</span> i <span class="keyword">in</span> <span class="built_in">range</span>(k):</span><br><span class="line">        <span class="comment"># 将当前簇的所有点并转换为数组</span></span><br><span class="line">        points = np.array(clusters[i][<span class="string">&#x27;points&#x27;</span>])</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 如果该簇有点（即点的数量大于 0）</span></span><br><span class="line">        <span class="keyword">if</span> points.shape[<span class="number">0</span>] &gt; <span class="number">0</span>:</span><br><span class="line">            <span class="comment"># 计算这些点在各个维度上的平均值作为新的簇中心</span></span><br><span class="line">            new_center = points.mean(axis =<span class="number">0</span>)</span><br><span class="line"></span><br><span class="line">            <span class="comment"># 并更新簇中心的值</span></span><br><span class="line">            clusters[i][<span class="string">&#x27;center&#x27;</span>] = new_center</span><br><span class="line"></span><br><span class="line">            <span class="comment"># 同时将该簇的点列表清空</span></span><br><span class="line">            clusters[i][<span class="string">&#x27;points&#x27;</span>] = []</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 返回簇</span></span><br><span class="line">    <span class="keyword">return</span> clusters</span><br></pre></td></tr></table></figure>

<p>所以，M 步事实上，平均 E 步所收集的点（将收集的点的 x 坐标累加在再平均，y 坐标累加再平均）得到一个新的中心点坐标。</p>
<h4 id="2-6-创建用于预测数据点集群的函数"><a href="#2-6-创建用于预测数据点集群的函数" class="headerlink" title="2.6 创建用于预测数据点集群的函数"></a>2.6 创建用于预测数据点集群的函数</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">def</span> <span class="title function_">pred_cluster</span>(<span class="params">X, clusters</span>):</span><br><span class="line">    <span class="comment"># pred列表 存储预测结果</span></span><br><span class="line">    pred = []</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 获取数据点的个数</span></span><br><span class="line">    dots_num = X.shape[<span class="number">0</span>]</span><br><span class="line">    <span class="keyword">for</span> i <span class="keyword">in</span> <span class="built_in">range</span>(dots_num):</span><br><span class="line">        <span class="comment"># 距离列表</span></span><br><span class="line">        dist = []</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 按簇数量循环</span></span><br><span class="line">        <span class="keyword">for</span> j <span class="keyword">in</span> <span class="built_in">range</span>(k):</span><br><span class="line">            <span class="comment"># 计算要 推理的数据点 与 每个簇中心点的距离</span></span><br><span class="line">            d = distance(X[i], clusters[j][<span class="string">&#x27;center&#x27;</span>])</span><br><span class="line">            <span class="comment"># 将距离收集起来</span></span><br><span class="line">            dist.append(d)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 判断一下 推理的数据点 与 三个中心点 最近的结果，并且作为推理结果。</span></span><br><span class="line">        pred.append(np.argmin(dist))</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 返回推理结果</span></span><br><span class="line">    <span class="keyword">return</span> pred</span><br></pre></td></tr></table></figure>

<h4 id="2-7-赋值、更新中心点位置、推理"><a href="#2-7-赋值、更新中心点位置、推理" class="headerlink" title="2.7 赋值、更新中心点位置、推理"></a>2.7 赋值、更新中心点位置、推理</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># E步：将蓝点分配给红星</span></span><br><span class="line">clusters = assign_clusters(X, clusters)</span><br><span class="line"></span><br><span class="line"><span class="comment"># M步：不断更新红星在它所属的蓝星的位置</span></span><br><span class="line">clusters = update_clusters(X, clusters)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 推理</span></span><br><span class="line">pred = pred_cluster(X, clusters)</span><br></pre></td></tr></table></figure>

<h4 id="2-8-显示推理结果"><a href="#2-8-显示推理结果" class="headerlink" title="2.8 显示推理结果"></a>2.8 显示推理结果</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 将原来的蓝点，按照推理的分类显示不同颜色</span></span><br><span class="line">plt.scatter(X[:,<span class="number">0</span>], X[:,<span class="number">1</span>], c = pred)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示簇</span></span><br><span class="line"><span class="keyword">for</span> i <span class="keyword">in</span> clusters:</span><br><span class="line">    <span class="comment"># 质心</span></span><br><span class="line">    center = clusters[i][<span class="string">&#x27;center&#x27;</span>]</span><br><span class="line">    <span class="comment"># 显示中心点</span></span><br><span class="line">    plt.scatter(center[<span class="number">0</span>], center[<span class="number">1</span>], marker = <span class="string">&#x27;^&#x27;</span>, c = <span class="string">&#x27;red&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示图片</span></span><br><span class="line">plt.show()</span><br></pre></td></tr></table></figure>

<h3 id="第三节-K-Means-聚类实验（sklearn-实现）"><a href="#第三节-K-Means-聚类实验（sklearn-实现）" class="headerlink" title="第三节 K-Means 聚类实验（sklearn 实现）"></a>第三节 K-Means 聚类实验（sklearn 实现）</h3><h4 id="3-1-抑制警告"><a href="#3-1-抑制警告" class="headerlink" title="3.1 抑制警告"></a>3.1 抑制警告</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>这段代码的主要作用是抑制（屏蔽）警告信息。<br> <span style='display: inline-block; width: 3.6rem;'></span>通过自定义一个名为 <code>warn</code> 的函数，它什么也不做（只是直接通过），然后将 <code>warnings</code> 模块中的 <code>warn</code> 方法替换为这个自定义的函数，这样当有警告产生时，就不会实际输出或显示这些警告信息了。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 抑制警告</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">warn</span>(<span class="params">*args, **kwargs</span>):</span><br><span class="line">    <span class="keyword">pass</span></span><br><span class="line"><span class="keyword">import</span> warnings</span><br><span class="line">warnings.warn = warn</span><br></pre></td></tr></table></figure>

<h4 id="3-2-数据初始化"><a href="#3-2-数据初始化" class="headerlink" title="3.2 数据初始化"></a>3.2 数据初始化</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> random</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"><span class="keyword">import</span> matplotlib.pyplot <span class="keyword">as</span> plt</span><br><span class="line"><span class="keyword">from</span> sklearn.cluster <span class="keyword">import</span> KMeans</span><br><span class="line"><span class="keyword">from</span> sklearn.datasets <span class="keyword">import</span> make_blobs</span><br><span class="line"></span><br><span class="line"><span class="comment"># 图像嵌入显示</span></span><br><span class="line">%matplotlib inline</span><br><span class="line"></span><br><span class="line"><span class="comment"># 设置随机数种子</span></span><br><span class="line">np.random.seed(<span class="number">0</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 中心点</span></span><br><span class="line">centers = [</span><br><span class="line">    [<span class="number">4</span>,<span class="number">4</span>],</span><br><span class="line">    [-<span class="number">2</span>, -<span class="number">1</span>],</span><br><span class="line">    [<span class="number">2</span>, -<span class="number">3</span>],</span><br><span class="line">    [<span class="number">1</span>, <span class="number">1</span>]</span><br><span class="line">]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 生成中心点左边 X 和 分类y</span></span><br><span class="line">X, y = make_blobs(n_samples=<span class="number">5000</span>, centers=centers, cluster_std=<span class="number">0.9</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示随机生成的聚类数据</span></span><br><span class="line">plt.scatter(X[:, <span class="number">0</span>], X[:, <span class="number">1</span>], marker=<span class="string">&#x27;.&#x27;</span>)</span><br></pre></td></tr></table></figure>

<blockquote>
<p>%matplotlib inline 主要的作用：在使用 Jupyter Notebook 等交互式环境时，它使得 matplotlib 绘制的图形可以直接嵌入在当前的 Notebook 页面内显示，而不是弹出单独的窗口来展示图形。这样方便在 Notebook 中直接查看和交互图形，有助于进行数据分析和可视化的过程。</p>
</blockquote>
<h4 id="3-3-设置-K-Means-函数"><a href="#3-3-设置-K-Means-函数" class="headerlink" title="3.3 设置 K-Means 函数"></a>3.3 设置 K-Means 函数</h4><p>首先，我们进行 <code>KMeans</code> 设置。现在我们有了随机数据。</p>
<p><code>KMeans</code> 类有很多可使用的参数，这里我们使用以下三个：</p>
<ul>
<li><code>init</code>（初始化质心的方法）：值为 <code>&quot;k-means++&quot;</code>，表示以一种智能的方式选择初始聚类中心来加速收敛。</li>
<li><code>n_clusters</code>（要形成的簇的数量以及要生成的质心数量）：值为 4，因为我们有 4 个中心。</li>
<li><code>n_init</code> 定义了要运行算法的次数，默认情况下，<code>n_init</code> 设置为 10，这意味着算法将在 10 个不同的随机初始质心上运行，并返回最佳结果。</li>
</ul>
<p>然后，使用这些参数初始化 <code>KMeans</code>，将输出参数命名为 <code>k_means</code>。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 设置参数</span></span><br><span class="line">k_means = KMeans(init=<span class="string">&quot;k-means++&quot;</span>, n_clusters=<span class="number">4</span>, n_init=<span class="number">12</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 训练</span></span><br><span class="line">k_means.fit(X)</span><br></pre></td></tr></table></figure>

<h4 id="3-4-显示图像"><a href="#3-4-显示图像" class="headerlink" title="3.4 显示图像"></a>3.4 显示图像</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 创建一个图形对象，并设置其大小为宽6 高4</span></span><br><span class="line">fig = plt.figure(figsize=(<span class="number">6</span>, <span class="number">4</span>))</span><br><span class="line"></span><br><span class="line"><span class="comment"># 使用 plt.cm.Spectral 颜色映射来获取一系列颜色。</span></span><br><span class="line"><span class="comment"># 通过 np.linspace(0, 1, n_clusters)) 来生成一个在 0 到 1 之间均匀分布的序列。</span></span><br><span class="line">colors = plt.cm.Spectral(np.linspace(<span class="number">0</span>, <span class="number">1</span>, n_clusters))</span><br><span class="line"></span><br><span class="line"><span class="comment"># 在图形中添加一个子图</span></span><br><span class="line">ax = fig.add_subplot(<span class="number">1</span>, <span class="number">1</span>, <span class="number">1</span>)</span><br><span class="line"></span><br><span class="line">plt.xlim(-<span class="number">10</span>, <span class="number">10</span>)</span><br><span class="line">plt.ylim(-<span class="number">10</span>, <span class="number">10</span>)</span><br><span class="line"></span><br><span class="line"><span class="keyword">for</span> k, col <span class="keyword">in</span> <span class="built_in">zip</span>(<span class="built_in">range</span>(n_clusters), colors):</span><br><span class="line">    <span class="comment"># 筛选出对应分类的点，</span></span><br><span class="line">    my_members = (k_means3.labels_ == k)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 绘制属于该簇的成员点，点的颜色由当前颜色col确定，标记为小点。</span></span><br><span class="line">    ax.plot(X[my_members, <span class="number">0</span>], X[my_members, <span class="number">1</span>], <span class="string">&#x27;w&#x27;</span>, markerfacecolor=col, marker=<span class="string">&#x27;.&#x27;</span>)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 获取当前簇的中心坐标</span></span><br><span class="line">    cluster_center = k_means3.cluster_centers_[k]</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 绘制簇中心，标记为圆形，颜色也是当前颜色，边缘为黑色，大小为10。</span></span><br><span class="line">    ax.plot(cluster_center[<span class="number">0</span>], cluster_center[<span class="number">1</span>], <span class="string">&#x27;o&#x27;</span>, markerfacecolor=col,  markeredgecolor=<span class="string">&#x27;k&#x27;</span>, markersize=<span class="number">10</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示图像</span></span><br><span class="line">plt.show()</span><br></pre></td></tr></table></figure>

<h4 id="3-5-完整代码"><a href="#3-5-完整代码" class="headerlink" title="3.5 完整代码"></a>3.5 完整代码</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"><span class="keyword">import</span> matplotlib.pyplot <span class="keyword">as</span> plt</span><br><span class="line"><span class="keyword">from</span> sklearn.cluster <span class="keyword">import</span> KMeans</span><br><span class="line"><span class="keyword">from</span> sklearn.datasets <span class="keyword">import</span> make_blobs</span><br><span class="line"></span><br><span class="line">%matplotlib inline</span><br><span class="line"></span><br><span class="line">np.random.seed(<span class="number">0</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 中心点</span></span><br><span class="line">centers = [</span><br><span class="line">    [<span class="number">4</span>,<span class="number">4</span>],</span><br><span class="line">    [-<span class="number">2</span>, -<span class="number">1</span>],</span><br><span class="line">    [<span class="number">2</span>, -<span class="number">3</span>],</span><br><span class="line">    [<span class="number">1</span>, <span class="number">1</span>]</span><br><span class="line">]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 生成中心点左边 X 和 分类y</span></span><br><span class="line">X, y = make_blobs(n_samples=<span class="number">5000</span>, centers=centers, cluster_std=<span class="number">0.5</span>)</span><br><span class="line"></span><br><span class="line"></span><br><span class="line"><span class="comment"># 实例化KMeans让其训练，初始化4个质点，让其训练到中央位置</span></span><br><span class="line">n_clusters = <span class="number">4</span></span><br><span class="line">k_means3 = KMeans(init=<span class="string">&quot;k-means++&quot;</span>, n_clusters=n_clusters, n_init=<span class="number">12</span>)</span><br><span class="line">k_means3.fit(X)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 创建一个图形对象，并设置其大小为宽6 高4</span></span><br><span class="line">fig = plt.figure(figsize=(<span class="number">6</span>, <span class="number">4</span>))</span><br><span class="line"></span><br><span class="line"><span class="comment"># 使用 plt.cm.Spectral 颜色映射来获取一系列颜色。</span></span><br><span class="line"><span class="comment"># 通过 np.linspace(0, 1, n_clusters)) 来生成一个在 0 到 1 之间均匀分布的序列。</span></span><br><span class="line">colors = plt.cm.Spectral(np.linspace(<span class="number">0</span>, <span class="number">1</span>, n_clusters))</span><br><span class="line"></span><br><span class="line"><span class="comment"># 在图形中添加一个子图</span></span><br><span class="line">ax = fig.add_subplot(<span class="number">1</span>, <span class="number">1</span>, <span class="number">1</span>)</span><br><span class="line"></span><br><span class="line">plt.xlim(-<span class="number">10</span>, <span class="number">10</span>)</span><br><span class="line">plt.ylim(-<span class="number">10</span>, <span class="number">10</span>)</span><br><span class="line"></span><br><span class="line"><span class="keyword">for</span> k, col <span class="keyword">in</span> <span class="built_in">zip</span>(<span class="built_in">range</span>(n_clusters), colors):</span><br><span class="line">    <span class="comment"># 筛选出对应分类的点，</span></span><br><span class="line">    my_members = (k_means3.labels_ == k)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 绘制属于该簇的成员点，点的颜色由当前颜色col确定，标记为小点。</span></span><br><span class="line">    ax.plot(X[my_members, <span class="number">0</span>], X[my_members, <span class="number">1</span>], <span class="string">&#x27;w&#x27;</span>, markerfacecolor=col, marker=<span class="string">&#x27;.&#x27;</span>)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 获取当前簇的中心坐标</span></span><br><span class="line">    cluster_center = k_means3.cluster_centers_[k]</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 绘制簇中心，标记为圆形，颜色也是当前颜色，边缘为黑色，大小为10。</span></span><br><span class="line">    ax.plot(cluster_center[<span class="number">0</span>], cluster_center[<span class="number">1</span>], <span class="string">&#x27;o&#x27;</span>, markerfacecolor=col,  markeredgecolor=<span class="string">&#x27;k&#x27;</span>, markersize=<span class="number">10</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示图像</span></span><br><span class="line">plt.show()</span><br></pre></td></tr></table></figure>

<p><img src="/images/%E5%AE%9E%E9%AA%8C%EF%BC%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B9%8BK-Means%E8%81%9A%E7%B1%BB/assets/1715797052317.png" alt="1715797052317"></p>
<h3 id="第四节-K-Means-聚类鸢尾花分类实验（sklearn-实现）"><a href="#第四节-K-Means-聚类鸢尾花分类实验（sklearn-实现）" class="headerlink" title="第四节 K-Means 聚类鸢尾花分类实验（sklearn 实现）"></a>第四节 K-Means 聚类鸢尾花分类实验（sklearn 实现）</h3><p><img src="/images/%E5%AE%9E%E9%AA%8C%EF%BC%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B9%8BK-Means%E8%81%9A%E7%B1%BB/assets/d08857358d30c0f3e73506b2d6fb1433.jpeg@s_0,w_2000" alt="img"></p>
<h4 id="4-1-加载鸢尾花数据"><a href="#4-1-加载鸢尾花数据" class="headerlink" title="4.1 加载鸢尾花数据"></a>4.1 加载鸢尾花数据</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"><span class="keyword">import</span> seaborn <span class="keyword">as</span> sns</span><br><span class="line"><span class="keyword">import</span> matplotlib.pyplot <span class="keyword">as</span> plt</span><br><span class="line"><span class="keyword">import</span> matplotlib.cm <span class="keyword">as</span> cm</span><br><span class="line"><span class="keyword">from</span> sklearn.datasets <span class="keyword">import</span> load_iris</span><br><span class="line"><span class="keyword">from</span> sklearn.cluster <span class="keyword">import</span> KMeans</span><br><span class="line"></span><br><span class="line">X, y = load_iris(return_X_y=<span class="literal">True</span>)</span><br></pre></td></tr></table></figure>

<h4 id="4-2-找到最佳簇数"><a href="#4-2-找到最佳簇数" class="headerlink" title="4.2 找到最佳簇数"></a>4.2 找到最佳簇数</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 找到最佳簇数</span></span><br><span class="line">sse = [] <span class="comment"># 平方和误差</span></span><br><span class="line"><span class="keyword">for</span> k <span class="keyword">in</span> <span class="built_in">range</span>(<span class="number">1</span>,<span class="number">11</span>):</span><br><span class="line">	km = KMeans(n_clusters=k, random_state=<span class="number">2</span>)</span><br><span class="line">	km.fit(X)</span><br><span class="line">	sse.append(km.inertia_)</span><br></pre></td></tr></table></figure>

<h4 id="4-3-显示簇数与误差的关系"><a href="#4-3-显示簇数与误差的关系" class="headerlink" title="4.3 显示簇数与误差的关系"></a>4.3 显示簇数与误差的关系</h4><p>“Sum Squared Error”的意思是“误差平方和”或“平方误差总和”。<br>对于一组实际值 $y_i$ 和预测值 $\hat{y}_i$（$i&#x3D;1,2,\cdots,n$），误差平方和的公式为：</p>
<p>$$<br>SSE &#x3D; \sum_{i&#x3D;1}^{n}(y_i - \hat{y}_i)^2<br>$$</p>
<p>它常被用于评估模型预测值与实际值之间的偏差程度。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line">sns.set_style(<span class="string">&quot;whitegrid&quot;</span>)</span><br><span class="line">g=sns.lineplot(x=<span class="built_in">range</span>(<span class="number">1</span>, <span class="number">11</span>), y=sse)</span><br><span class="line"></span><br><span class="line">g.<span class="built_in">set</span>(xlabel =<span class="string">&quot;Number of cluster (k)&quot;</span>,</span><br><span class="line">	ylabel = <span class="string">&quot;Sum Squared Error&quot;</span>,</span><br><span class="line">	title =<span class="string">&#x27;Elbow Method&#x27;</span>)</span><br><span class="line"></span><br><span class="line">plt.show()</span><br></pre></td></tr></table></figure>

<p><img src="/images/%E5%AE%9E%E9%AA%8C%EF%BC%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B9%8BK-Means%E8%81%9A%E7%B1%BB/assets/download-(29).png" alt="img"></p>
<p>从上图中，我们可以观察到，在 k&#x3D;2 和 k&#x3D;3 时，肘状的情况。我们考虑 K&#x3D;3。</p>
<h4 id="4-4-构建-Kmeans-聚类模型"><a href="#4-4-构建-Kmeans-聚类模型" class="headerlink" title="4.4 构建 Kmeans 聚类模型"></a>4.4 构建 Kmeans 聚类模型</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">kmeans = KMeans(n_clusters=<span class="number">3</span>, random_state=<span class="number">2</span>)</span><br><span class="line">kmeans.fit(X)</span><br></pre></td></tr></table></figure>

<h4 id="4-5-找到簇中心"><a href="#4-5-找到簇中心" class="headerlink" title="4.5 找到簇中心"></a>4.5 找到簇中心</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">kmeans.cluster_centers_</span><br></pre></td></tr></table></figure>

<h4 id="4-6-推理"><a href="#4-6-推理" class="headerlink" title="4.6 推理"></a>4.6 推理</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">pred = kmeans.fit_predict(X)</span><br><span class="line">pred</span><br></pre></td></tr></table></figure>

<h4 id="4-7-输出图像"><a href="#4-7-输出图像" class="headerlink" title="4.7 输出图像"></a>4.7 输出图像</h4><p><img src="/images/%E5%AE%9E%E9%AA%8C%EF%BC%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B9%8BK-Means%E8%81%9A%E7%B1%BB/assets/f22c3c5b-a365-4d44-a709-71d86ac06cdc3.gif" alt="img"></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 创建一个图形，设定其大小为宽 12 高 5</span></span><br><span class="line">plt.figure(figsize=(<span class="number">12</span>,<span class="number">5</span>))</span><br><span class="line"></span><br><span class="line"><span class="comment"># 设置一行两列子图中的第一个子图。</span></span><br><span class="line">plt.subplot(<span class="number">1</span>, <span class="number">2</span>, <span class="number">1</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 根据数据 X 的第一列和第二列绘制散点图，用 pred 进行颜色映射，使用 cm.Accent 颜色映射表。</span></span><br><span class="line">plt.scatter(X[:,<span class="number">0</span>], X[:,<span class="number">1</span>],c=pred, cmap=cm.Accent)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示网格</span></span><br><span class="line">plt.grid(<span class="literal">True</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 遍历 kmeans.cluster_centers_ 中的每个簇中心</span></span><br><span class="line"><span class="keyword">for</span> center <span class="keyword">in</span> kmeans.cluster_centers_:</span><br><span class="line">    <span class="comment"># 取其前两维数据</span></span><br><span class="line">	center = center[:<span class="number">2</span>]</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 用红色三角标记绘制这些簇中心</span></span><br><span class="line">	plt.scatter(center[<span class="number">0</span>],center[<span class="number">1</span>],marker = <span class="string">&#x27;^&#x27;</span>,c = <span class="string">&#x27;red&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 设置第一个子图的 x 轴标签为“花瓣长度（厘米）”，y 轴标签为“花瓣宽度（厘米）”。</span></span><br><span class="line">plt.xlabel(<span class="string">&quot;petal length (cm)&quot;</span>)</span><br><span class="line">plt.ylabel(<span class="string">&quot;petal width (cm)&quot;</span>)</span><br><span class="line"></span><br><span class="line"></span><br><span class="line"><span class="comment"># 设置一行两列子图中的第二个子图。</span></span><br><span class="line">plt.subplot(<span class="number">1</span>, <span class="number">2</span>, <span class="number">2</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 根据数据 X 的第三列和第四列绘制散点图，用 pred 进行颜色映射，使用 cm.Accent 颜色映射表。</span></span><br><span class="line">plt.scatter(X[:,<span class="number">2</span>], X[:,<span class="number">3</span>], c=pred, cmap=cm.Accent)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 显示网格</span></span><br><span class="line">plt.grid(<span class="literal">True</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 遍历 kmeans.cluster_centers_ 中的每个簇中心</span></span><br><span class="line"><span class="keyword">for</span> center <span class="keyword">in</span> kmeans.cluster_centers_:</span><br><span class="line">    <span class="comment"># 取其前两维数据</span></span><br><span class="line">	center = center[<span class="number">2</span>:<span class="number">4</span>]</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 用红色三角标记绘制这些簇中心</span></span><br><span class="line">	plt.scatter(center[<span class="number">0</span>],center[<span class="number">1</span>],marker = <span class="string">&#x27;^&#x27;</span>,c = <span class="string">&#x27;red&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 花的最外一轮叶状构造称为花萼。</span></span><br><span class="line"><span class="comment"># 设置第二个子图的 x 轴标签为“花萼长度（厘米）”，y 轴标签为“花萼宽度（厘米）”。</span></span><br><span class="line">plt.xlabel(<span class="string">&quot;sepal length (cm)&quot;</span>)</span><br><span class="line">plt.ylabel(<span class="string">&quot;sepal width (cm)&quot;</span>)</span><br><span class="line">plt.show()</span><br></pre></td></tr></table></figure>

<p><img src="/images/%E5%AE%9E%E9%AA%8C%EF%BC%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B9%8BK-Means%E8%81%9A%E7%B1%BB/assets/1715798449807.png" alt="1715798449807"></p>

                                      </div>
                                      
                                        <div class="prev-or-next">
                                          <div class="post-foot-next">
                                            
                                              <a href="/2024/04/30/%E5%AE%9E%E9%AA%8C%EF%BC%9ABlazeface%E4%BA%BA%E8%84%B8%E6%A3%80%E6%B5%8B/" target="_self">
                                                <i class="iconfont icon-chevronleft"></i>
                                                <span>
                                                  上一页
                                                </span>
                                              </a>
                                              
                                          </div>
                                          <div class="post-attach">
                                            <span class="post-pubtime">
                                              <i class="iconfont icon-updatetime mr-10"
                                                title="更新时间"></i>
                                              2024-10-22 14:52:45
                                            </span>
                                            
                                              <span class="post-tags">
                                                <i class="iconfont icon-tags mr-10" title="标签"></i>
                                                
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                      #人工智能
                                                    </a>
                                                  </span>
                                                  
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/" title="机器学习">
                                                      #机器学习
                                                    </a>
                                                  </span>
                                                  
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/" title="无监督学习">
                                                      #无监督学习
                                                    </a>
                                                  </span>
                                                  
                                              </span>
                                              
                                          </div>
                                          <div class="post-foot-prev">
                                            
                                              <a href="/2024/05/23/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%BC%94%E8%BF%9B%E4%B8%8E%E6%8A%80%E6%9C%AF%E5%89%96%E6%9E%90/" target="_self">
                                                <span>
                                                  下一页
                                                </span>
                                                <i class="iconfont icon-chevronright"></i>
                                              </a>
                                              
                                          </div>
                                        </div>
                                        
                                    </div>
                                    
  <div id="btn-catalog" class="btn-catalog">
    <i class="iconfont icon-catalog"></i>
  </div>
  <div class="post-catalog hidden" id="catalog">
    <div class="title">目录</div>
    <div class="catalog-content">
      
        <ol class="toc"><li class="toc-item toc-level-1"><a class="toc-link" href="#%E5%AE%9E%E9%AA%8C%EF%BC%9A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B9%8B-K-Means-%E8%81%9A%E7%B1%BB"><span class="toc-text">实验：机器学习之 K-Means 聚类</span></a><ol class="toc-child"><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E7%AB%A0-K-Means-%E4%BB%8B%E7%BB%8D"><span class="toc-text">第一章 K-Means 介绍</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E8%8A%82-%E4%BB%80%E4%B9%88%E6%98%AF-K-%E5%9D%87%E5%80%BC%E8%81%9A%E7%B1%BB"><span class="toc-text">第一节 什么是 K 均值聚类</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E8%8A%82-k-%E5%9D%87%E5%80%BC%E8%81%9A%E7%B1%BB%E7%9A%84%E7%9B%AE%E6%A0%87%E6%98%AF%E4%BB%80%E4%B9%88"><span class="toc-text">第二节 k 均值聚类的目标是什么</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%89%E8%8A%82-k-%E5%9D%87%E5%80%BC%E8%81%9A%E7%B1%BB%E7%9A%84%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86"><span class="toc-text">第三节 k 均值聚类的工作原理</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E7%AB%A0-%E5%AE%9E%E9%AA%8C%E9%83%A8%E5%88%86"><span class="toc-text">第二章 实验部分</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E8%8A%82-%E5%AE%89%E8%A3%85%E7%8E%AF%E5%A2%83"><span class="toc-text">第一节 安装环境</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E8%8A%82-K-Means-%E8%81%9A%E7%B1%BB%E5%AE%9E%E9%AA%8C%EF%BC%88%E7%BA%AF%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0%EF%BC%89"><span class="toc-text">第二节 K-Means 聚类实验（纯代码实现）</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-1-%E6%95%B0%E6%8D%AE%E5%88%9D%E5%A7%8B%E5%8C%96"><span class="toc-text">2.1 数据初始化</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-2-%E5%88%9D%E5%A7%8B%E5%8C%96%E9%9A%8F%E6%9C%BA%E8%B4%A8%E5%BF%83"><span class="toc-text">2.2 初始化随机质心</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-3-%E7%BB%98%E5%88%B6%E4%B8%AD%E5%BF%83%E7%82%B9"><span class="toc-text">2.3 绘制中心点</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-4-%E5%AE%9A%E4%B9%89%E6%AC%A7%E5%87%A0%E9%87%8C%E5%BE%97%E8%B7%9D%E7%A6%BB"><span class="toc-text">2.4 定义欧几里得距离</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-5-%E5%88%9B%E5%BB%BA%E5%88%86%E9%85%8D%E5%92%8C%E6%9B%B4%E6%96%B0%E9%9B%86%E7%BE%A4%E4%B8%AD%E5%BF%83%E7%9A%84%E5%8A%9F%E8%83%BD"><span class="toc-text">2.5 创建分配和更新集群中心的功能</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-6-%E5%88%9B%E5%BB%BA%E7%94%A8%E4%BA%8E%E9%A2%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E7%82%B9%E9%9B%86%E7%BE%A4%E7%9A%84%E5%87%BD%E6%95%B0"><span class="toc-text">2.6 创建用于预测数据点集群的函数</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-7-%E8%B5%8B%E5%80%BC%E3%80%81%E6%9B%B4%E6%96%B0%E4%B8%AD%E5%BF%83%E7%82%B9%E4%BD%8D%E7%BD%AE%E3%80%81%E6%8E%A8%E7%90%86"><span class="toc-text">2.7 赋值、更新中心点位置、推理</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-8-%E6%98%BE%E7%A4%BA%E6%8E%A8%E7%90%86%E7%BB%93%E6%9E%9C"><span class="toc-text">2.8 显示推理结果</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%89%E8%8A%82-K-Means-%E8%81%9A%E7%B1%BB%E5%AE%9E%E9%AA%8C%EF%BC%88sklearn-%E5%AE%9E%E7%8E%B0%EF%BC%89"><span class="toc-text">第三节 K-Means 聚类实验（sklearn 实现）</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#3-1-%E6%8A%91%E5%88%B6%E8%AD%A6%E5%91%8A"><span class="toc-text">3.1 抑制警告</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-2-%E6%95%B0%E6%8D%AE%E5%88%9D%E5%A7%8B%E5%8C%96"><span class="toc-text">3.2 数据初始化</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-3-%E8%AE%BE%E7%BD%AE-K-Means-%E5%87%BD%E6%95%B0"><span class="toc-text">3.3 设置 K-Means 函数</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-4-%E6%98%BE%E7%A4%BA%E5%9B%BE%E5%83%8F"><span class="toc-text">3.4 显示图像</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-5-%E5%AE%8C%E6%95%B4%E4%BB%A3%E7%A0%81"><span class="toc-text">3.5 完整代码</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%9B%9B%E8%8A%82-K-Means-%E8%81%9A%E7%B1%BB%E9%B8%A2%E5%B0%BE%E8%8A%B1%E5%88%86%E7%B1%BB%E5%AE%9E%E9%AA%8C%EF%BC%88sklearn-%E5%AE%9E%E7%8E%B0%EF%BC%89"><span class="toc-text">第四节 K-Means 聚类鸢尾花分类实验（sklearn 实现）</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#4-1-%E5%8A%A0%E8%BD%BD%E9%B8%A2%E5%B0%BE%E8%8A%B1%E6%95%B0%E6%8D%AE"><span class="toc-text">4.1 加载鸢尾花数据</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-2-%E6%89%BE%E5%88%B0%E6%9C%80%E4%BD%B3%E7%B0%87%E6%95%B0"><span class="toc-text">4.2 找到最佳簇数</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-3-%E6%98%BE%E7%A4%BA%E7%B0%87%E6%95%B0%E4%B8%8E%E8%AF%AF%E5%B7%AE%E7%9A%84%E5%85%B3%E7%B3%BB"><span class="toc-text">4.3 显示簇数与误差的关系</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-4-%E6%9E%84%E5%BB%BA-Kmeans-%E8%81%9A%E7%B1%BB%E6%A8%A1%E5%9E%8B"><span class="toc-text">4.4 构建 Kmeans 聚类模型</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-5-%E6%89%BE%E5%88%B0%E7%B0%87%E4%B8%AD%E5%BF%83"><span class="toc-text">4.5 找到簇中心</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-6-%E6%8E%A8%E7%90%86"><span class="toc-text">4.6 推理</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-7-%E8%BE%93%E5%87%BA%E5%9B%BE%E5%83%8F"><span class="toc-text">4.7 输出图像</span></a></li></ol></li></ol></li></ol></li></ol>
      
    </div>
  </div>

  
<script src="/js/catalog.js"></script>


                                        <div class="comments-container">
                                          

                                        </div>
                                        
                                  </div>
                                  

          <div id="blockchain"></div>
          <style>
            #hq {
              margin-top: 10px;
              margin-bottom: 10px;
              font-size: 18px;
            }

            #blockchain {
              margin: 0 auto;
              display: none;
              width: 590px;
              flex-direction: column;
              align-items: center;
              background: #ffffffa3;
              border-radius: 5px;
              padding: 5px 10px 10px 10px;
              margin-top: 20px;
            }

            #blockchain .htitle {
              display: flex;
              flex-direction: row;
              align-items: center;
              cursor: pointer;
            }

            #blockchain .hsubtitle {
              color: #555;
              transform: scale(0.8); /* 然后缩小至80% */
              transform-origin: 5px 12px; /* 可能需要指定缩放原点以确保准确缩放 */
            }

            #blockchain .himg {
              width: 25px;
              height: 25px;
              margin-right: 5px;
            }

            #blockchain tr, th {
              font-size: 1.7rem;
              font-weight: normal;
            }

            #blockchain tr, td {
              font-size: 1.6rem;
            }

            #blockchain tr, th, td {
              border: 1px solid #c7c7c7;
              padding: 3px 7px;
            }

            #blockchain table {
              border-collapse: collapse;
              width: 100%;
              font-size: 16px;
              font-family: arial;
            }

            @media (max-width: 800px) {
              #blockchain {
                margin: 0 auto;
                margin-top: 20px;
                display: none;
                /* justify-content: flex-start; */
                padding: 20px 10px;
                width: calc(100% - 40px);
                flex-direction: column;
                align-items: center;
              }
            }
          </style>

          
<script src="/js/axios.min.js"></script>

          <script>
            let ctoname = [
              "BTC",
              "ETH",
              "USDT",
              "BNB",
              "SOL",
              "USDC",
              "XRP",
              "DOGE",
              "ADA",
              "SHIB",
              "AVAX",
              "TRX",
              "DOT",
              "WBTC",
              "BCH",
              "LINK",
              "NEAR",
              "MATIC",
              "ICP",
              "LTC",
              "DAI",
              "UNI",
              "HBAR",
              "ETC",
              "APT",
              "FDUSD",
              "RNDR",
              "ATOM",
              "PEPE",
              "FIL"
            ];

            let ctoname2 = [
                "比特币",
                "以太坊",
                "泰达币",
                "币安币",
                "索拉纳",
                "美元硬币",
                "瑞波币",
                "狗狗币",
                "卡尔达诺",
                "柴犬币",
                "雪崩协议",
                "波场",
                "波卡",
                "包装比特币",
                "比特币现金",
                "链环",
                "近协议",
                "多边形",
                "互联网计算机",
                "莱特币",
                "戴",
                "Uniswap",
                "以太坊经典",
                "赫德拉哈希图",
                "阿普托斯",
                "第一数字美元",
                "渲染令牌",
                "佩佩",
                "宇宙",
                "文件币"
            ];

            let ctoname3 = [
                "Bitcoin",
                "Ethereum",
                "TetherUS",
                "BNB",
                "Solana",
                "USD Coin",
                "Ripple",
                "Dogecoin",
                "Cardano",
                "SHIBA INU",
                "Avalanche",
                "TRON",
                "Polkadot",
                "Wrapped Bitcoin",
                "Bitcoin Cash",
                "ChainLink",
                "NEAR Protocol",
                "Polygon",
                "Internet Computer",
                "Litecoin",
                "Dai",
                "Uniswap",
                "Ethereum Classic",
                "Hedera Hashgraph",
                "Aptos",
                "First Digital USD",
                "Render Token",
                "Pepe",
                "Cosmos",
                "Filecoin"
            ]

            let ctoname4 = [
                "比特币是一种去中心化的数字货币，它允许点对点交易，创建于2009年。",
                "以太坊是一个开源的区块链平台，支持智能合约和去中心化应用，推出于2015年。",
                "泰达币是一种与美元挂钩的稳定币，旨在保持1:1的美元价值。",
                "币安币是币安交易所发行的加密货币，用于支付交易费用和其他服务。",
                "索拉纳是一个高性能区块链平台，旨在提供快速、安全和可扩展的去中心化应用。",
                "USD Coin是一种与美元挂钩的稳定币，由Circle和Coinbase合作推出。",
                "瑞波币是一种由Ripple公司创建的加密货币，旨在促进银行间快速、低成本的跨境支付。",
                "狗狗币是一种基于模因的加密货币，起初作为玩笑创建，但后来因社区支持而流行。",
                "卡尔达诺是一个第三代区块链平台，致力于提供可持续和可扩展的去中心化应用。",
                "柴犬币是一种模仿狗狗币的加密货币，以其社区驱动的发展模式和广泛的在线社区而闻名。",
                "雪崩币是Avalanche区块链平台的原生代币，支持去中心化应用和金融资产。",
                "波场币是波场区块链的原生代币，旨在为数字娱乐产业提供去中心化的内容分享平台。",
                "波卡币是一个多链区块链平台，旨在实现不同区块链之间的互操作性。",
                "包装比特币是比特币在以太坊区块链上的代币化版本，使其能够用于DeFi应用。",
                "比特币现金是比特币的一个分叉，旨在通过增加区块大小来实现更快的交易速度。",
                "Chainlink是一个去中心化的预言机网络，旨在连接智能合约和现实世界的数据。",
                "近邻协议是一个高性能区块链，致力于提供去中心化应用的理想开发平台。",
                "Polygon是一个以太坊扩展解决方案，旨在提供快速、低成本的交易。",
                "Internet Computer是一个去中心化的区块链网络，旨在扩展互联网功能。",
                "莱特币是一种基于比特币协议的加密货币，具有更快的区块生成时间。",
                "Dai是一种由MakerDAO创建的去中心化稳定币，与美元挂钩。",
                "Uniswap是一个基于以太坊的去中心化交易所，允许用户进行代币交换。",
                "Hedera是一个去中心化的公有账本，使用哈希图共识算法。",
                "以太经典是以太坊的一个分叉，保持了原始以太坊链的历史记录。",
                "Aptos是一个新兴的区块链平台，旨在提供高效、安全的去中心化应用。",
                "First Digital USD是一种与美元挂钩的稳定币，旨在提供数字美元的替代方案。",
                "Render Token是一个分布式的GPU渲染网络，旨在提供高效的渲染服务。",
                "宇宙链是一个区块链网络，旨在实现不同区块链之间的互操作性。",
                "Pepe是一种模仿柴犬币的加密货币，以其社区驱动的发展模式而著名。",
                "文件币是一个去中心化的存储网络，旨在利用区块链技术提供安全的数据存储。"
            ];

            async function requestBlockChain() {
              const instance = axios.get("/blockchain")
              let jsonData = (await instance).data

              let table = `<h2 id='hq'>虚拟货币行情</h2>
                <div style="font-size: 1.5rem; font-weight: normal; padding: 0px 0px 10px 0px;">(美元对人民币汇率：${jsonData['exchange']})</div>
                <table border='1'>
                  <tr>
                    <th width="40%">虚拟货币</th>
                    <th width="30%">价格(人民币)</th>
                    <th width="30%">价格(美元)</th>
                  </tr>`;
              
              for (let i = 0; i <= 20; i++) {
                if (!jsonData['list'][ctoname[i]]) {
                  continue;
                }

                let rmb = Math.round(jsonData['list'][ctoname[i]] * jsonData['exchange'] * 100000) / 100000;
                let usd = jsonData['list'][ctoname[i]]

                table += `
                <tr>
                  <td>
                    <div class="htitle" title="${ctoname4[i]}">
                      <img class="himg" src="/images/BlockChain/${ctoname[i]}.jpg" />
                      ${ctoname[i]}
                      <span class="hsubtitle">
                        (${ctoname2[i]})
                      </span>
                    </div>
                  </td>
                  <td>${rmb}</td>
                  <td>${usd}</td>
                </tr>`;
              }

              // for (let currency in jsonData) {
              //   table += `<tr><td>${ctoname[currency].name}</td><td>${jsonData[currency]}</td></tr>`;
              // }
              table += "</table>";

              document.getElementById("blockchain").innerHTML = table;
              document.getElementById("blockchain").style.display = "flex"
            }

            requestBlockChain()
          </script>

          
<div class="footer">
  <div class="social">
    <ul>
      
        <li>
          <a title="github" href="">
            <i class="iconfont icon-"></i>
          </a>
        </li>
      
        <li>
          <a title="wechat" href="">
            <i class="iconfont icon-wechat"></i>
          </a>
        </li>
      
    </ul>
  </div>
  
    
    <div class="footer-more">
      
        <a target="_blank" rel="noopener" href="https://github.com/zchengsite/hexo-theme-oranges">Copyright © 2024 lijunjie</a>
        
    </div>
  
    
    <div class="footer-more">
      
        <a href="https://hahaha.love">Theme by Oranges | Powered by Lijunjie</a>
        
    </div>
  
  
</div>


<script async src="/plugins/consolevideo.js"></script>
        </div>

        <div class="tools-bar">
          <div class="back-to-top tools-bar-item hidden">
  <a href="javascript: void(0)">
    <i class="iconfont icon-chevronup"></i>
  </a>
</div>


<script src="/js/backtotop.js"></script>


  <div class="search-icon tools-bar-item" id="search-icon">
    <a href="javascript: void(0)">
      <i class="iconfont icon-search"></i>
    </a>
  </div>

  <div class="search-overlay hidden">
    <div class="search-content" tabindex="0">
      <div class="search-title">
        <span class="search-icon-input">
          <a href="javascript: void(0)">
            <i class="iconfont icon-search"></i>
          </a>
        </span>
        
          <input type="text" class="search-input" id="search-input" placeholder="搜索...">
        
        <span class="search-close-icon" id="search-close-icon">
          <a href="javascript: void(0)">
            <i class="iconfont icon-close"></i>
          </a>
        </span>
      </div>
      <div class="search-result" id="search-result"></div>
    </div>
  </div>

  <script type="text/javascript">
    var inputArea = document.querySelector("#search-input")
    var searchOverlayArea = document.querySelector(".search-overlay")

    inputArea.onclick = function() {
      getSearchFile()
      this.onclick = null
    }

    inputArea.onkeydown = function() {
      if(event.keyCode == 13)
        return false
    }

    function openOrHideSearchContent() {
      let isHidden = searchOverlayArea.classList.contains('hidden')
      if (isHidden) {
        searchOverlayArea.classList.remove('hidden')
        document.body.classList.add('hidden')
        // inputArea.focus()
      } else {
        searchOverlayArea.classList.add('hidden')
        document.body.classList.remove('hidden')
      }
    }

    function blurSearchContent(e) {
      if (e.target === searchOverlayArea) {
        openOrHideSearchContent()
      }
    }

    document.querySelector("#search-icon").addEventListener("click", openOrHideSearchContent, false)
    document.querySelector("#search-close-icon").addEventListener("click", openOrHideSearchContent, false)
    searchOverlayArea.addEventListener("click", blurSearchContent, false)

    var searchFunc = function (path, search_id, content_id) {
      'use strict';
      var $input = document.getElementById(search_id);
      var $resultContent = document.getElementById(content_id);
      $resultContent.innerHTML = "<ul><span class='local-search-empty'>首次搜索，正在载入索引文件，请稍后……<span></ul>";
      $.ajax({
        // 0x01. load xml file
        url: path,
        dataType: "xml",
        success: function (xmlResponse) {
          // 0x02. parse xml file
          var datas = $("entry", xmlResponse).map(function () {
            return {
              title: $("title", this).text(),
              content: $("content", this).text(),
              url: $("url", this).text()
            };
          }).get();
          $resultContent.innerHTML = "";

          $input.addEventListener('input', function () {
            // 0x03. parse query to keywords list
            var str = '<ul class=\"search-result-list\">';
            var keywords = this.value.trim().toLowerCase().split(/[\s\-]+/);
            $resultContent.innerHTML = "";
            if (this.value.trim().length <= 0) {
              return;
            }
            // 0x04. perform local searching
            datas.forEach(function (data) {
              var isMatch = true;
              var content_index = [];
              if (!data.title || data.title.trim() === '') {
                data.title = "Untitled";
              }
              var orig_data_title = data.title.trim();
              var data_title = orig_data_title.toLowerCase();
              var orig_data_content = data.content.trim().replace(/<[^>]+>/g, "");
              var data_content = orig_data_content.toLowerCase();
              var data_url = data.url;
              var index_title = -1;
              var index_content = -1;
              var first_occur = -1;
              // only match artiles with not empty contents
              if (data_content !== '') {
                keywords.forEach(function (keyword, i) {
                  index_title = data_title.indexOf(keyword);
                  index_content = data_content.indexOf(keyword);

                  if (index_title < 0 && index_content < 0) {
                    isMatch = false;
                  } else {
                    if (index_content < 0) {
                      index_content = 0;
                    }
                    if (i == 0) {
                      first_occur = index_content;
                    }
                    // content_index.push({index_content:index_content, keyword_len:keyword_len});
                  }
                });
              } else {
                isMatch = false;
              }
              // 0x05. show search results
              if (isMatch) {
                str += "<li><a href='" + data_url + "' class='search-result-title'>" + orig_data_title + "</a>";
                var content = orig_data_content;
                if (first_occur >= 0) {
                  // cut out 100 characters
                  var start = first_occur - 20;
                  var end = first_occur + 80;

                  if (start < 0) {
                    start = 0;
                  }

                  if (start == 0) {
                    end = 100;
                  }

                  if (end > content.length) {
                    end = content.length;
                  }

                  var match_content = content.substr(start, end);

                  // highlight all keywords
                  keywords.forEach(function (keyword) {
                    var regS = new RegExp(keyword, "gi");
                    match_content = match_content.replace(regS, "<span class=\"search-keyword\">" + keyword + "</span>");
                  });

                  str += "<p class=\"search-result-abstract\">" + match_content + "...</p>"
                }
                str += "</li>";
              }
            });
            str += "</ul>";
            if (str.indexOf('<li>') === -1) {
              return $resultContent.innerHTML = "<ul><span class='local-search-empty'>没有找到内容，请尝试更换检索词。<span></ul>";
            }
            $resultContent.innerHTML = str;
          });
        },
        error: function(xhr, status, error) {
          $resultContent.innerHTML = ""
          if (xhr.status === 404) {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>未找到search.xml文件，具体请参考：<a href='https://github.com/zchengsite/hexo-theme-oranges#configuration' target='_black'>configuration</a><span></ul>";
          } else {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>请求失败，尝试重新刷新页面或稍后重试。<span></ul>";
          }
        }
      });
      $(document).on('click', '#search-close-icon', function() {
        $('#search-input').val('');
        $('#search-result').html('');
      });
    }

    var getSearchFile = function() {
        var path = "/search.xml";
        searchFunc(path, 'search-input', 'search-result');
    }
  </script>


        </div>
    </div>

  </body>

</html>