首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Shiny中的数据争论:在k-means聚类分析之后绘制新的争论数据

Shiny中的数据争论:在k-means聚类分析之后绘制新的争论数据
EN

Stack Overflow用户
提问于 2020-07-07 01:23:52
回答 1查看 378关注 0票数 1

我正在尝试构建一个数据分析仪表板,我正在使用Shiny,这是我相对较新的。我的仪表板的一个功能是对用户生成的数据使用k-means聚类。我可以让聚类分析正常工作,但我希望一旦完成初始聚类分析,就能够对单个集群进行探索性的数据分析。此外,我还希望在Shiny中使用响应式数据帧,这样如果用户更改仪表板上的值,分析就会刷新,包括聚类后的探索性内容。

在此之前,以下是我在仪表板服务器代码和相关库中使用的一些函数,因此请先运行这些函数:

代码语言:javascript
复制
#libraries===================================================================
library(ids)
library(tidyverse)
library(dplyr)
library(shiny)
library(ggplot2)
library(shinydashboard)
library(shinyWidgets)
library(factoextra)

#functions required==========================================================
#scale https://stackoverflow.com/questions/35775696/trying-to-use-dplyr-to-group-by-and-apply-scale
scale_this <- function(x){
  (x - mean(x, na.rm=TRUE)) / sd(x, na.rm=TRUE)
}


#wss plot 

wssplot <- function(data, nc = 15, seed = 1234) {
  wss <- (nrow(data) - 1) * sum(apply(data, 2, var))
  for (i in 2:nc) {
    set.seed(seed)
    wss[i] <- sum(kmeans(data, centers = i)$withinss)
  }
  plot(1:nc,
       wss,
       type = "b",
       xlab = "Number of Clusters",
       ylab = "Within groups sum of squares")
}

以下是此示例的模拟数据帧的代码:

代码语言:javascript
复制
#Create my mock data frame============================================
set.seed(123)
randomid<-random_id(333)#from 'ids' library
Duration<-c(floor(runif(10000, min=1, max=1000)))
mockdf<-cbind(randomid, Duration)
mockdf<-as.data.frame(mockdf)
mockdf$Duration<-as.numeric(mockdf$Duration)

我的UI代码:-

代码语言:javascript
复制
#UI============================================================================

ui<-fluidPage(
  titlePanel('Minimal example'),
  tabsetPanel(
    
    
    #=============================================kmeans clustering==================================================
    
    
    tabPanel("User Type Discovery",
             sidebarLayout(
               sidebarPanel(width = 4,numericInput('ksolution', 'Select k solution', 5),
                            pickerInput('userselect', 'Which users do you want to include:', 
                                        choices = unique(mockdf$randomid), options = list('actions-box'=TRUE),multiple = T)),
               mainPanel(fluidRow(
                 column(12, plotOutput("elbowplot")),
                 column(12, plotOutput("clustplot")),
                 column(12, plotOutput("clust_dens")),
                 column(12, DT::dataTableOutput('Clusterdf'))))
             )
    )
  )
)

和我的服务器代码:

代码语言:javascript
复制
#SERVER===========================================================
server<-function(input,output,session){

  
  
  
  #create reactive dataframe
  rval_df <-reactive({
    mockdf
  })
  
  
  
  #=============================================kmeans clustering==================================================
  
  
  
  rval_UserData<-reactive({
    
    rval_df()%>%
      filter(randomid %in% input$userselect)%>%
      group_by(randomid)%>%
      summarise(Count=n(),MeanDuration=mean(Duration),SDDuration=sd(Duration))%>%
      mutate(SDDuration=if_else(is.na(SDDuration),0,SDDuration),
      Cluster=as.factor(rval_kclust()$cluster))
    
  })
  
  
  #create a scaled dataset for the clustering
  rval_cluster_df<-reactive({
    
    
    rval_df()%>%    
      filter(randomid %in% input$userselect)%>%
      group_by(randomid)%>%
      summarise(Count=n(),MeanDuration=mean(Duration),SDDuration=sd(Duration))%>%
      mutate(SDDuration=if_else(is.na(SDDuration),0,SDDuration),
             Count=scale_this(Count),
             MeanDuration=scale_this(MeanDuration),
             SDDuration=scale_this(SDDuration))%>%
      select(Count,MeanDuration,SDDuration)
    
    
  })  
  
  
  
  #cluster algorithm
  rval_kclust<-reactive({
    kmeans(rval_cluster_df(), centers = input$ksolution)
  })
  
  
  
  
  output$clustplot<-renderPlot({
    
    
    
    
    factoextra::fviz_cluster(rval_kclust(), data = rval_cluster_df()) 
    
    
  })
  
  
  output$elbowplot<-renderPlot({
    
    wssplot(rval_cluster_df())
  })
  
  
  output$Clusterdf<- DT::renderDataTable({
    rval_UserData()
    
  })
  
  
}


shinyApp(ui, server)

运行shinyApp(ui,server)时,点击应用程序下拉框中的“全选”按钮即可运行集群。

现在,这是我想要做的。由于我已经将群集号分配回了rval_UserData(),因此我希望能够将其合并将群集号分配给mockdf,这样我就可以在Duration变量上使用ggplot2生成绘图,还可以生成汇总表,所有这些都是在群集级进行的。我更喜欢使用反应式数据框来实现这一点,因此绘图将根据UI中的ksolution输入进行刷新。

下面是我将聚类号合并回mockdf的一些尝试,然后尝试绘制密度图:

代码语言:javascript
复制
  rval_cluster_merged_df<-reactive({
    
    merge(mockdf(), rval_UserData(), by="randomid")
  #outside of shiny, this would be a quick way to paste the cluster number back onto the mock dataframe
          
  })
  
  
  
  output$clust_dens<-renderPlot({
    
   dd<-rval_cluster_merged_df()
    
      ggplot(dd,aes(x=Duration, colour=Cluster, group=Cluster))+
      geom_density()+ggtitle("Cluster density plot")+scale_x_log10()
    
  })

这是我得到的,请看错误消息:-

这可能是很明显,我做错了什么,但任何正确的方向上的指针都会非常感谢!提前感谢您:)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-07 02:55:42

您需要对所有input$abc变量使用req(),并使用eval_tidy,因为它们不是标准变量。如下所示,对您的服务器功能进行少量更新即可解决您的问题。

代码语言:javascript
复制
server<-function(input,output,session){
  
  #create reactive dataframe
  rval_df <-reactive({
    mockdf
  })
   
  #=============================================kmeans clustering==================================================
  rval_UserData<-reactive({
    req(input$userselect)
    userselect <- eval_tidy(input$userselect)
    rval_df()%>%
      filter(randomid %in% userselect)%>%
      group_by(randomid)%>%
      summarise(Count=n(),MeanDuration=mean(Duration),SDDuration=sd(Duration))%>%
      mutate(SDDuration=if_else(is.na(SDDuration),0,SDDuration),
             Cluster=as.factor(rval_kclust()$cluster))
    
  })
  
  #create a scaled dataset for the clustering
  rval_cluster_df<-reactive({
    req(input$userselect)
    userselect <- eval_tidy(input$userselect)
    rval_df()%>%    
      filter(randomid %in% userselect)%>%
      group_by(randomid)%>%
      summarise(Count=n(),MeanDuration=mean(Duration),SDDuration=sd(Duration))%>%
      mutate(SDDuration=if_else(is.na(SDDuration),0,SDDuration),
             Count=scale_this(Count),
             MeanDuration=scale_this(MeanDuration),
             SDDuration=scale_this(SDDuration))%>%
      select(Count,MeanDuration,SDDuration)
    
  }) 
  
  #cluster algorithm
  rval_kclust<-reactive({
    req(input$ksolution)
    centers <- as.numeric(eval_tidy(input$ksolution))
    kmeans(rval_cluster_df(), centers = centers)
  })
  
  output$clustplot<-renderPlot({
    
    factoextra::fviz_cluster(rval_kclust(), data = rval_cluster_df()) 
    
  })
  
  
  output$elbowplot<-renderPlot({
    
    wssplot(rval_cluster_df())
  })
  
  output$Clusterdf<- DT::renderDataTable({
    rval_UserData()
    
  })
  
  rval_cluster_merged_df<-reactive({
    
    merge(rval_df(), rval_UserData(), by="randomid")

  })

  output$clust_dens<-renderPlot({
    
    dd<-rval_cluster_merged_df()
    
    ggplot(dd,aes(x=Duration, colour=Cluster, group=Cluster))+
      geom_density()+ggtitle("Cluster density plot")+scale_x_log10()
    
  })
  
}

最终输出将为:

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62761305

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档