博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Java实现的k-means聚类算法
阅读量:6041 次
发布时间:2019-06-20

本文共 4206 字,大约阅读时间需要 14 分钟。

hot3.png

需求

对MySQL数据库中某个表的某个字段执行k-means算法,将处理后的数据写入新表中。

源码及驱动

http://download.csdn.net/download/xiaobuding007/10203673

源码

import java.sql.*;import java.util.*;/** * @author tianshl * @version 2018/1/13 上午11:13 */public class Kmeans {    // 源数据    private List
origins = new ArrayList<>(); // 分组数据 private Map
> grouped; // 初始质心列表 private List
cores; // 数据源 private String tableName; private String colName; /** * 构造方法 * * @param tableName 源数据表名称 * @param colName 源数据列名称 * @param cores 质心列表 */ private Kmeans(String tableName, String colName,List
cores){ this.cores = cores; this.tableName = tableName; this.colName = colName; } /** * 重新计算质心 * * @return 新的质心列表 */ private List
newCores(){ List
newCores = new ArrayList<>(); for(List
v: grouped.values()){ newCores.add(v.stream().reduce(0, (sum, num) -> sum + num) / (v.size() + 0.0)); } Collections.sort(newCores); return newCores; } /** * 判断是否结束 * * @return bool */ private Boolean isOver(){ List
_cores = newCores(); for(int i=0, len=cores.size(); i
(); Double core; for (Integer origin: origins) { core = getCore(origin); if (!grouped.containsKey(core)) { grouped.put(core, new ArrayList<>()); } grouped.get(core).add(origin); } } /** * 选择质心 * * @param num 要分组的数据 * @return 质心 */ private Double getCore(Integer num){ // 差 列表 List
diffs = new ArrayList<>(); // 计算差 for(Double core: cores){ diffs.add(Math.abs(num - core)); } // 最小差 -> 索引 -> 对应的质心 return cores.get(diffs.indexOf(Collections.min(diffs))); } /** * 建立数据库连接 * @return connection */ private Connection getConn(){ try { // URL指向要访问的数据库名mydata String url = "jdbc:mysql://localhost:3306/data_analysis_dev"; // MySQL配置时的用户名 String user = "root"; // MySQL配置时的密码 String password = "root"; // 加载驱动 Class.forName("com.mysql.jdbc.Driver"); //声明Connection对象 Connection conn = DriverManager.getConnection(url, user, password); if(conn.isClosed()){ System.out.println("连接数据库失败!"); return null; } System.out.println("连接数据库成功!"); return conn; } catch (Exception e) { System.out.println("连接数据库失败!"); e.printStackTrace(); } return null; } /** * 关闭数据库连接 * * @param conn 连接 */ private void close(Connection conn){ try { if(conn != null && !conn.isClosed()) conn.close(); } catch (Exception e){ e.printStackTrace(); } } /** * 获取源数据 */ private void getOrigins(){ Connection conn = null; try { conn = getConn(); if(conn == null) return; Statement statement = conn.createStatement(); ResultSet rs = statement.executeQuery(String.format("select %s from %s", colName, tableName)); while(rs.next()){ origins.add(rs.getInt(1)); } conn.close(); } catch (Exception e){ e.printStackTrace(); } finally { close(conn); } } /** * 向新表中写数据 */ private void write(){ Connection conn = null; try { conn = getConn(); if(conn == null) return; // 创建表 Statement statement = conn.createStatement(); // 删除旧数据表 statement.execute("DROP TABLE IF EXISTS k_means; "); // 创建新表 statement.execute("CREATE TABLE IF NOT EXISTS k_means(`core` DECIMAL(11, 7), `col` INTEGER(11));"); // 禁止自动提交 conn.setAutoCommit(false); PreparedStatement ps = conn.prepareStatement("INSERT INTO k_means VALUES (?, ?)"); for(Map.Entry
> entry: grouped.entrySet()){ Double core = entry.getKey(); for(Integer value: entry.getValue()){ ps.setDouble(1, core); ps.setInt(2, value); ps.addBatch(); } } // 批量执行 ps.executeBatch(); // 提交事务 conn.commit(); // 关闭连接 conn.close(); } catch (Exception e){ e.printStackTrace(); } finally { close(conn); } } /** * 处理数据 */ private void run(){ System.out.println("获取源数据"); // 获取源数据 getOrigins(); // 停止分组 Boolean isOver = false; System.out.println("数据分组处理"); while(!isOver) { // 数据分组 setGrouped(); // 判断是否停止分组 isOver = isOver(); } System.out.println("将处理好的数据写入数据库"); // 将分组数据写入新表 write(); System.out.println("写数据完毕"); } public static void main(String[] args){ List
cores = new ArrayList<>(); cores.add(260.0); cores.add(600.0); // 表名, 列名, 质心列表 new Kmeans("attributes", "attr_length", cores).run(); }}

源文件

Kmeans.java

编译

javac Kmeans.java

运行

# 指定依赖库java -Djava.ext.dirs=./lib Kmeans

转载于:https://my.oschina.net/tianshl/blog/1606526

你可能感兴趣的文章
centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署
查看>>
cronexpression 详解
查看>>
一周小程序学习 第1天
查看>>
小孩的linux
查看>>
SpringMVC、MyBatis声明式事务管理
查看>>
开发者详解:端游及手游服务端的常用架构
查看>>
JavaScript History对象
查看>>
在 Windows 下安装 Oracle 11g XE (Express Edition)
查看>>
ListView优化
查看>>
【原创】 PostgreSQL 实现MySQL 的auto_increment 字段
查看>>
vs2015添加vc助手
查看>>
检测点1.1
查看>>
android--------阿里 AndFix 热修复
查看>>
control.add()
查看>>
Sublime text3中配置Github
查看>>
Asp.net,C# 加密解密字符串
查看>>
网页视频播放器插件源码
查看>>
2019-4-23 plan
查看>>
[编解码] 关于base64编码的原理及实现
查看>>
WinDbg配置和使用基础
查看>>