sklearn聚类之kmeans以及增量聚类

博客分类：

数据挖掘
python

使用kmeans聚类时，计算量往往都比较大，当有新的数据要添加到现有类别时，怎么做呢使用sklearn简单做法就是训练时把模型保存，增量时加载模型，用predict预测就好了。前提条件是新数据和训练时的属性数量要一致，比如在训练时使用的分词idf，把所有分词idf的词典保存下来，对于新的增量数据，调用该词典。 #聚类类别数 k_num = 50 mydatas = [] #加载数据,每一条数据的分词用空格隔开，类似：[['aa bb'],['cc dd'],['ee ff']] idf_ret_file = "idf_ret.pkl" if os.pat ...

2019-07-11 14:47
浏览 1112
评论(0)
分类:编程语言

spark进行svd降维和kmeans聚类

博客分类：

数据挖掘
python
spark

import jieba import jieba.analyse import jieba.posseg as pseg from pyspark import SparkConf, SparkContext,SQLContext from pyspark.ml.feature import Word2Vec,CountVectorizer import pandas as pd from pyspark.ml.clustering import KMeans from pyspark.ml.feature import HashingTF, IDF, Tokenizer from pysp ...

2019-07-05 16:36
浏览 775
评论(0)
分类:编程语言

卡方检验提取特征来对文本分类

博客分类：

python
数据挖掘

count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(corpus) tfidf_transformer = TfidfTransformer() X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts) X_ch2 = SelectKBest(chi2, k=10) X_train_ch2 = X_ch2.fit_transform(X_train_counts, Y_train) classifier = ...

2019-05-05 17:30
浏览 876
评论(0)
分类:编程语言

计算文本词频进行聚类

博客分类：

python
数据挖掘

import jieba import jieba.analyse import math import operator from sklearn.cluster import KMeans, MiniBatchKMeans, AffinityPropagation, DBSCAN from sklearn.cluster import MeanShift, estimate_bandwidth from collections import Counter from sklearn.manifold import TSNE from sklearn.decompositi ...

2019-05-05 17:04
浏览 424
评论(0)
分类:编程语言

spark之word2vec使用(python)

博客分类：

spark
python

from pyspark import SparkConf, SparkContext,SQLContext from pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizer conf = SparkConf().setAppName("yjs_rec") sc = SparkContext(conf=conf) sqlContext=SQLContext(sc) ''' documentDF = sqlContext.create ...

2018-08-15 09:57
浏览 2014
评论(0)
分类:编程语言

spark2.3聚类算法lda代码(python)

博客分类：

spark
python

spark的lda有两个一个是mllib下一个是ml下的，下面代码是使用ml的 from pyspark import SparkConf, SparkContext,SQLContext from pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizer from pyspark.ml.clustering import LDA, LDAModel from pyspark.sql.functions import col, udf from pyspark.s ...

2018-08-15 09:49
浏览 1541
评论(0)
分类:编程语言

(转)PHP词库树，用来判断敏感词

博客分类：

php

<?php class TrieTree { public $tree = array(); /** * 增加关键词到字典树 * * @param string $utf8_str */ public function add($utf8_str) { $chars = &UTF8Util::getChars($utf8_str); // 串结尾字符 $chars[] = null; ...

2018-03-29 15:17
浏览 534
评论(0)
分类:编程语言

preg_quote — 转义正则表达式字符

博客分类：

php

说明 string preg_quote ( string $str [, string $delimiter = NULL ] ) preg_quote()需要参数 str 并向其中每个正则表达式语法中的字符前增加一个反斜线。这通常用于你有一些运行时字符串需要作为正则表达式进行匹配的时候。正则表达式特殊字符有： . \ + * ? [ ^ ] $ ( ) { } = ! < > | : - 示例:$txt = preg_replace('/'.preg_quote($word1).'/i',$wod2,$txt,$count);

2018-03-16 10:34
浏览 325
评论(0)
分类:编程语言

加速Mysql repair table的方法(转)

SET SESSION myisam_sort_buffer_size = 256*1024*1024; SET SESSION read_buffer_size = 64*1024*1024; SET GLOBAL myisam_max_sort_file_size = 100*1024*1024*1024; SET GLOBAL repair_cache.key_buffer_size = 1024*1024*1024; CACHE INDEX tbl_name IN repair_cache; LOAD INDEX INTO CACHE tbl_name ; REPAIR TABLE t ...

2017-11-23 10:13
浏览 613
评论(0)
分类:数据库

(转)jquery的base64

博客分类：

javascript

https://github.com/yckart/jquery.base64.js var a="123"; var b=$.base64.btoa(a); console.log(a===$.base64.atob(b))

2017-10-19 14:54
浏览 353
评论(0)
分类:编程语言

(转)SQL复制数据表（select * into 与 insert into）

博客分类：

数据库

select * into 目标表名 from 源表名 insert into 目标表名(fld1, fld2) select fld1, 5 from 源表名以上两句都是将源表的数据插入到目标表，但两句又有区别的：第一句（select into from）要求目标表不存在，因为在插入时会自动创建。第二句（insert into select from）要求目标表存在，由于目标表已经存在，所以我们除了插入源表的字段外，还可以插入常量，如例中的：5。 1:复制表结构及数据到新表 select * into 目的数据库名.dbo.目的表名 from 原表名 select ...

2017-08-25 13:48
浏览 503
评论(0)
分类:数据库

linux 编译安装 Python3.6 （保留自带Python2）

博客分类：

Linux
python

yum install wget yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel cd /usr/local/src wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgz tar -zxf /usr/local/src/Python-3.6.0.tgz && cd Python-3.6.0 mkdir /usr/local/python3 ./confi ...

2017-07-21 15:55
浏览 580
评论(0)
分类:编程语言

中文字符串转数组

博客分类：

php

function ch2arr($str){ $length = mb_strlen($str, 'UTF-8'); $array = array(); for ($i=0; $i<$length; $i++) $array[] = mb_substr($str, $i, 1, 'UTF-8'); return $array; }

2017-06-27 14:28
浏览 543
评论(0)
分类:编程语言

TensorFlow 的SSE avx fma安装

博客分类：

数据挖掘
python

W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE3 instructions, but these are available on your machine and could speed up CPU computations. W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 in ...

2017-05-06 19:22
浏览 917
评论(0)
分类:编程语言

(转载)Seq2SeqModel参数

博客分类：

数据挖掘
python

训练数据和预处理数据集是电影剧本中的对话，我们首先需要做一些预处理以获得正确的数据格式。切字分词使用结巴分词。移除低频词代码中，用vocabulary_size 限制词表的大小。用UNK代替不包括在词表中的单词。例如，单 ...

2017-05-05 16:15
浏览 1638
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

sklearn聚类之kmeans以及增量聚类

spark进行svd降维和kmeans聚类

卡方检验提取特征来对文本分类

计算文本词频进行聚类

spark之word2vec使用(python)

spark2.3聚类算法lda代码(python)

(转)PHP词库树，用来判断敏感词

preg_quote — 转义正则表达式字符

加速Mysql repair table的方法(转)

(转)jquery的base64

(转)SQL复制数据表（select * into 与 insert into）

linux 编译安装 Python3.6 （保留自带Python2）

中文字符串转数组

TensorFlow 的SSE avx fma安装

(转载)Seq2SeqModel参数

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>