`
strayly
  • 浏览: 93353 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
使用kmeans聚类时,计算量往往都比较大,当有新的数据要添加到现有类别时,怎么做呢 使用sklearn简单做法就是训练时把模型保存,增量时加载模型,用predict预测就好了。 前提条件是新数据和训练时的属性数量要一致,比如在训练时使用的分词idf,把所有分词idf的词典保存下来,对于新的增量数据,调用该词典。 #聚类类别数 k_num = 50 mydatas = [] #加载数据,每一条数据的分词用空格隔开,类似:[['aa bb'],['cc dd'],['ee ff']] idf_ret_file = "idf_ret.pkl" if os.pat ...
import jieba import jieba.analyse import jieba.posseg as pseg from pyspark import SparkConf, SparkContext,SQLContext from pyspark.ml.feature import Word2Vec,CountVectorizer import pandas as pd from pyspark.ml.clustering import KMeans from pyspark.ml.feature import HashingTF, IDF, Tokenizer from pysp ...
count_vect = CountVectorizer() X_train_counts = count_vect.fit_transform(corpus) tfidf_transformer = TfidfTransformer() X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts) X_ch2 = SelectKBest(chi2, k=10) X_train_ch2 = X_ch2.fit_transform(X_train_counts, Y_train) classifier = ...
import jieba import jieba.analyse import math import operator from sklearn.cluster import KMeans, MiniBatchKMeans, AffinityPropagation, DBSCAN from sklearn.cluster import MeanShift, estimate_bandwidth from collections import Counter from sklearn.manifold import TSNE from sklearn.decompositi ...
from pyspark import SparkConf, SparkContext,SQLContext from pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizer conf = SparkConf().setAppName("yjs_rec") sc = SparkContext(conf=conf) sqlContext=SQLContext(sc) ''' documentDF = sqlContext.create ...
spark的lda有两个一个是mllib下 一个是ml下的,下面代码是使用ml的 from pyspark import SparkConf, SparkContext,SQLContext from pyspark.sql import SparkSession from pyspark.ml.feature import Word2Vec,CountVectorizer from pyspark.ml.clustering import LDA, LDAModel from pyspark.sql.functions import col, udf from pyspark.s ...
<?php class TrieTree { public $tree = array(); /** * 增加关键词到字典树 * * @param string $utf8_str */ public function add($utf8_str) { $chars = &UTF8Util::getChars($utf8_str); // 串结尾字符 $chars[] = null; ...
说明 string preg_quote ( string $str [, string $delimiter = NULL ] ) preg_quote()需要参数 str 并向其中 每个正则表达式语法中的字符前增加一个反斜线。 这通常用于你有一些运行时字符串 需要作为正则表达式进行匹配的时候。 正则表达式特殊字符有: . \ + * ? [ ^ ] $ ( ) { } = ! < > | : - 示例:$txt = preg_replace('/'.preg_quote($word1).'/i',$wod2,$txt,$count);
SET SESSION myisam_sort_buffer_size = 256*1024*1024; SET SESSION read_buffer_size = 64*1024*1024; SET GLOBAL myisam_max_sort_file_size = 100*1024*1024*1024; SET GLOBAL repair_cache.key_buffer_size = 1024*1024*1024; CACHE INDEX tbl_name  IN repair_cache; LOAD INDEX INTO CACHE tbl_name ; REPAIR TABLE t ...
https://github.com/yckart/jquery.base64.js var a="123"; var b=$.base64.btoa(a); console.log(a===$.base64.atob(b))
select * into 目标表名 from 源表名 insert into 目标表名(fld1, fld2) select fld1, 5 from 源表名 以上两句都是将 源表 的数据插入到 目标表,但两句又有区别的: 第一句(select into from)要求目标表不存在,因为在插入时会自动创建。 第二句(insert into select from)要求目标表存在,由于目标表已经存在,所以我们除了插入源表的字段外,还可以插入常量,如例中的:5。 1:复制表结构及数据到新表 select * into 目的数据库名.dbo.目的表名 from 原表名 select ...
yum install wget yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel cd /usr/local/src wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgz tar -zxf /usr/local/src/Python-3.6.0.tgz && cd Python-3.6.0 mkdir /usr/local/python3 ./confi ...

中文字符串转数组

    博客分类:
  • php
function ch2arr($str){ $length = mb_strlen($str, 'UTF-8'); $array = array(); for ($i=0; $i<$length; $i++) $array[] = mb_substr($str, $i, 1, 'UTF-8'); return $array; }
W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE3 instructions, but these are available on your machine and could speed up CPU computations. W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 in ...
训练数据和预处理 数据集是电影剧本中的对话,我们首先需要做一些预处理以获得正确的数据格式。 切字分词 使用结巴分词。 移除低频词 代码中,用vocabulary_size 限制词表的大小。用UNK代替不包括在词表中的单词。例如,单 ...
Global site tag (gtag.js) - Google Analytics