`
strayly
  • 浏览: 93661 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
CRF简介 Conditional Random Field:条件随机场,一种机器学习技术(模型) CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如: 分词(标注字的词位信息,由字构词) 词性标注(标 ...
   词性编码 词性名称 注 解 Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码 a和副词代码d并在一起。 an 名形词 具有名词功能的形容词。形容词代码 a和名词代码n并在一起。 b 区别词 取汉字“别”的声母。 c
# coding: utf-8 # ###jieba特性介绍 # 支持三种分词模式: # 精确模式,试图将句子最精确地切开,适合文本分析; # 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; # 搜索引擎模式,在精确模 ...
转自:http://blog.csdn.net/huyoo/article/details/12188573 nltk是一个Python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具. 1. nltk的安装 资料1.1: 黄聪:Python+NLTK自然语言处理学习(一) ...
转载 http://blog.sina.com.cn/s/blog_132a9d5010102wsov.html 先说明一下我的各个版本,电脑win7 64位,Python 2.7版本32位,已安装的各种python库都是32位。 所以我这篇文章针对的是以上配置的情况,如果你是64位系统,64位python,请参考 http://blo ...
pyspark在windows加载数据集 训练模型出现 以下错误 java.net.SocketException: Connection reset by peer: socket write error         at java.net.SocketOutputStream.socketWrite0(Native Method)         at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:113) 在stackoverflow.com上找到的解决办法 修改spark/python/pyspar ...
首先安装好spark后 设置环境变量SPARK_HOME=d:\spark,在环境变量path后面添加%SPARK_HOME%bin; 启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数 添加需要的jar库,选择菜单project=>properties, 然后在左侧选择java build path 右侧选择libraries, 然后选择add external jars 选择spark目录下jars目录下所有文件 WordCount.java代码 package test.spark; import scala.Tupl ...
#!/usr/bin/env python # coding=utf-8 ''' 运行命令/yourpath/spark/bin/spark-submit --driver-memory 1g MovieLensALS.py movieLensDataDir personalRatingsFile movieLensDataDir 电影评分数据集目录 比如 ml-1m/ personalRatingsFile 需要推荐的某用户的评价数据 格式参考ratings.dat ''' import sys import itertools from math import sq ...
采用MovieLens 100k数据集 http://files.grouplens.org/datasets/movielens/ml-100k.zip # -*- coding: utf-8 -*- # spark-submit movie_rec.py from pyspark import SparkConf, SparkContext from pyspark.mllib.recommendation import ALS, Rating # 获取所有movie名称和id对应集合 def movie_dict(file): dict = {} ...
在/tmp下建立目录 spark-events ./sbin/start-history-server.sh 修改配置文件./conf/spark-defaults.conf 添加这一行:spark.eventLog.enabled           true 运行脚本 ./sbin/start-history-server.sh 查看地址http://localhost:18080
先安装jdk: sudo apt-get update sudo apt-get install default-jre sudo apt-get install openjdk-7-jdk 然后运行java -version 查看是否安装成功 下载spark: 最新版本为spark-2.0.2-bin-hadoop2.7.tgz 然后解压 tar -xvf spark-2.0.2-bin-hadoop2.7.tgz 移动到/opt目录 mv spark-2.0.2-bin-hadoop2.7/ /opt 设置环境变量 echo "export PATH=/opt/spark-2.0 ...
mysql有以下几种日志:   错误日志:   log-err   查询日志:   log   慢查询日志:  log-slow-queries   更新日志:   log-update   二进制日志: log-bin 要把日志生成在 /var/log 目录下(是系统日志存放的地方,只有 root 账号有写权限),需要 MySQL进程对这个目录有读写权限,一般是不这么做的,也考虑到安全问题,包括 MySQL 本身的数据安全,因为对 MySQL 的所有操作,都会记录到常规查询日志。MySQL的日志就不要用 /var/log/ 目录下。 -------------------------- ...

xss过滤

    博客分类:
  • php
1.使用htmlentities: htmlentities($str, ENT_QUOTES,"UTF-8"); 2.过滤特殊字符 preg_replace("/\"|'|\(|\)|<|>|CONTENT-TRANSFER-ENCODING/i"," ",$str);
SELECT class, SUM( status=A ) AS result_a, SUM( status=B ) AS result_b FROM table GROUP BY class

jsonp 跨域

前端 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Insert title here</ ...
Global site tag (gtag.js) - Google Analytics