博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop下mahout bayes(贝叶斯)算法研究(1)
阅读量:2435 次
发布时间:2019-05-10

本文共 785 字,大约阅读时间需要 2 分钟。

算法简介

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率哪个最大,就认为此待分类项属于哪个类别。

这二十个新闻组数据集合是收集大约20,000新闻组文档,均匀的分布在20个不同的集合。这20个新闻组集合采集最近流行的数据集合到文本程序中作为实验,根据机器学习技术。例如文本分类,文本聚集。我们将使用MahoutBayes Classifier创造一个模型,它将一个新文档分类到这20个新闻组集合范例演示

环境要求

hadoop已经开启

mahout已经安装

数据的准备

下载20news-bydate.tar.gz数据包并解压缩

例如:我已经把数据包放在/root/bayes下了,所以以下的命令都是在这个目录下的

原以为这么20个文件是不可以一起输出的,但事实证明是可以的

算法流程

数据输入与输出准备过程

5.1生成input的数据

5.2生成test的数据

Hadoop中执行命令与过程

上传文件到HDFS

hadoop fs -put  /root/bayesoutput/train/ bayes

算法执行命令与过程

下面将在hadoop运行4个map reduce工作,为了Train这个分器并且将运行一段时间如果在只有一个节点的机器上

mahout trainclassifier -i /bayes/train/ -o newsmodel -type bayes -ng 3 -source hdfs由于hadoop集群未开,这条命令暂时没用

本地测试)

由于案例数据较多,跑了将近30分钟,新的newmodel的大小有300mb

可以通过来监控job的状态

input目录运行Test分类器

                         

输出结果参考:

转载地址:http://ukmmb.baihongyu.com/

你可能感兴趣的文章
Symbian命名规则(翻译)(转)
查看>>
windows server 2003的设置使用(转)
查看>>
优化Win2000的NTFS系统(转)
查看>>
IE漏洞可使黑客轻易获取私人信息(转)
查看>>
脱机备份与恢复实战(转)
查看>>
WLINUX下的DNS服务器设置(转)
查看>>
游戏引擎剖析(二)(转)
查看>>
sms发mms C语言源码(转)
查看>>
窝CDMA网络中移动IP接入Internet(转)
查看>>
为什么选择百度?-- 巧用百度专题(转)
查看>>
WinXP PRO平台下VS.NET+Series60开发环境配置指南(转)
查看>>
保护你的网络,完全解读网络防火墙(转)
查看>>
实现MMS增值业务的关键技术(转)
查看>>
Vista被破解 一个小程序可成功激活(转)
查看>>
[组图]网络游戏设计(转)
查看>>
SEO作弊常见方法和形式(转)
查看>>
蓝芽技术的原理和应用(2)(转)
查看>>
ACCESS默认保存路径的修改方法(转)
查看>>
解决接通电源后自动开机问题(转)
查看>>
Linux操作系统的使用技巧集锦(转)
查看>>