bigdata

jstorm实时计算写elasticsearch冲突解决方案

一、问题 在实时计算数据往elasticsearch的过程中,经常因为elasticsearch中_id的冲突,会报version conflict异常。这是因为在分布式多线程环境中,有许多线程在对同一个id进行更新操作,这就导致了谁也写不进的情况。 在jstorm框架中,有种设计在一定程度上规避了 ...

540224846@qq.com 2018-04-11 16:59 28℃ 0评论

bigdata

使用jstorm和kafka进行流计算

一、基本概念 JStorm认为每个stream都有一个stream源,也就是原始元组的源头,所以它将这个源头抽象为spout,spout可能是连接消息中间件(如MetaQ, Kafka, TBNotify等),并不断发出消息,也可能是从某个队列中不断读取队列元素并装配为tuple发射。 有了源头即s ...

540224846@qq.com 2018-03-22 22:37 107℃ 0评论

java

百度外卖全网数据爬取

1、入口页获取poi数据 入口地址:http://waimai.baidu.com/waimai?qt=find&city=&cid=340&cname=%E6%B7%B1%E5%9C%B3 获取含有外卖业务的城市和它对应的代码 代码如下: String seedUrl =  ...

540224846@qq.com 2018-02-09 9:39 222℃ 0评论

java

hash冲突解决方法

1,开放地址法 当冲突发生时,使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找,直到找到给定 的关键字,或者碰到一个开放的地址(即该地址单元为空)为止,常用的方法有:线性探测法、二次探测法(解决线性探测的堆积问题)、随机探测法(和二次探测原理一致,不一样的是:二次 ...

540224846@qq.com 2018-01-31 14:04 228℃ 0评论