- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
FindingFrequentItemsinDataStreamsMosesCharikar PrincetonUn.,GoogleInc.KevinChen UCBerkeley,GoogleInc.MartinFranch-Colton RutgersUn.,GoogleInc.PresentedbyAmirRothschild
Presenting:1-passalgorithmforestimatingthemostfrequentitemsinadatastreamusingverylimitedstoragespace.ThealgorithmachievesespeciallygoodspaceboundsforZipfiandistribution2-passalgorithmforestimatingtheitemswiththelargestchangeinfrequencybetweentwodatastreams.
Definitions:Datastream:whereObjectoiappearsnitimesinS.Orderoisothatfi=ni/n
Thefirstproblem:FindApproxTop(S,k,ε)Input:streamS,intk,realε.Output:kelementsfromSsuchthat:foreveryelementOiintheoutput:Containseveryitemwith:n1n2nk
Clarifications:Thisisnottheproblemdiscussedlastweek!Samplingalgorithmdoesnotgiveanyboundsforthisversionoftheproblem.
HashfunctionsWesaythathisapairwiseindependenthashfunction,ifhischosenrandomlyfromagroupH,sothat:
Let’sstartwithsomeintuition…Idea:Letsbeahashfunctionfromobjectsto{+1,-1},andletcbeacounter.Foreachqiinthestream,updatec+=s(qi)CSEstimateni=c*s(oi)(since)
Realizations(O1)s(O2)s(O2)s(O2)s(O3)s(O2)s1-1+1-1s2-1+1+1s3+1+1-1s4+1+1+1E0+10
Claim:ForeachelementOjotherthenOi,s(Oj)*s(Oi)=-1w.p.1/2s(Oj)*s(Oi)=+1w.p.1/2.SoOjaddsthecounter+njw.p.1/2and-njw.p.1/2,andsohasnoinfluenceontheexpectation.Oiontheotherhand,adds+nitothecounterw.p.1(sinces(Oi)*s(Oi)=+1)Sotheexpectation(average)is+ni.Proof:
That’snotenough:Thevarianceisveryhigh.O(m)objectshaveestimatesthatarewrongbymorethenthevariance.
Firstattempttofixthealgorithm…tindependenthashfunctionsSjtdifferentcountersCjForeachelementqiinthestream:Foreachjin{1,2,…,t}doCj+=Sj(qi)TakethemeanorthemedianoftheestimatesCj*Sj(oi)toestimateni.C1C3C2C4C5C6S1S2S3S4S5S6
StillnotenoughCollisio
您可能关注的文档
- 建筑安装业营改增全面准备与应对策略.ppt
- 内科护理呼吸衰竭病人的护理.ppt
- 教育小故事- 亳州中药科技学校.ppt
- Find It - Fix It Challenge发现-修复它的挑战.ppt
- 珠宝首饰评估与销售技巧.ppt
- Basic Trigger Rates - Lawrence Berkeley National Laboratory基本的触发率-劳伦斯伯克利国家实验室.ppt
- 推销筹划案例剖析.ppt
- 世界经典教育案例赏析.ppt
- 近几年猪饲料营养价值评价.ppt
- Beam test of low index sillica aerogel低硅气凝胶梁试验指标.ppt
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
文档评论(0)