王通seo培训:搜搜官方的一篇相关性文章分享

摘 要

  议程 概述 检索词 用户的信息需求 网页的自有信息 网页的附属信息 相关性的计算框架 概述 相关性的表象 检索词与被检索网页的相关联程度 相关性的真实意义 用户信息需求与结果网

  

<<

  议程<

  概述<

  检索词<

  用户的信息需求<

  网页的自有信息<

  网页的附属信息<

  相关性的计算框架<

  概述<

  相关性的表象<

  检索词与被检索网页的相关联程度<

  相关性的真实意义<

  用户信息需求与结果网页所提供的信息的重合度<

  相关性涉及的因素<

  检索词<

  用户信息需求<

  网页自有信息<

  网页附属信息<

  检索结果的显示方式<

  网页与普通文本的不同:异质性<

  来源不单一<

  新闻记者<

  研究人员<

  商业人士<

  个人<

  用途不单一<

  新闻<

  商业及产品信息<

  个人爱好<

  娱乐信息<

  研究及学术信息<

  产生方式多样化<

  手工及发布系统<

  动态与静态<

  时效性:不同时间产生<

  动态性:可随时间变化<

  欺骗与造假<

  检索词<

  语义<

  实体名<

  人名<

  地名<

  公司及机构名<

  商品及服务名<

  其他专有名词名<

  普通名词<

  其他类别名<

  其他<

  信息格式<

  语种<

  结构化,非结构化<

  信息类别<

  研究信息<

  商品及服务信息<

  宗教文化<

  娱乐信息<

  新闻<

  个人信息<

  检索词格式<

  数值<

  布尔运算(AND, OR, NOT)<

  特殊语法(网站检索,类别检索,filetype,linkto)<

  Rank Quey<

  检索词 - 相关性处理<

  实体名的判定用于网站首页加权<

  检索词分类用于与网站网页分类结合加权<

  信息类别的分类与统计<

  行业与地域的分类与统计<

  检索格式的分析<

  单语素与多语素<

  AND检索的研究<

  网页分类两种体系<

  按网页结构信息分类(主页,频道页,检索页,错误页,租用页…)<

  按网页内容主题分类(体育,保健,娱乐,教育..)<

  用户的信息需求<

  检索任务的多样性<

  确定的特定信息的查询<

  知识获取式的浏览<

  目的不明确的浏览:在过程中形成目的<

  检索词的语义多样性<

  检索范围的不确定性<

  信息种类<

  行业,地域,等等<

  检索成功的标准不一<

  实体名,有特定网站,- 导航型查询<

  实体名,无特定网站,有相关网站 - 事务型查询<

  一般信息,无网站信息,许多网页提及 - 信息型查询<

  一般信息,无网站信息,很少网页提及 - 信息型查询<

  个人知识结构与兴趣<

  个人的信息精确性和多样性要求程度<

  用户的信息需求- 相关性设计<

  结果首页尽量显示多个类型的网页<

  功能,多分类和垂直搜索结果整合设计<

  个性化排序设计<

  检索日志的后台分析<

  用户行为数据挖掘<

  网页的自有信息(属性)<

  文本信息:字,词,短语,句子,段落,篇章<

  文本特征信息<

  标题<

  正文<

  文章长度<

  知识量<

  其他特征:黑体,链接,等等<

  结构信息<

  导航(一级导航,二级导航。。。)<

  广告(文字链,banne)<

  图片<

  引用(博客,论坛),<

  版权说明等等<

  语义信息<

  文章类型:综述/细节,新闻,科技与研究,个人,特种文件链接<

  地域信息<

  行业信息<

  语种信息<

  网页的自有信息 - 相关性设计<

  切词一致性与准确性<

  正文内容的歧义消解,未登录词识别<

  查询词切分和正文切分的一致性问题处理<

  文本特征提取与权重指定<

  标题的准确性<

  标题提取规则:URL,标题等<

  实际标题<

  标题的真实性<

  标题长度截取<

  标题验证去除人工错误<

  标题作弊判别<

  无正文的标题处理<

  正文的准确性<

  广告文字<

  网页模板文字<

  ifame处理<

  js 内容处理<

  正文的真实性<

  语义tag的引入<

  特征tag的权重和调整<

  文章长度的调整系数<

  对超长文章的修正<

  DOC,PPT,PDF处理<

  网页的自有信息 - 相关性设计<

  结构信息提取与处理<

  首页和频道首页的识别和标记,将使用网站PR<

  导航区的统计,识别和标记<

  用于首页识别,链接将不参与PR及外部锚文本的计算<

  网站附属页的统计,识别和标记<

  赋予网站相关的PR, 链接将不参与PR及外部锚文本的计算<

  广告链接的统计,识别和标记,将不参与PR及外部锚文本的计算<

  内容分析<

  通过特征统计结合手工方式进行网站分类<

  文章类型信息:新闻页的特殊标记<

  地域信息<

  行业及其他分类信息<

  中英文比例调整<

  网页的附属信息(属性)<

  网页本身的附属信息<

  URL:长度与级数,动态与静态<

  产生时间<

  网页文件大小<

  可连接程度<

  连通率<

  死链情况<

  内容的稳定性:<

  更新周期<

  生命周期<

  所属域名及网站特性<

  类别<

  权威性<

  网页由环境所产生的附属信息<

  在网站内的重要性:首页,频道,外部被链接数量<

  全局权威性:被别人的认可程度<

  时效性:距今时间<

  真实性:实际内容信息与文本和附属信息的吻合度<

  重复性:与其他网页内容的重合度<

  信息内容和质量:别人对内容的认可程度<

  用户的评价<

  深度和广度<

  网页的附属信息-相关性处理<

  时间信息参与排序<

  新闻页的倒排: 强影响<

  网页的时间因素:弱影响<

  不影响首页和频道首页<

  连通率与更新率参与排序<

  弱连通的减权<

  死链的减权<

  更新频度参与减权<

  网站特性<

  网站分类与检索词的吻合提高相关性<

  网站真实性参与相关性计算:<

  作弊连接网站的黑名单(Link Fam)<

  TickRank<

  网站重要性:<

  网站DR(Domain Rank)<

  Block PR<

  计算站内PR,网站分别计算<

  计算站外PR,不考虑站内链接<

  排重和保留<

  镜像列表: PR和外部锚文本的传递<

  首页排重规则<

  内容排重规则<

  跳转的类型和规则: PR和外部锚文本的传递<

  外部锚文本的真实性<

  链接交换网站黑名单<

  正文验证去躁<

  相关性的计算框架<

  主要设计模式<

  有公式-相关性排序<

  无公式人工神经网络(MLR)<

  针对检索词和用户信息需求综合分析确定策略<

  人工和程序结合提高网页自有信息的提取和处理能力<

  提高锚文本包含的词质量,防止作弊<

  PR,DR,TR结合,提高网页权威性判定质量,保证首页,索引页靠前<

  增加网页附属信息参与排序<

  增加各因素之间的交叉验证<

  对部分高频词做手工调整(homony)<

  相关性排序的周边技术<

  下载<

  正文分析<

  切词<

  手工与程序分类<

  PR,DR,TR计算<

  锚文本词处理<

  遗传算法训练排序因子<

  • 132
    A+
发布日期:2019年09月07日  所属分类: Seo进阶