GoGo闯:页面自动生成机制

    经典理论 wuya 2882次浏览 已收录 0个评论

    今天分享一篇GoGo闯大哥的一篇关于:页面自动生成机制的文章。

    页面自动生成机制,只的是从“导词-上线-调优”的整个过程,机器自动生成,人工辅助调参的。适用于拥有大数据量的站点。而且很久之前就有人在用了,算是古老的套路了。

    废话不多说。直接上内容:

    下面是“页面自动生成机制”的流程:

    关键词导入模块

    GoGo闯:页面自动生成机制
    1. 从各种渠道拉出一批行业词根
    2. 围绕这些词根去挖词
    3. 挖出的词,过滤掉涉嫌违禁、擦边、敏感、自定义黑名单、重复的词
    4. 因为各种扩词渠道,扩出的词可能与所属词根,完全不相关。所以需要计算一下扩展词与对应词根的字符串相似度,相似度高的,则为同一类词。比如 “奥迪二手车价格” 的扩展词有 “5万以内二手车
      ” 和 “奔驰二手车价格”;“奥迪二手车价格”与“奔驰二手车”的相似值为:0.71875
       “奥迪二手车价格”与“5万以内二手车”的相似值为:0.3750相似值>=0.45的为同类词,则“奥迪二手车价格”与“奔驰二手车”是相关的,“奥迪二手车价格”与“5万以内二手车”是不相关的。
    5. 相关且有搜索量的词,进入该行业频道的词表,生成的页面给予最大的资源支持;相关但无搜索量的,给予较小的资源支持;不相关但有搜索量的,进入初始搜索词表,该词不归属于任何一个行业;不相关还没搜索量的,直接删除。
    6. 初始搜索词表中的词,依次通过相似度计算出与该词最相关的N个搜索词,作为“相关推荐”板块的链接调用的逻辑。

    内容获取模块

    GoGo闯:页面自动生成机制
    1. 针对行业频道词表的词,依次抓取每个关键词的相关信息,信息来源如抓取各类搜索引擎搜索结果的正文、各类门户搜索结果的正文等等
    2. 过滤掉涉嫌违禁、擦边、敏感、自定义黑名单、重复的内容
    3. 剩余内容写入内容数据表

    页面生成模块

    GoGo闯:页面自动生成机制

    不同类型站点,页面自动生成机制的模型不同,本渣渣用过仅是“纯信息展示”类的站点。

    如果网站是一个多边产品,那在模型的设计上需要考虑更多的因素,比如涉及B端和C端的平台产品,SEO页面的设计上还需要考虑对B端流量分发均衡的情况等。

    页面自动生成机制 :过滤相关性 长文本通过simhash算法有很好的效果 长尾关键词是短文本不知道用的什么算法?相似性查找可以通过word2vec 算法找相似关键词或者doc2vec 找相似相关短句 但是前提需要自己训练行业的语料库 。


    学海无涯 , 版权所有丨如未注明 , 均为原创丨转载请注明GoGo闯:页面自动生成机制
    喜欢 (0)
    发表我的评论
    取消评论
    表情 加粗 删除线 居中 斜体 签到

    Hi,您需要填写昵称和邮箱!

    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址