python筛选seo相似词_叠词_分词重复

    站长原创 wuya 311次浏览 已收录 0个评论

    python筛选seo相似词叠词分词重复,众所周知,在建设词库的时候,会采集到很多,叠词,和分词重复的词,这类的词,聚合页,往往搜索的结果是一致的,造成重复页面,怎么去掉这类的词,成了比较困难的问题,所以小编写了下面的一个小小的脚本解决这个问题。

    import jieba
    for line in open('cibiao','urllist+',encoding='utf-8'):
      seg_list = jieba.cut(line.strip())
      list1=list(seg_list)
      print(list1)
      list2=list(set(list1))
      list2.sort(key=list1.index)
      print(list2)
      if len(list1)==2 and list1 !=list2:
          print(list1,list2)
          with open('dieci.txt', 'a+', encoding='utf8')as f:
            f.writelines(str(list1[0].strip())+str(list2[0].strip()+'\n'))
    
    

    ps,词库量超过十万,不建议用这个低级的脚本,因为七万的词,跑了将近两天才跑完,如果大家有更好的关于python筛选seo相似词叠词分词重复的解决方案,请于下方留言。


    学海无涯 , 版权所有丨如未注明 , 均为原创丨转载请注明python筛选seo相似词_叠词_分词重复
    喜欢 (0)
    发表我的评论
    取消评论
    表情 加粗 删除线 居中 斜体 签到

    Hi,您需要填写昵称和邮箱!

    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址