python筛选seo相似词_叠词_分词重复

ernestwang 4 0

python筛选seo相似词叠词分词重复,众所周知,在建设词库的时候,会采集到很多,叠词,和分词重复的词,这类的词,聚合页,往往搜索的结果是一致的,造成重复页面,怎么去掉这类的词,成了比较困难的问题,所以小编写了下面的一个小小的脚本解决这个问题。

import jieba
for line in open('cibiao','urllist+',encoding='utf-8'):
  seg_list = jieba.cut(line.strip())
  list1=list(seg_list)
  print(list1)
  list2=list(set(list1))
  list2.sort(key=list1.index)
  print(list2)
  if len(list1)==2 and list1 !=list2:
      print(list1,list2)
      with open('dieci.txt', 'a+', encoding='utf8')as f:
        f.writelines(str(list1[0].strip())+str(list2[0].strip()+'\n'))

ps,词库量超过十万,不建议用这个低级的脚本,因为七万的词,跑了将近两天才跑完,如果大家有更好的关于python筛选seo相似词叠词分词重复的解决方案,请于下方留言。

标签: python分词 Python和seo

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~