python筛选seo相似词_叠词_分词重复

ernestwang 2020-04-16 1865 1

python筛选seo相似词叠词分词重复,众所周知，在建设词库的时候，会采集到很多，叠词，和分词重复的词，这类的词，聚合页，往往搜索的结果是一致的，造成重复页面，怎么去掉这类的词，成了比较困难的问题，所以小编写了下面的一个小小的脚本解决这个问题。

import jieba
for line in open('cibiao','urllist+',encoding='utf-8'):
  seg_list = jieba.cut(line.strip())
  list1=list(seg_list)
  print(list1)
  list2=list(set(list1))
  list2.sort(key=list1.index)
  print(list2)
  if len(list1)==2 and list1 !=list2:
      print(list1,list2)
      with open('dieci.txt', 'a+', encoding='utf8')as f:
        f.writelines(str(list1[0].strip())+str(list2[0].strip()+'\n'))

ps,词库量超过十万，不建议用这个低级的脚本，因为七万的词，跑了将近两天才跑完，如果大家有更好的关于python筛选seo相似词叠词分词重复的解决方案，请于下方留言。

标签： python分词 Python和seo