• 第九周进度


    本周内容

    1. 统一景点名称:尝试在爬取的时候将一些特定的景点进行替换,但是由于景点的名词没有统一的,需要自己定义
             困难:需要找需要替换的景点的词库,还有曾用名,暂时还没有找到,还没思路
    
    2. 划分景点内容:目的是将游记根据景点进行划分,将关于每个景点的描述,对应到对应的景点。
            尝试的方法:
                1. 根据景点词频划分
                2. 根据行词频划分
                3. 根据句子的相似度划分
                4. 根据景点出现的行数,选取某两个行中间的所有行
            困难:
                1. 游记文章的格式太随意,没有一定的格式。
                2. 有的两行文字都是描述一个景点,但是上边那行出现景点,下边虽然也是描述同一个景点,但是没有出现这个名词,导致景点描述不全
                3. 如果只是简单地取两个取地点出现的段落,图片的链接会添加不上去
    
     3. 爬取的游记虽然都是关于杭州的,但是其中还是会夹杂着一些其他地方的游记,这个在提取的时候遇到的问题跟第二个差不多,还是在游记中切分的问题
  • 相关阅读:
    Advanced Configuration Tricks
    Reviewing the Blog Module
    Editing and Deleting Data
    Making Use of Forms and Fieldsets
    Understanding the Router
    SQL Abstraction and Object Hydration
    Preparing for Different Databases
    Java学习理解路线图
    Openstack学习历程_1_视频
    CentOS安装Nginx负载
  • 原文地址:https://www.cnblogs.com/Zhanghaonihao/p/9982249.html
Copyright © 2020-2023  润新知