• python对读取的文件内容进行分词


      分词,即将连续的字序列按照一定的规范重新组合成词序列的过程,它是一种自然语言处理技术,这里的分词指中文分词,其本质是提取一个字符串中的词组或者字。

    其详细代码非常简单,如下:

    #导入jieba分词模块
    import jieba
    #记录输入的文件路径
    filepath = input('请输入要读取的文件:')
    #打开文件
    with open(filepath,encoding='utf-8') as f:
    #读取文件内容并分词
    words = jieba.lcut(f.read())
    #替换换行符
    print(words)

    结果:

    ['1', '.', '', '代码', '行数', '', '评估', '程序', '', '开发进度', '', '', '好比', '', '重量', '', '评估', '一个', '飞机', '', '建造', '进度', '
    ', '2', '.', '程序', '不是', '年轻', '', '专利', '', '但是', '', '', '属于', '年轻', '
    ', '3', '.', '作为', '一个', '程序员', '', '郁闷', '', '事情', '', '', '面对', '一个', '代码', '', '', '', '不敢', '', '修改', '', '', '糟糕', '', '', '', '这个', '代码', '', '还是', '自己', '', '']

  • 相关阅读:
    队列01--[队列&双端队列&循环队列&双端循环队列]
    LeetCode--[栈]--不定时更新
    栈01--[栈接口设计&&栈应用]
    初等数论初步
    成外国庆集训小记
    图论算法初步
    Are Lights Still On?
    二分答案和三分入门
    SCOI2010 传送带
    微信小程序 菜鸟笔记
  • 原文地址:https://www.cnblogs.com/xiao02fang/p/12853685.html
Copyright © 2020-2023  润新知