• python jieba分词(添加停用词,用户字典 取词频


    中文分词一般使用jieba分词

    1.安装

    1 pip install jieba

    2.大致了解jieba分词

    包括jieba分词的3种模式 

    全模式

    1 import jieba
    2 
    3 seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False)
    4 print("Full Mode: " + "/ ".join(seg_list))  # 全模式

    精准模式

    1 import jieba
    2 
    3 seg_list = jieba.cut("我来到北京清华大学", cut_all=False, HMM=True)
    4 print("Default Mode: " + "/ ".join(seg_list))  # 精准模式

    搜索引擎模式

    1 import jieba
    2 
    3 seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造", HMM=False)  # 搜索引擎模式
    4 print(", ".join(seg_list))

    2.解决问题

    一般只调用分词的话会出现几个问题 

    一是会出现各种我们不需要的东西像

    # [] () 的 个 些

    这些东西都属于停用词 都不必去获取这些东西

    我们只需要把他剔除就可以了

    停用词包括

       1 http
       2 回复
       3 !
       4 "
       5 #
       6 $
       7 %
       8 &
       9 '
      10 (
      11 )
      12 *
      13 +
      14 ,
      15 -
      16 --
      17 .
      18 ..
      19 ...
      20 ......
      21 ...................
      22 ./
      23 .一
      24 .数
      25 .日
      26 /
      27 //
      28 0
      29 1
      30 2
      31 3
      32 4
      33 5
      34 6
      35 7
      36 8
      37 9
      38 :
      39 ://
      40 ::
      41 ;
      42 <
      43 =
      44 >
      45 >>
      46 ?
      47 @
      48 A
      49 Lex
      50 [
      51 
      52 ]
      53 ^
      54 _
      55 `
      56 exp
      57 sub
      58 sup
      59 |
      60 }
      61 ~
      62 ~~~~
      63 ·
      64 ×
      65 ×××
      66 Δ
      67 Ψ
      68 γ
      69 μ
      70 φ
      71 φ.
      72 В
      73   74 ——
      75 ———
      76   77   78 ’‘
      79   80   81 ”,
      82   83 ……
      84 …………………………………………………③
      85 ′∈
      86 ′|
      87   88   89   90   91 ∈[
      92 ∪φ∈
      93   94   95   96 ②c
      97   98 ③]
      99  100  101  102  103  104  105  106 ──
     107  108  109  
     110  111  112  113  114  115  116 》),
     117  118  119  120  121  122  123  124 〕〔
     125  126  127 一.
     128 一一
     129 一下
     130 一个
     131 一些
     132 一何
     133 一切
     134 一则
     135 一则通过
     136 一天
     137 一定
     138 一方面
     139 一旦
     140 一时
     141 一来
     142 一样
     143 一次
     144 一片
     145 一番
     146 一直
     147 一致
     148 一般
     149 一起
     150 一转眼
     151 一边
     152 一面
     153  154 万一
     155  156 三天两头
     157 三番两次
     158 三番五次
     159  160 上下
     161 上升
     162 上去
     163 上来
     164 上述
     165 上面
     166  167 下列
     168 下去
     169 下来
     170 下面
     171  172 不一
     173 不下
     174 不久
     175 不了
     176 不亦乐乎
     177 不仅
     178 不仅...而且
     179 不仅仅
     180 不仅仅是
     181 不会
     182 不但
     183 不但...而且
     184 不光
     185 不免
     186 不再
     187 不力
     188 不单
     189 不变
     190 不只
     191 不可
     192 不可开交
     193 不可抗拒
     194 不同
     195 不外
     196 不外乎
     197 不够
     198 不大
     199 不如
     200 不妨
     201 不定
     202 不对
     203 不少
     204 不尽
     205 不尽然
     206 不巧
     207 不已
     208 不常
     209 不得
     210 不得不
     211 不得了
     212 不得已
     213 不必
     214 不怎么
     215 不怕
     216 不惟
     217 不成
     218 不拘
     219 不择手段
     220 不敢
     221 不料
     222 不断
     223 不日
     224 不时
     225 不是
     226 不曾
     227 不止
     228 不止一次
     229 不比
     230 不消
     231 不满
     232 不然
     233 不然的话
     234 不特
     235 不独
     236 不由得
     237 不知不觉
     238 不管
     239 不管怎样
     240 不经意
     241 不胜
     242 不能
     243 不能不
     244 不至于
     245 不若
     246 不要
     247 不论
     248 不起
     249 不足
     250 不过
     251 不迭
     252 不问
     253 不限
     254  255 与其
     256 与其说
     257 与否
     258 与此同时
     259 专门
     260  261 且不说
     262 且说
     263 两者
     264 严格
     265 严重
     266  267 个人
     268 个别
     269 中小
     270 中间
     271 丰富
     272 串行
     273  274 临到
     275  276 为主
     277 为了
     278 为什么
     279 为什麽
     280 为何
     281 为止
     282 为此
     283 为着
     284 主张
     285 主要
     286 举凡
     287 举行
     288  289 乃至
     290 乃至于
     291  292  293 之一
     294 之前
     295 之后
     296 之後
     297 之所以
     298 之类
     299 乌乎
     300  301  302  303 乘势
     304 乘机
     305 乘胜
     306 乘虚
     307 乘隙
     308  309  310 也好
     311 也就是说
     312 也是
     313 也罢
     314  315 了解
     316 争取
     317  318 二来
     319 二话不说
     320 二话没说
     321  322 于是
     323 于是乎
     324 云云
     325 云尔
     326  327 互相
     328  329  330 交口
     331  332 产生
     333 亲口
     334 亲手
     335 亲眼
     336 亲自
     337 亲身
     338  339 人人
     340 人们
     341 人家
     342 人民
     343 什么
     344 什么样
     345 什麽
     346  347 仅仅
     348  349 今后
     350 今天
     351 今年
     352 今後
     353 介于
     354  355 仍旧
     356 仍然
     357  358 从不
     359 从严
     360 从中
     361 从事
     362 从今以后
     363 从优
     364 从古到今
     365 从古至今
     366 从头
     367 从宽
     368 从小
     369 从新
     370 从无到有
     371 从早到晚
     372 从未
     373 从来
     374 从此
     375 从此以后
     376 从而
     377 从轻
     378 从速
     379 从重
     380  381 他人
     382 他们
     383 他是
     384 他的
     385 代替
     386  387 以上
     388 以下
     389 以为
     390 以便
     391 以免
     392 以前
     393 以及
     394 以后
     395 以外
     396 以後
     397 以故
     398 以期
     399 以来
     400 以至
     401 以至于
     402 以致
     403  404  405 任何
     406 任凭
     407 任务
     408 企图
     409 伙同
     410  411 伟大
     412  413 传说
     414 传闻
     415 似乎
     416 似的
     417  418 但凡
     419 但愿
     420 但是
     421  422 何乐而不为
     423 何以
     424 何况
     425 何处
     426 何妨
     427 何尝
     428 何必
     429 何时
     430 何止
     431 何苦
     432 何须
     433 余外
     434 作为
     435  436 你们
     437 你是
     438 你的
     439 使
     440 使得
     441 使用
     442 例如
     443  444 依据
     445 依照
     446 依靠
     447 便
     448 便于
     449 促进
     450 保持
     451 保管
     452 保险
     453  454 俺们
     455 倍加
     456 倍感
     457 倒不如
     458 倒不如说
     459 倒是
     460  461 倘使
     462 倘或
     463 倘然
     464 倘若
     465  466 借以
     467 借此
     468 假使
     469 假如
     470 假若
     471 偏偏
     472 做到
     473 偶尔
     474 偶而
     475 傥然
     476  477  478 允许
     479 元/吨
     480 充其极
     481 充其量
     482 充分
     483 先不先
     484 先后
     485 先後
     486 先生
     487  488 光是
     489 全体
     490 全力
     491 全年
     492 全然
     493 全身心
     494 全部
     495 全都
     496 全面
     497  498 八成
     499 公然
     500  501  502  503 共同
     504 共总
     505 关于
     506  507 其一
     508 其中
     509 其二
     510 其他
     511 其余
     512 其后
     513 其它
     514 其实
     515 其次
     516 具体
     517 具体地说
     518 具体来说
     519 具体说来
     520 具有
     521 兼之
     522  523  524 再其次
     525 再则
     526 再有
     527 再次
     528 再者
     529 再者说
     530 再说
     531  532  533 决不
     534 决定
     535 决非
     536 况且
     537 准备
     538 凑巧
     539 凝神
     540  541 几乎
     542 几度
     543 几时
     544 几番
     545 几经
     546  547 凡是
     548  549 凭借
     550  551 出于
     552 出去
     553 出来
     554 出现
     555 分别
     556 分头
     557 分期
     558 分期分批
     559  560 切不可
     561 切切
     562 切勿
     563 切莫
     564  565 则甚
     566  567 刚好
     568 刚巧
     569 刚才
     570  571  572 别人
     573 别处
     574 别是
     575 别的
     576 别管
     577 别说
     578  579 到了儿
     580 到处
     581 到头
     582 到头来
     583 到底
     584 到目前为止
     585 前后
     586 前此
     587 前者
     588 前进
     589 前面
     590 加上
     591 加之
     592 加以
     593 加入
     594 加强
     595 动不动
     596 动辄
     597 勃然
     598 匆匆
     599 十分
     600  601 千万
     602 千万千万
     603  604  605 单单
     606 单纯
     607  608 即令
     609 即使
     610 即便
     611 即刻
     612 即如
     613 即将
     614 即或
     615 即是说
     616 即若
     617  618 却不
     619  620 原来
     621  622  623 又及
     624  625 及其
     626 及时
     627 及至
     628 双方
     629 反之
     630 反之亦然
     631 反之则
     632 反倒
     633 反倒是
     634 反应
     635 反手
     636 反映
     637 反而
     638 反过来
     639 反过来说
     640 取得
     641 取道
     642 受到
     643 变成
     644 古来
     645  646 另一个
     647 另一方面
     648 另外
     649 另悉
     650 另方面
     651 另行
     652  653 只当
     654 只怕
     655 只是
     656 只有
     657 只消
     658 只要
     659 只限
     660  661 叫做
     662 召开
     663 叮咚
     664 叮当
     665  666 可以
     667 可好
     668 可是
     669 可能
     670 可见
     671  672 各个
     673 各人
     674 各位
     675 各地
     676 各式
     677 各种
     678 各级
     679 各自
     680 合理
     681  682 同一
     683 同时
     684 同样
     685  686 后来
     687 后者
     688 后面
     689  690 向使
     691 向着
     692  693  694 否则
     695  696 吧哒
     697  698  699  700 呆呆地
     701  702  703  704  705 呜呼
     706  707 周围
     708  709 呵呵
     710  711 呼哧
     712 呼啦
     713  714  715  716  717  718  719 咱们
     720  721  722  723 哈哈
     724  725  726 哎呀
     727 哎哟
     728  729 哗啦
     730  731  732  733  734 哪个
     735 哪些
     736 哪儿
     737 哪天
     738 哪年
     739 哪怕
     740 哪样
     741 哪边
     742 哪里
     743  744 哼唷
     745  746 唯有
     747  748 啊呀
     749 啊哈
     750 啊哟
     751  752  753  754 啪达
     755 啷当
     756  757  758  759 喔唷
     760  761  762 嗡嗡
     763  764  765  766  767 嘎嘎
     768 嘎登
     769  770  771  772  773 嘿嘿
     774  775  776 因为
     777 因了
     778 因此
     779 因着
     780 因而
     781  782 固然
     783  784 在下
     785 在于
     786  787  788 坚决
     789 坚持
     790 基于
     791 基本
     792 基本上
     793 处在
     794 处处
     795 处理
     796 复杂
     797  798 多么
     799 多亏
     800 多多
     801 多多少少
     802 多多益善
     803 多少
     804 多年前
     805 多年来
     806 多数
     807 多次
     808 够瞧的
     809  810 大不了
     811 大举
     812 大事
     813 大体
     814 大体上
     815 大凡
     816 大力
     817 大多
     818 大多数
     819 大大
     820 大家
     821 大张旗鼓
     822 大批
     823 大抵
     824 大概
     825 大略
     826 大约
     827 大致
     828 大都
     829 大量
     830 大面儿上
     831 失去
     832  833  834 奋勇
     835  836 她们
     837 她是
     838 她的
     839  840 好在
     841 好的
     842 好象
     843  844 如上
     845 如上所述
     846 如下
     847 如今
     848 如何
     849 如其
     850 如前所述
     851 如同
     852 如常
     853 如是
     854 如期
     855 如果
     856 如次
     857 如此
     858 如此等等
     859 如若
     860 始而
     861 姑且
     862 存在
     863 存心
     864 孰料
     865 孰知
     866  867 宁可
     868 宁愿
     869 宁肯
     870  871 它们
     872 它们的
     873 它是
     874 它的
     875 安全
     876 完全
     877 完成
     878  879 实现
     880 实际
     881 宣布
     882 容易
     883 密切
     884  885 对于
     886 对应
     887 对待
     888 对方
     889 对比
     890  891 将才
     892 将要
     893 将近
     894  895 少数
     896  897 尔后
     898 尔尔
     899 尔等
     900 尚且
     901 尤其
     902  903 就地
     904 就是
     905 就是了
     906 就是说
     907 就此
     908 就算
     909 就要
     910  911 尽可能
     912 尽如人意
     913 尽心尽力
     914 尽心竭力
     915 尽快
     916 尽早
     917 尽然
     918 尽管
     919 尽管如此
     920 尽量
     921 局外
     922 居然
     923 届时
     924 属于
     925  926 屡屡
     927 屡次
     928 屡次三番
     929  930 岂但
     931 岂止
     932 岂非
     933 川流不息
     934 左右
     935 巨大
     936 巩固
     937 差一点
     938 差不多
     939  940  941 已矣
     942 已经
     943  944 巴巴
     945  946 帮助
     947  948 常常
     949 常言说
     950 常言说得好
     951 常言道
     952 平素
     953 年复一年
     954  955 并不
     956 并不是
     957 并且
     958 并排
     959 并无
     960 并没
     961 并没有
     962 并肩
     963 并非
     964 广大
     965 广泛
     966 应当
     967 应用
     968 应该
     969 庶乎
     970 庶几
     971 开外
     972 开始
     973 开展
     974 引起
     975  976 弹指之间
     977 强烈
     978 强调
     979  980 归根到底
     981 归根结底
     982 归齐
     983  984 当下
     985 当中
     986 当儿
     987 当前
     988 当即
     989 当口儿
     990 当地
     991 当场
     992 当头
     993 当庭
     994 当时
     995 当然
     996 当真
     997 当着
     998 形成
     999 彻夜
    1000 彻底
    1001 1002 彼时
    1003 彼此
    1004 1005 往往
    1006 1007 待到
    1008 1009 很多
    1010 很少
    1011 後来
    1012 後面
    1013 1014 得了
    1015 得出
    1016 得到
    1017 得天独厚
    1018 得起
    1019 心里
    1020 1021 必定
    1022 必将
    1023 必然
    1024 必要
    1025 必须
    1026 1027 快要
    1028 忽地
    1029 忽然
    1030 1031 怎么
    1032 怎么办
    1033 怎么样
    1034 怎奈
    1035 怎样
    1036 怎麽
    1037 1038 急匆匆
    1039 1040 怪不得
    1041 总之
    1042 总是
    1043 总的来看
    1044 总的来说
    1045 总的说来
    1046 总结
    1047 总而言之
    1048 恍然
    1049 恐怕
    1050 恰似
    1051 恰好
    1052 恰如
    1053 恰巧
    1054 恰恰
    1055 恰恰相反
    1056 恰逢
    1057 1058 您们
    1059 您是
    1060 惟其
    1061 惯常
    1062 意思
    1063 愤然
    1064 愿意
    1065 慢说
    1066 成为
    1067 成年
    1068 成年累月
    1069 成心
    1070 1071 我们
    1072 我是
    1073 我的
    1074 1075 或则
    1076 或多或少
    1077 或是
    1078 或曰
    1079 或者
    1080 或许
    1081 战斗
    1082 截然
    1083 截至
    1084 1085 所以
    1086 所在
    1087 所幸
    1088 所有
    1089 所谓
    1090 1091 才能
    1092 扑通
    1093 1094 打从
    1095 打开天窗说亮话
    1096 扩大
    1097 1098 抑或
    1099 抽冷子
    1100 拦腰
    1101 1102 1103 按时
    1104 按期
    1105 按照
    1106 按理
    1107 按说
    1108 挨个
    1109 挨家挨户
    1110 挨次
    1111 挨着
    1112 挨门挨户
    1113 挨门逐户
    1114 换句话说
    1115 换言之
    1116 1117 据实
    1118 据悉
    1119 据我所知
    1120 据此
    1121 据称
    1122 据说
    1123 掌握
    1124 接下来
    1125 接着
    1126 接著
    1127 接连不断
    1128 放量
    1129 1130 故意
    1131 故此
    1132 故而
    1133 敞开儿
    1134 1135 敢于
    1136 敢情
    1137 数/
    1138 整个
    1139 断然
    1140 1141 方便
    1142 方才
    1143 方能
    1144 方面
    1145 旁人
    1146 1147 无宁
    1148 无法
    1149 无论
    1150 1151 既...又
    1152 既往
    1153 既是
    1154 既然
    1155 日复一日
    1156 日渐
    1157 日益
    1158 日臻
    1159 日见
    1160 时候
    1161 昂然
    1162 明显
    1163 明确
    1164 1165 是不是
    1166 是以
    1167 是否
    1168 是的
    1169 显然
    1170 显著
    1171 普通
    1172 普遍
    1173 暗中
    1174 暗地里
    1175 暗自
    1176 1177 更为
    1178 更加
    1179 更进一步
    1180 1181 曾经
    1182 1183 替代
    1184 1185 最后
    1186 最大
    1187 最好
    1188 最後
    1189 最近
    1190 最高
    1191 1192 有些
    1193 有关
    1194 有利
    1195 有力
    1196 有及
    1197 有所
    1198 有效
    1199 有时
    1200 有点
    1201 有的
    1202 有的是
    1203 有着
    1204 有著
    1205 1206 1207 朝着
    1208##末
    1209 1210 本人
    1211 本地
    1212 本着
    1213 本身
    1214 权时
    1215 1216 来不及
    1217 来得及
    1218 来看
    1219 来着
    1220 来自
    1221 来讲
    1222 来说
    1223 1224 极为
    1225 极了
    1226 极其
    1227 极力
    1228 极大
    1229 极度
    1230 极端
    1231 构成
    1232 果然
    1233 果真
    1234 1235 某个
    1236 某些
    1237 某某
    1238 根据
    1239 根本
    1240 格外
    1241 1242 1243 次第
    1244 欢迎
    1245 1246 正值
    1247 正在
    1248 正如
    1249 正巧
    1250 正常
    1251 正是
    1252 1253 此中
    1254 此后
    1255 此地
    1256 此处
    1257 此外
    1258 此时
    1259 此次
    1260 此间
    1261 1262 毋宁
    1263 1264 每个
    1265 每天
    1266 每年
    1267 每当
    1268 每时每刻
    1269 每每
    1270 每逢
    1271 1272 比及
    1273 比如
    1274 比如说
    1275 比方
    1276 比照
    1277 比起
    1278 比较
    1279 毕竟
    1280 毫不
    1281 毫无
    1282 毫无例外
    1283 毫无保留地
    1284 1285 沙沙
    1286 1287 没奈何
    1288 没有
    1289 沿
    1290 沿着
    1291 注意
    1292 1293 深入
    1294 清楚
    1295 1296 满足
    1297 漫说
    1298 1299 1300 然则
    1301 然后
    1302 然後
    1303 然而
    1304 1305 照着
    1306 牢牢
    1307 特别是
    1308 特殊
    1309 特点
    1310 犹且
    1311 犹自
    1312 1313 独自
    1314 猛然
    1315 猛然间
    1316 率尔
    1317 率然
    1318 现代
    1319 现在
    1320 理应
    1321 理当
    1322 理该
    1323 瑟瑟
    1324 甚且
    1325 甚么
    1326 甚或
    1327 甚而
    1328 甚至
    1329 甚至于
    1330 1331 用来
    1332 1333 1334 1335 由于
    1336 由是
    1337 由此
    1338 由此可见
    1339 1340 略为
    1341 略加
    1342 略微
    1343 1344 白白
    1345 1346 的确
    1347 的话
    1348 皆可
    1349 目前
    1350 直到
    1351 直接
    1352 相似
    1353 相信
    1354 相反
    1355 相同
    1356 相对
    1357 相对而言
    1358 相应
    1359 相当
    1360 相等
    1361 省得
    1362 1363 看上去
    1364 看出
    1365 看到
    1366 看来
    1367 看样子
    1368 看看
    1369 看见
    1370 看起来
    1371 真是
    1372 真正
    1373 眨眼
    1374 1375 着呢
    1376 1377 矣乎
    1378 矣哉
    1379 知道
    1380 1381 确定
    1382 碰巧
    1383 社会主义
    1384 1385 1386 积极
    1387 移动
    1388 究竟
    1389 穷年累月
    1390 突出
    1391 突然
    1392 1393 1394 立刻
    1395 立即
    1396 立地
    1397 立时
    1398 立马
    1399 1400 竟然
    1401 竟而
    1402 1403 第二
    1404 1405 等到
    1406 等等
    1407 策略地
    1408 简直
    1409 简而言之
    1410 简言之
    1411 1412 类如
    1413 1414 精光
    1415 紧接着
    1416 累年
    1417 累次
    1418 1419 纯粹
    1420 1421 纵令
    1422 纵使
    1423 纵然
    1424 练习
    1425 组成
    1426 1427 经常
    1428 经过
    1429 结合
    1430 结果
    1431 1432 1433 绝不
    1434 绝对
    1435 绝非
    1436 绝顶
    1437 继之
    1438 继后
    1439 继续
    1440 继而
    1441 维持
    1442 综上所述
    1443 缕缕
    1444 罢了
    1445 1446 老大
    1447 老是
    1448 老老实实
    1449 考虑
    1450 1451 1452 而且
    1453 而况
    1454 而又
    1455 而后
    1456 而外
    1457 而已
    1458 而是
    1459 而言
    1460 而论
    1461 联系
    1462 联袂
    1463 背地里
    1464 背靠背
    1465 1466 能否
    1467 能够
    1468 1469 1470 自个儿
    1471 自从
    1472 自各儿
    1473 自后
    1474 自家
    1475 自己
    1476 自打
    1477 自身
    1478 1479 1480 至于
    1481 至今
    1482 至若
    1483 1484 般的
    1485 良好
    1486 1487 若夫
    1488 若是
    1489 若果
    1490 若非
    1491 范围
    1492 1493 莫不
    1494 莫不然
    1495 莫如
    1496 莫若
    1497 莫非
    1498 获得
    1499 藉以
    1500 1501 虽则
    1502 虽然
    1503 虽说
    1504 1505 行为
    1506 行动
    1507 表明
    1508 表示
    1509 1510 1511 要不
    1512 要不是
    1513 要不然
    1514 要么
    1515 要是
    1516 要求
    1517 1518 规定
    1519 觉得
    1520 譬喻
    1521 譬如
    1522 认为
    1523 认真
    1524 认识
    1525 1526 许多
    1527 1528 论说
    1529 设使
    1530 设或
    1531 设若
    1532 诚如
    1533 诚然
    1534 话说
    1535 1536 该当
    1537 说明
    1538 说来
    1539 说说
    1540 请勿
    1541 1542 诸位
    1543 诸如
    1544 1545 谁人
    1546 谁料
    1547 谁知
    1548 1549 豁然
    1550 贼死
    1551 赖以
    1552 1553 赶快
    1554 赶早不赶晚
    1555 1556 起先
    1557 起初
    1558 起头
    1559 起来
    1560 起见
    1561 起首
    1562 1563 趁便
    1564 趁势
    1565 趁早
    1566 趁机
    1567 趁热
    1568 趁着
    1569 越是
    1570 1571 1572 路经
    1573 转动
    1574 转变
    1575 转贴
    1576 轰然
    1577 1578 较为
    1579 较之
    1580 较比
    1581 1582 达到
    1583 达旦
    1584 1585 迅速
    1586 1587 过于
    1588 过去
    1589 过来
    1590 运用
    1591 1592 近几年来
    1593 近年来
    1594 近来
    1595 1596 还是
    1597 还有
    1598 还要
    1599 1600 这一来
    1601 这个
    1602 这么
    1603 这么些
    1604 这么样
    1605 这么点儿
    1606 这些
    1607 这会儿
    1608 这儿
    1609 这就是说
    1610 这时
    1611 这样
    1612 这次
    1613 这点
    1614 这种
    1615 这般
    1616 这边
    1617 这里
    1618 这麽
    1619 进入
    1620 进去
    1621 进来
    1622 进步
    1623 进而
    1624 进行
    1625 1626 连同
    1627 连声
    1628 连日
    1629 连日来
    1630 连袂
    1631 连连
    1632 迟早
    1633 迫于
    1634 适应
    1635 适当
    1636 适用
    1637 逐步
    1638 逐渐
    1639 通常
    1640 通过
    1641 造成
    1642 1643 遇到
    1644 遭到
    1645 遵循
    1646 遵照
    1647 避免
    1648 1649 那个
    1650 那么
    1651 那么些
    1652 那么样
    1653 那些
    1654 那会儿
    1655 那儿
    1656 那时
    1657 那末
    1658 那样
    1659 那般
    1660 那边
    1661 那里
    1662 那麽
    1663 部分
    1664 1665 鄙人
    1666 采取
    1667 里面
    1668 重大
    1669 重新
    1670 重要
    1671 鉴于
    1672 针对
    1673 长期以来
    1674 长此下去
    1675 长线
    1676 长话短说
    1677 问题
    1678 间或
    1679 防止
    1680 1681 附近
    1682 陈年
    1683 限制
    1684 陡然
    1685 1686 除了
    1687 除却
    1688 除去
    1689 除外
    1690 除开
    1691 除此
    1692 除此之外
    1693 除此以外
    1694 除此而外
    1695 除非
    1696 1697 随后
    1698 随时
    1699 随着
    1700 随著
    1701 隔夜
    1702 隔日
    1703 难得
    1704 难怪
    1705 难说
    1706 难道
    1707 难道说
    1708 集中
    1709 1710 需要
    1711 非但
    1712 非常
    1713 非徒
    1714 非得
    1715 非特
    1716 非独
    1717 1718 顶多
    1719 1720 顷刻
    1721 顷刻之间
    1722 顷刻间
    1723 1724 顺着
    1725 顿时
    1726 1727 风雨无阻
    1728 1729 首先
    1730 马上
    1731 高低
    1732 高兴
    1733 默然
    1734 默默地
    1735 1736 ︿
    1737 1738 1739 1740 1741 1742 1743 1744 1745 )÷(1-
    1746 )、
    1747 1748 1749 +ξ
    1750 ++
    1751 1752 ,也
    1753 1754 -β
    1755 --
    1756 -[*]-
    1757 1758 1759 1760 0:2
    1761 1762 1.
    1763 12%
    1764 1765 2.3%
    1766 1767 1768 1769 5:0
    1770 1771 1772 1773 1774 1775 1776 1777 <±
    1778 <Δ
    1779 <λ
    1780 <φ
    1781 <<
    1782 1783 =″
    1784 =☆
    1785 =(
    1786 =-
    1787 =[
    1788 ={
    1789 1790 >λ
    1791 1792 1793 1794 LI
    1795 R.L.
    1796 ZXFITL
    1797 1798 [①①]
    1799 [①②]
    1800 [①③]
    1801 [①④]
    1802 [①⑤]
    1803 [①⑥]
    1804 [①⑦]
    1805 [①⑧]
    1806 [①⑨]
    1807 [①A]
    1808 [①B]
    1809 [①C]
    1810 [①D]
    1811 [①E]
    1812 [①]
    1813 [①a]
    1814 [①c]
    1815 [①d]
    1816 [①e]
    1817 [①f]
    1818 [①g]
    1819 [①h]
    1820 [①i]
    1821 [①o]
    1822 [②
    1823 [②①]
    1824 [②②]
    1825 [②③]
    1826 [②④
    1827 [②⑤]
    1828 [②⑥]
    1829 [②⑦]
    1830 [②⑧]
    1831 [②⑩]
    1832 [②B]
    1833 [②G]
    1834 [②]
    1835 [②a]
    1836 [②b]
    1837 [②c]
    1838 [②d]
    1839 [②e]
    1840 [②f]
    1841 [②g]
    1842 [②h]
    1843 [②i]
    1844 [②j]
    1845 [③①]
    1846 [③⑩]
    1847 [③F]
    1848 [③]
    1849 [③a]
    1850 [③b]
    1851 [③c]
    1852 [③d]
    1853 [③e]
    1854 [③g]
    1855 [③h]
    1856 [④]
    1857 [④a]
    1858 [④b]
    1859 [④c]
    1860 [④d]
    1861 [④e]
    1862 [⑤]
    1863 [⑤]]
    1864 [⑤a]
    1865 [⑤b]
    1866 [⑤d]
    1867 [⑤e]
    1868 [⑤f]
    1869 [⑥]
    1870 [⑦]
    1871 [⑧]
    1872 [⑨]
    1873 [⑩]
    1874 [*]
    1875 [-
    1876 []
    1877 1878 ]∧′=[
    1879 ][
    1880 _
    1881 a]
    1882 b]
    1883 c]
    1884 e]
    1885 f]
    1886 ng昉
    1887 1888 {-
    1889 1890 1891 }>
    1892 1893 ~±
    1894 ~+
    1895
    View Code

    二是 分词不准确

    像我现在在做微博的分词

    有时 迪丽热巴 它会给我分成两个词 而我需要的只是一个迪丽热巴这个姓名

    如何分词准确呢 

    首推调用用户词典

    用户词典实际上就是一个文本文档 

    一行有三个值(词语,词频,词性)后两个值是可以省略的

    在调用jieba的时候将用户词典加载进去就可以了

    具体实现

     1 # ! python3
     2 # -*- coding: utf-8 -*-
     3 # author : yunchao.zhang
     4 import jieba
     5 from collections import Counter
     6 
     7 
     8 # 创建停用词list
     9 def stopwordslist(filepath):
    10     stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    11     return stopwords
    12 
    13 
    14 # 对句子进行分词
    15 def seg_sentence(sentence):
    16     """
    17     need txt
    18     :param sentence:
    19     :return:
    20     """
    21     jieba.load_userdict('C:\UsersEDZDesktopFLSJ_FIRSTDICT\user_dict.txt')
    22     sentence_seged = jieba.cut(sentence.strip())
    23     stopwords = stopwordslist('C:\UsersEDZDesktopFLSJ_FIRSTDICTstopwords.txt')  # 这里加载停用词的路径
    24     outstr = []
    25     for word in sentence_seged:
    26         if word not in stopwords:
    27             if word != '	':
    28                 outstr.append(word)
    29     return outstr
    30 
    31 
    32 # 对分词进行词频展示
    33 def word_frequency(line_seg):
    34     """
    35     need ['add','add']
    36     :param line_seg:
    37     :return:
    38     """
    39     c = Counter()
    40     for x in line_seg:
    41         if len(x) > 1 and x != '
    ':
    42             c[x] += 1
    43     for (k, v) in c.most_common():
    44         print('%s%s  %d' % (' ' * (5 - len(k)), k, v))
    45 
    46 
    47 inputs = open('C:\UsersEDZDesktop福莱数据第一期data迪丽热巴.txt', 'r', encoding='utf-8')
    48 lines = ""
    49 for line in inputs:
    50     lines += line.replace("
    ", "")
    51 inputs.close()
    52 line_seg = seg_sentence(lines)  # 这里的返回值是列表
    53 word_frequency(line_seg)  # 取词频
    View Code

    OJBK !!

  • 相关阅读:
    AM335x kernel 4.4.12 i2c eeprom AT24c02驱动移植
    AM335x tscadc platform driver 相关代码跟踪
    Linux kernel make 常用选项介绍
    Linux kernel 文件夹说明
    shell 脚本之获取命令输出字符串以及函数参数传递
    Treeview控件如何获得子节点的所有父节点的名称
    浅谈Delphi高效使用TreeView
    Delphi下Treeview控件基于节点编号的访问
    delphi中TTreeView的使用方法
    学习 TTreeView [2]
  • 原文地址:https://www.cnblogs.com/ltn26/p/10031902.html
Copyright © 2020-2023  润新知