中文分词一般使用jieba分词
1.安装
1 pip install jieba
2.大致了解jieba分词
包括jieba分词的3种模式
全模式
1 import jieba 2 3 seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) 4 print("Full Mode: " + "/ ".join(seg_list)) # 全模式
精准模式
1 import jieba 2 3 seg_list = jieba.cut("我来到北京清华大学", cut_all=False, HMM=True) 4 print("Default Mode: " + "/ ".join(seg_list)) # 精准模式
搜索引擎模式
1 import jieba 2 3 seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造", HMM=False) # 搜索引擎模式 4 print(", ".join(seg_list))
2.解决问题
一般只调用分词的话会出现几个问题
一是会出现各种我们不需要的东西像
# [] () 的 个 些
这些东西都属于停用词 都不必去获取这些东西
我们只需要把他剔除就可以了
停用词包括
1 http 2 回复 3 ! 4 " 5 # 6 $ 7 % 8 & 9 ' 10 ( 11 ) 12 * 13 + 14 , 15 - 16 -- 17 . 18 .. 19 ... 20 ...... 21 ................... 22 ./ 23 .一 24 .数 25 .日 26 / 27 // 28 0 29 1 30 2 31 3 32 4 33 5 34 6 35 7 36 8 37 9 38 : 39 :// 40 :: 41 ; 42 < 43 = 44 > 45 >> 46 ? 47 @ 48 A 49 Lex 50 [ 51 52 ] 53 ^ 54 _ 55 ` 56 exp 57 sub 58 sup 59 | 60 } 61 ~ 62 ~~~~ 63 · 64 × 65 ××× 66 Δ 67 Ψ 68 γ 69 μ 70 φ 71 φ. 72 В 73 — 74 —— 75 ——— 76 ‘ 77 ’ 78 ’‘ 79 “ 80 ” 81 ”, 82 … 83 …… 84 …………………………………………………③ 85 ′∈ 86 ′| 87 ℃ 88 Ⅲ 89 ↑ 90 → 91 ∈[ 92 ∪φ∈ 93 ≈ 94 ① 95 ② 96 ②c 97 ③ 98 ③] 99 ④ 100 ⑤ 101 ⑥ 102 ⑦ 103 ⑧ 104 ⑨ 105 ⑩ 106 ── 107 ■ 108 ▲ 109 110 、 111 。 112 〈 113 〉 114 《 115 》 116 》), 117 」 118 『 119 』 120 【 121 】 122 〔 123 〕 124 〕〔 125 ㈧ 126 一 127 一. 128 一一 129 一下 130 一个 131 一些 132 一何 133 一切 134 一则 135 一则通过 136 一天 137 一定 138 一方面 139 一旦 140 一时 141 一来 142 一样 143 一次 144 一片 145 一番 146 一直 147 一致 148 一般 149 一起 150 一转眼 151 一边 152 一面 153 七 154 万一 155 三 156 三天两头 157 三番两次 158 三番五次 159 上 160 上下 161 上升 162 上去 163 上来 164 上述 165 上面 166 下 167 下列 168 下去 169 下来 170 下面 171 不 172 不一 173 不下 174 不久 175 不了 176 不亦乐乎 177 不仅 178 不仅...而且 179 不仅仅 180 不仅仅是 181 不会 182 不但 183 不但...而且 184 不光 185 不免 186 不再 187 不力 188 不单 189 不变 190 不只 191 不可 192 不可开交 193 不可抗拒 194 不同 195 不外 196 不外乎 197 不够 198 不大 199 不如 200 不妨 201 不定 202 不对 203 不少 204 不尽 205 不尽然 206 不巧 207 不已 208 不常 209 不得 210 不得不 211 不得了 212 不得已 213 不必 214 不怎么 215 不怕 216 不惟 217 不成 218 不拘 219 不择手段 220 不敢 221 不料 222 不断 223 不日 224 不时 225 不是 226 不曾 227 不止 228 不止一次 229 不比 230 不消 231 不满 232 不然 233 不然的话 234 不特 235 不独 236 不由得 237 不知不觉 238 不管 239 不管怎样 240 不经意 241 不胜 242 不能 243 不能不 244 不至于 245 不若 246 不要 247 不论 248 不起 249 不足 250 不过 251 不迭 252 不问 253 不限 254 与 255 与其 256 与其说 257 与否 258 与此同时 259 专门 260 且 261 且不说 262 且说 263 两者 264 严格 265 严重 266 个 267 个人 268 个别 269 中小 270 中间 271 丰富 272 串行 273 临 274 临到 275 为 276 为主 277 为了 278 为什么 279 为什麽 280 为何 281 为止 282 为此 283 为着 284 主张 285 主要 286 举凡 287 举行 288 乃 289 乃至 290 乃至于 291 么 292 之 293 之一 294 之前 295 之后 296 之後 297 之所以 298 之类 299 乌乎 300 乎 301 乒 302 乘 303 乘势 304 乘机 305 乘胜 306 乘虚 307 乘隙 308 九 309 也 310 也好 311 也就是说 312 也是 313 也罢 314 了 315 了解 316 争取 317 二 318 二来 319 二话不说 320 二话没说 321 于 322 于是 323 于是乎 324 云云 325 云尔 326 互 327 互相 328 五 329 些 330 交口 331 亦 332 产生 333 亲口 334 亲手 335 亲眼 336 亲自 337 亲身 338 人 339 人人 340 人们 341 人家 342 人民 343 什么 344 什么样 345 什麽 346 仅 347 仅仅 348 今 349 今后 350 今天 351 今年 352 今後 353 介于 354 仍 355 仍旧 356 仍然 357 从 358 从不 359 从严 360 从中 361 从事 362 从今以后 363 从优 364 从古到今 365 从古至今 366 从头 367 从宽 368 从小 369 从新 370 从无到有 371 从早到晚 372 从未 373 从来 374 从此 375 从此以后 376 从而 377 从轻 378 从速 379 从重 380 他 381 他人 382 他们 383 他是 384 他的 385 代替 386 以 387 以上 388 以下 389 以为 390 以便 391 以免 392 以前 393 以及 394 以后 395 以外 396 以後 397 以故 398 以期 399 以来 400 以至 401 以至于 402 以致 403 们 404 任 405 任何 406 任凭 407 任务 408 企图 409 伙同 410 会 411 伟大 412 传 413 传说 414 传闻 415 似乎 416 似的 417 但 418 但凡 419 但愿 420 但是 421 何 422 何乐而不为 423 何以 424 何况 425 何处 426 何妨 427 何尝 428 何必 429 何时 430 何止 431 何苦 432 何须 433 余外 434 作为 435 你 436 你们 437 你是 438 你的 439 使 440 使得 441 使用 442 例如 443 依 444 依据 445 依照 446 依靠 447 便 448 便于 449 促进 450 保持 451 保管 452 保险 453 俺 454 俺们 455 倍加 456 倍感 457 倒不如 458 倒不如说 459 倒是 460 倘 461 倘使 462 倘或 463 倘然 464 倘若 465 借 466 借以 467 借此 468 假使 469 假如 470 假若 471 偏偏 472 做到 473 偶尔 474 偶而 475 傥然 476 像 477 儿 478 允许 479 元/吨 480 充其极 481 充其量 482 充分 483 先不先 484 先后 485 先後 486 先生 487 光 488 光是 489 全体 490 全力 491 全年 492 全然 493 全身心 494 全部 495 全都 496 全面 497 八 498 八成 499 公然 500 六 501 兮 502 共 503 共同 504 共总 505 关于 506 其 507 其一 508 其中 509 其二 510 其他 511 其余 512 其后 513 其它 514 其实 515 其次 516 具体 517 具体地说 518 具体来说 519 具体说来 520 具有 521 兼之 522 内 523 再 524 再其次 525 再则 526 再有 527 再次 528 再者 529 再者说 530 再说 531 冒 532 冲 533 决不 534 决定 535 决非 536 况且 537 准备 538 凑巧 539 凝神 540 几 541 几乎 542 几度 543 几时 544 几番 545 几经 546 凡 547 凡是 548 凭 549 凭借 550 出 551 出于 552 出去 553 出来 554 出现 555 分别 556 分头 557 分期 558 分期分批 559 切 560 切不可 561 切切 562 切勿 563 切莫 564 则 565 则甚 566 刚 567 刚好 568 刚巧 569 刚才 570 初 571 别 572 别人 573 别处 574 别是 575 别的 576 别管 577 别说 578 到 579 到了儿 580 到处 581 到头 582 到头来 583 到底 584 到目前为止 585 前后 586 前此 587 前者 588 前进 589 前面 590 加上 591 加之 592 加以 593 加入 594 加强 595 动不动 596 动辄 597 勃然 598 匆匆 599 十分 600 千 601 千万 602 千万千万 603 半 604 单 605 单单 606 单纯 607 即 608 即令 609 即使 610 即便 611 即刻 612 即如 613 即将 614 即或 615 即是说 616 即若 617 却 618 却不 619 历 620 原来 621 去 622 又 623 又及 624 及 625 及其 626 及时 627 及至 628 双方 629 反之 630 反之亦然 631 反之则 632 反倒 633 反倒是 634 反应 635 反手 636 反映 637 反而 638 反过来 639 反过来说 640 取得 641 取道 642 受到 643 变成 644 古来 645 另 646 另一个 647 另一方面 648 另外 649 另悉 650 另方面 651 另行 652 只 653 只当 654 只怕 655 只是 656 只有 657 只消 658 只要 659 只限 660 叫 661 叫做 662 召开 663 叮咚 664 叮当 665 可 666 可以 667 可好 668 可是 669 可能 670 可见 671 各 672 各个 673 各人 674 各位 675 各地 676 各式 677 各种 678 各级 679 各自 680 合理 681 同 682 同一 683 同时 684 同样 685 后 686 后来 687 后者 688 后面 689 向 690 向使 691 向着 692 吓 693 吗 694 否则 695 吧 696 吧哒 697 吱 698 呀 699 呃 700 呆呆地 701 呐 702 呕 703 呗 704 呜 705 呜呼 706 呢 707 周围 708 呵 709 呵呵 710 呸 711 呼哧 712 呼啦 713 咋 714 和 715 咚 716 咦 717 咧 718 咱 719 咱们 720 咳 721 哇 722 哈 723 哈哈 724 哉 725 哎 726 哎呀 727 哎哟 728 哗 729 哗啦 730 哟 731 哦 732 哩 733 哪 734 哪个 735 哪些 736 哪儿 737 哪天 738 哪年 739 哪怕 740 哪样 741 哪边 742 哪里 743 哼 744 哼唷 745 唉 746 唯有 747 啊 748 啊呀 749 啊哈 750 啊哟 751 啐 752 啥 753 啦 754 啪达 755 啷当 756 喀 757 喂 758 喏 759 喔唷 760 喽 761 嗡 762 嗡嗡 763 嗬 764 嗯 765 嗳 766 嘎 767 嘎嘎 768 嘎登 769 嘘 770 嘛 771 嘻 772 嘿 773 嘿嘿 774 四 775 因 776 因为 777 因了 778 因此 779 因着 780 因而 781 固 782 固然 783 在 784 在下 785 在于 786 地 787 均 788 坚决 789 坚持 790 基于 791 基本 792 基本上 793 处在 794 处处 795 处理 796 复杂 797 多 798 多么 799 多亏 800 多多 801 多多少少 802 多多益善 803 多少 804 多年前 805 多年来 806 多数 807 多次 808 够瞧的 809 大 810 大不了 811 大举 812 大事 813 大体 814 大体上 815 大凡 816 大力 817 大多 818 大多数 819 大大 820 大家 821 大张旗鼓 822 大批 823 大抵 824 大概 825 大略 826 大约 827 大致 828 大都 829 大量 830 大面儿上 831 失去 832 奇 833 奈 834 奋勇 835 她 836 她们 837 她是 838 她的 839 好 840 好在 841 好的 842 好象 843 如 844 如上 845 如上所述 846 如下 847 如今 848 如何 849 如其 850 如前所述 851 如同 852 如常 853 如是 854 如期 855 如果 856 如次 857 如此 858 如此等等 859 如若 860 始而 861 姑且 862 存在 863 存心 864 孰料 865 孰知 866 宁 867 宁可 868 宁愿 869 宁肯 870 它 871 它们 872 它们的 873 它是 874 它的 875 安全 876 完全 877 完成 878 定 879 实现 880 实际 881 宣布 882 容易 883 密切 884 对 885 对于 886 对应 887 对待 888 对方 889 对比 890 将 891 将才 892 将要 893 将近 894 小 895 少数 896 尔 897 尔后 898 尔尔 899 尔等 900 尚且 901 尤其 902 就 903 就地 904 就是 905 就是了 906 就是说 907 就此 908 就算 909 就要 910 尽 911 尽可能 912 尽如人意 913 尽心尽力 914 尽心竭力 915 尽快 916 尽早 917 尽然 918 尽管 919 尽管如此 920 尽量 921 局外 922 居然 923 届时 924 属于 925 屡 926 屡屡 927 屡次 928 屡次三番 929 岂 930 岂但 931 岂止 932 岂非 933 川流不息 934 左右 935 巨大 936 巩固 937 差一点 938 差不多 939 己 940 已 941 已矣 942 已经 943 巴 944 巴巴 945 带 946 帮助 947 常 948 常常 949 常言说 950 常言说得好 951 常言道 952 平素 953 年复一年 954 并 955 并不 956 并不是 957 并且 958 并排 959 并无 960 并没 961 并没有 962 并肩 963 并非 964 广大 965 广泛 966 应当 967 应用 968 应该 969 庶乎 970 庶几 971 开外 972 开始 973 开展 974 引起 975 弗 976 弹指之间 977 强烈 978 强调 979 归 980 归根到底 981 归根结底 982 归齐 983 当 984 当下 985 当中 986 当儿 987 当前 988 当即 989 当口儿 990 当地 991 当场 992 当头 993 当庭 994 当时 995 当然 996 当真 997 当着 998 形成 999 彻夜 1000 彻底 1001 彼 1002 彼时 1003 彼此 1004 往 1005 往往 1006 待 1007 待到 1008 很 1009 很多 1010 很少 1011 後来 1012 後面 1013 得 1014 得了 1015 得出 1016 得到 1017 得天独厚 1018 得起 1019 心里 1020 必 1021 必定 1022 必将 1023 必然 1024 必要 1025 必须 1026 快 1027 快要 1028 忽地 1029 忽然 1030 怎 1031 怎么 1032 怎么办 1033 怎么样 1034 怎奈 1035 怎样 1036 怎麽 1037 怕 1038 急匆匆 1039 怪 1040 怪不得 1041 总之 1042 总是 1043 总的来看 1044 总的来说 1045 总的说来 1046 总结 1047 总而言之 1048 恍然 1049 恐怕 1050 恰似 1051 恰好 1052 恰如 1053 恰巧 1054 恰恰 1055 恰恰相反 1056 恰逢 1057 您 1058 您们 1059 您是 1060 惟其 1061 惯常 1062 意思 1063 愤然 1064 愿意 1065 慢说 1066 成为 1067 成年 1068 成年累月 1069 成心 1070 我 1071 我们 1072 我是 1073 我的 1074 或 1075 或则 1076 或多或少 1077 或是 1078 或曰 1079 或者 1080 或许 1081 战斗 1082 截然 1083 截至 1084 所 1085 所以 1086 所在 1087 所幸 1088 所有 1089 所谓 1090 才 1091 才能 1092 扑通 1093 打 1094 打从 1095 打开天窗说亮话 1096 扩大 1097 把 1098 抑或 1099 抽冷子 1100 拦腰 1101 拿 1102 按 1103 按时 1104 按期 1105 按照 1106 按理 1107 按说 1108 挨个 1109 挨家挨户 1110 挨次 1111 挨着 1112 挨门挨户 1113 挨门逐户 1114 换句话说 1115 换言之 1116 据 1117 据实 1118 据悉 1119 据我所知 1120 据此 1121 据称 1122 据说 1123 掌握 1124 接下来 1125 接着 1126 接著 1127 接连不断 1128 放量 1129 故 1130 故意 1131 故此 1132 故而 1133 敞开儿 1134 敢 1135 敢于 1136 敢情 1137 数/ 1138 整个 1139 断然 1140 方 1141 方便 1142 方才 1143 方能 1144 方面 1145 旁人 1146 无 1147 无宁 1148 无法 1149 无论 1150 既 1151 既...又 1152 既往 1153 既是 1154 既然 1155 日复一日 1156 日渐 1157 日益 1158 日臻 1159 日见 1160 时候 1161 昂然 1162 明显 1163 明确 1164 是 1165 是不是 1166 是以 1167 是否 1168 是的 1169 显然 1170 显著 1171 普通 1172 普遍 1173 暗中 1174 暗地里 1175 暗自 1176 更 1177 更为 1178 更加 1179 更进一步 1180 曾 1181 曾经 1182 替 1183 替代 1184 最 1185 最后 1186 最大 1187 最好 1188 最後 1189 最近 1190 最高 1191 有 1192 有些 1193 有关 1194 有利 1195 有力 1196 有及 1197 有所 1198 有效 1199 有时 1200 有点 1201 有的 1202 有的是 1203 有着 1204 有著 1205 望 1206 朝 1207 朝着 1208 末##末 1209 本 1210 本人 1211 本地 1212 本着 1213 本身 1214 权时 1215 来 1216 来不及 1217 来得及 1218 来看 1219 来着 1220 来自 1221 来讲 1222 来说 1223 极 1224 极为 1225 极了 1226 极其 1227 极力 1228 极大 1229 极度 1230 极端 1231 构成 1232 果然 1233 果真 1234 某 1235 某个 1236 某些 1237 某某 1238 根据 1239 根本 1240 格外 1241 梆 1242 概 1243 次第 1244 欢迎 1245 欤 1246 正值 1247 正在 1248 正如 1249 正巧 1250 正常 1251 正是 1252 此 1253 此中 1254 此后 1255 此地 1256 此处 1257 此外 1258 此时 1259 此次 1260 此间 1261 殆 1262 毋宁 1263 每 1264 每个 1265 每天 1266 每年 1267 每当 1268 每时每刻 1269 每每 1270 每逢 1271 比 1272 比及 1273 比如 1274 比如说 1275 比方 1276 比照 1277 比起 1278 比较 1279 毕竟 1280 毫不 1281 毫无 1282 毫无例外 1283 毫无保留地 1284 汝 1285 沙沙 1286 没 1287 没奈何 1288 没有 1289 沿 1290 沿着 1291 注意 1292 活 1293 深入 1294 清楚 1295 满 1296 满足 1297 漫说 1298 焉 1299 然 1300 然则 1301 然后 1302 然後 1303 然而 1304 照 1305 照着 1306 牢牢 1307 特别是 1308 特殊 1309 特点 1310 犹且 1311 犹自 1312 独 1313 独自 1314 猛然 1315 猛然间 1316 率尔 1317 率然 1318 现代 1319 现在 1320 理应 1321 理当 1322 理该 1323 瑟瑟 1324 甚且 1325 甚么 1326 甚或 1327 甚而 1328 甚至 1329 甚至于 1330 用 1331 用来 1332 甫 1333 甭 1334 由 1335 由于 1336 由是 1337 由此 1338 由此可见 1339 略 1340 略为 1341 略加 1342 略微 1343 白 1344 白白 1345 的 1346 的确 1347 的话 1348 皆可 1349 目前 1350 直到 1351 直接 1352 相似 1353 相信 1354 相反 1355 相同 1356 相对 1357 相对而言 1358 相应 1359 相当 1360 相等 1361 省得 1362 看 1363 看上去 1364 看出 1365 看到 1366 看来 1367 看样子 1368 看看 1369 看见 1370 看起来 1371 真是 1372 真正 1373 眨眼 1374 着 1375 着呢 1376 矣 1377 矣乎 1378 矣哉 1379 知道 1380 砰 1381 确定 1382 碰巧 1383 社会主义 1384 离 1385 种 1386 积极 1387 移动 1388 究竟 1389 穷年累月 1390 突出 1391 突然 1392 窃 1393 立 1394 立刻 1395 立即 1396 立地 1397 立时 1398 立马 1399 竟 1400 竟然 1401 竟而 1402 第 1403 第二 1404 等 1405 等到 1406 等等 1407 策略地 1408 简直 1409 简而言之 1410 简言之 1411 管 1412 类如 1413 粗 1414 精光 1415 紧接着 1416 累年 1417 累次 1418 纯 1419 纯粹 1420 纵 1421 纵令 1422 纵使 1423 纵然 1424 练习 1425 组成 1426 经 1427 经常 1428 经过 1429 结合 1430 结果 1431 给 1432 绝 1433 绝不 1434 绝对 1435 绝非 1436 绝顶 1437 继之 1438 继后 1439 继续 1440 继而 1441 维持 1442 综上所述 1443 缕缕 1444 罢了 1445 老 1446 老大 1447 老是 1448 老老实实 1449 考虑 1450 者 1451 而 1452 而且 1453 而况 1454 而又 1455 而后 1456 而外 1457 而已 1458 而是 1459 而言 1460 而论 1461 联系 1462 联袂 1463 背地里 1464 背靠背 1465 能 1466 能否 1467 能够 1468 腾 1469 自 1470 自个儿 1471 自从 1472 自各儿 1473 自后 1474 自家 1475 自己 1476 自打 1477 自身 1478 臭 1479 至 1480 至于 1481 至今 1482 至若 1483 致 1484 般的 1485 良好 1486 若 1487 若夫 1488 若是 1489 若果 1490 若非 1491 范围 1492 莫 1493 莫不 1494 莫不然 1495 莫如 1496 莫若 1497 莫非 1498 获得 1499 藉以 1500 虽 1501 虽则 1502 虽然 1503 虽说 1504 蛮 1505 行为 1506 行动 1507 表明 1508 表示 1509 被 1510 要 1511 要不 1512 要不是 1513 要不然 1514 要么 1515 要是 1516 要求 1517 见 1518 规定 1519 觉得 1520 譬喻 1521 譬如 1522 认为 1523 认真 1524 认识 1525 让 1526 许多 1527 论 1528 论说 1529 设使 1530 设或 1531 设若 1532 诚如 1533 诚然 1534 话说 1535 该 1536 该当 1537 说明 1538 说来 1539 说说 1540 请勿 1541 诸 1542 诸位 1543 诸如 1544 谁 1545 谁人 1546 谁料 1547 谁知 1548 谨 1549 豁然 1550 贼死 1551 赖以 1552 赶 1553 赶快 1554 赶早不赶晚 1555 起 1556 起先 1557 起初 1558 起头 1559 起来 1560 起见 1561 起首 1562 趁 1563 趁便 1564 趁势 1565 趁早 1566 趁机 1567 趁热 1568 趁着 1569 越是 1570 距 1571 跟 1572 路经 1573 转动 1574 转变 1575 转贴 1576 轰然 1577 较 1578 较为 1579 较之 1580 较比 1581 边 1582 达到 1583 达旦 1584 迄 1585 迅速 1586 过 1587 过于 1588 过去 1589 过来 1590 运用 1591 近 1592 近几年来 1593 近年来 1594 近来 1595 还 1596 还是 1597 还有 1598 还要 1599 这 1600 这一来 1601 这个 1602 这么 1603 这么些 1604 这么样 1605 这么点儿 1606 这些 1607 这会儿 1608 这儿 1609 这就是说 1610 这时 1611 这样 1612 这次 1613 这点 1614 这种 1615 这般 1616 这边 1617 这里 1618 这麽 1619 进入 1620 进去 1621 进来 1622 进步 1623 进而 1624 进行 1625 连 1626 连同 1627 连声 1628 连日 1629 连日来 1630 连袂 1631 连连 1632 迟早 1633 迫于 1634 适应 1635 适当 1636 适用 1637 逐步 1638 逐渐 1639 通常 1640 通过 1641 造成 1642 逢 1643 遇到 1644 遭到 1645 遵循 1646 遵照 1647 避免 1648 那 1649 那个 1650 那么 1651 那么些 1652 那么样 1653 那些 1654 那会儿 1655 那儿 1656 那时 1657 那末 1658 那样 1659 那般 1660 那边 1661 那里 1662 那麽 1663 部分 1664 都 1665 鄙人 1666 采取 1667 里面 1668 重大 1669 重新 1670 重要 1671 鉴于 1672 针对 1673 长期以来 1674 长此下去 1675 长线 1676 长话短说 1677 问题 1678 间或 1679 防止 1680 阿 1681 附近 1682 陈年 1683 限制 1684 陡然 1685 除 1686 除了 1687 除却 1688 除去 1689 除外 1690 除开 1691 除此 1692 除此之外 1693 除此以外 1694 除此而外 1695 除非 1696 随 1697 随后 1698 随时 1699 随着 1700 随著 1701 隔夜 1702 隔日 1703 难得 1704 难怪 1705 难说 1706 难道 1707 难道说 1708 集中 1709 零 1710 需要 1711 非但 1712 非常 1713 非徒 1714 非得 1715 非特 1716 非独 1717 靠 1718 顶多 1719 顷 1720 顷刻 1721 顷刻之间 1722 顷刻间 1723 顺 1724 顺着 1725 顿时 1726 颇 1727 风雨无阻 1728 饱 1729 首先 1730 马上 1731 高低 1732 高兴 1733 默然 1734 默默地 1735 齐 1736 ︿ 1737 ! 1738 # 1739 $ 1740 % 1741 & 1742 ' 1743 ( 1744 ) 1745 )÷(1- 1746 )、 1747 * 1748 + 1749 +ξ 1750 ++ 1751 , 1752 ,也 1753 - 1754 -β 1755 -- 1756 -[*]- 1757 . 1758 / 1759 0 1760 0:2 1761 1 1762 1. 1763 12% 1764 2 1765 2.3% 1766 3 1767 4 1768 5 1769 5:0 1770 6 1771 7 1772 8 1773 9 1774 : 1775 ; 1776 < 1777 <± 1778 <Δ 1779 <λ 1780 <φ 1781 << 1782 = 1783 =″ 1784 =☆ 1785 =( 1786 =- 1787 =[ 1788 ={ 1789 > 1790 >λ 1791 ? 1792 @ 1793 A 1794 LI 1795 R.L. 1796 ZXFITL 1797 [ 1798 [①①] 1799 [①②] 1800 [①③] 1801 [①④] 1802 [①⑤] 1803 [①⑥] 1804 [①⑦] 1805 [①⑧] 1806 [①⑨] 1807 [①A] 1808 [①B] 1809 [①C] 1810 [①D] 1811 [①E] 1812 [①] 1813 [①a] 1814 [①c] 1815 [①d] 1816 [①e] 1817 [①f] 1818 [①g] 1819 [①h] 1820 [①i] 1821 [①o] 1822 [② 1823 [②①] 1824 [②②] 1825 [②③] 1826 [②④ 1827 [②⑤] 1828 [②⑥] 1829 [②⑦] 1830 [②⑧] 1831 [②⑩] 1832 [②B] 1833 [②G] 1834 [②] 1835 [②a] 1836 [②b] 1837 [②c] 1838 [②d] 1839 [②e] 1840 [②f] 1841 [②g] 1842 [②h] 1843 [②i] 1844 [②j] 1845 [③①] 1846 [③⑩] 1847 [③F] 1848 [③] 1849 [③a] 1850 [③b] 1851 [③c] 1852 [③d] 1853 [③e] 1854 [③g] 1855 [③h] 1856 [④] 1857 [④a] 1858 [④b] 1859 [④c] 1860 [④d] 1861 [④e] 1862 [⑤] 1863 [⑤]] 1864 [⑤a] 1865 [⑤b] 1866 [⑤d] 1867 [⑤e] 1868 [⑤f] 1869 [⑥] 1870 [⑦] 1871 [⑧] 1872 [⑨] 1873 [⑩] 1874 [*] 1875 [- 1876 [] 1877 ] 1878 ]∧′=[ 1879 ][ 1880 _ 1881 a] 1882 b] 1883 c] 1884 e] 1885 f] 1886 ng昉 1887 { 1888 {- 1889 | 1890 } 1891 }> 1892 ~ 1893 ~± 1894 ~+ 1895 ¥
二是 分词不准确
像我现在在做微博的分词
有时 迪丽热巴 它会给我分成两个词 而我需要的只是一个迪丽热巴这个姓名
如何分词准确呢
首推调用用户词典
用户词典实际上就是一个文本文档
一行有三个值(词语,词频,词性)后两个值是可以省略的
在调用jieba的时候将用户词典加载进去就可以了
具体实现
1 # ! python3 2 # -*- coding: utf-8 -*- 3 # author : yunchao.zhang 4 import jieba 5 from collections import Counter 6 7 8 # 创建停用词list 9 def stopwordslist(filepath): 10 stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] 11 return stopwords 12 13 14 # 对句子进行分词 15 def seg_sentence(sentence): 16 """ 17 need txt 18 :param sentence: 19 :return: 20 """ 21 jieba.load_userdict('C:\UsersEDZDesktopFLSJ_FIRSTDICT\user_dict.txt') 22 sentence_seged = jieba.cut(sentence.strip()) 23 stopwords = stopwordslist('C:\UsersEDZDesktopFLSJ_FIRSTDICTstopwords.txt') # 这里加载停用词的路径 24 outstr = [] 25 for word in sentence_seged: 26 if word not in stopwords: 27 if word != ' ': 28 outstr.append(word) 29 return outstr 30 31 32 # 对分词进行词频展示 33 def word_frequency(line_seg): 34 """ 35 need ['add','add'] 36 :param line_seg: 37 :return: 38 """ 39 c = Counter() 40 for x in line_seg: 41 if len(x) > 1 and x != ' ': 42 c[x] += 1 43 for (k, v) in c.most_common(): 44 print('%s%s %d' % (' ' * (5 - len(k)), k, v)) 45 46 47 inputs = open('C:\UsersEDZDesktop福莱数据第一期data迪丽热巴.txt', 'r', encoding='utf-8') 48 lines = "" 49 for line in inputs: 50 lines += line.replace(" ", "") 51 inputs.close() 52 line_seg = seg_sentence(lines) # 这里的返回值是列表 53 word_frequency(line_seg) # 取词频
OJBK !!