• 切分vocab时遇到的问题


     vocab的格式如下所示,每个词和对应100维的向量:

    </s> 0.004003 0.004419 -0.003830 -0.003278 0.001367 0.003021 0.000941 0.000211 -0.003604 0.002218 -0.004356 0.001250 -0.000751 -0.000957 -0.003316 -0.001882 0.002579 0.003025 0.002969 0.001597 0.001545 -0.003803 -0.004096 0.004970 0.003801 0.003090 -0.000604 0.004016 -0.000495 0.000735 -0.000149 -0.002983 0.001312 -0.001337 -0.003825 0.004754 0.004379 -0.001095 -0.000226 0.000509 -0.003638 -0.004007 0.004555 0.000063 -0.002582 -0.003042 -0.003076 0.001697 0.000201 0.001331 -0.004214 -0.003808 -0.000130 0.001144 0.002550 -0.003170 0.004080 0.000927 0.001120 -0.000608 0.002986 -0.002288 -0.002097 0.002158 -0.000753 0.001031 0.001805 -0.004089 -0.001983 0.002914 0.004232 0.003932 -0.003047 -0.002108 -0.000909 0.002001 -0.003788 0.002998 0.002788 -0.001599 -0.001552 -0.002238 0.004229 0.003912 -0.001180 0.004215 0.004820 0.001815 0.004983 -0.003111 -0.001532 -0.002107 -0.002907 0.002815 0.001579 0.000425 -0.002194 0.001524 0.003059 0.000194 
    0 -0.151320 -1.007179 0.126653 -0.243653 0.142000 -1.128695 -0.194311 -0.294066 0.286865 -0.234095 -1.139727 -0.309770 -0.034983 -0.443778 -0.402440 -0.418115 0.113369 0.955504 0.119042 -0.668506 0.957181 0.794475 0.970381 -0.476821 0.737179 0.340218 0.432033 -0.877198 0.380606 -0.565892 0.757274 0.982188 -0.385887 -0.539429 -0.310875 0.567543 -0.988566 0.136404 -0.571393 -0.144526 -0.813498 1.785730 -0.002256 1.256630 0.554948 -0.622467 0.184478 -0.294505 0.240585 -0.967247 0.182338 0.218990 -0.199879 0.912947 -0.059870 -0.348404 0.332078 0.995100 -0.760521 0.189562 0.385136 0.318464 0.101433 0.010340 -0.390878 -0.035613 0.192649 1.294454 0.198943 -0.661306 1.091757 -0.006993 0.384571 -0.120913 0.847143 0.148733 0.141714 0.507620 -0.448790 -0.556831 0.375920 -0.008850 0.981545 0.703348 1.180145 0.099844 0.327905 0.235597 0.475505 0.143109 -0.161589 -0.782589 -0.286486 -0.165726 0.888940 0.395667 0.131761 0.202265 -0.024723 0.803059 
    1 -0.102103 -1.489065 0.162181 -0.448718 0.295058 -1.534449 0.716556 0.151707 -0.146572 0.091972 -0.716739 -0.077323 -0.671709 -1.055999 -0.504025 -0.547005 0.087192 1.134926 -0.136708 -0.945981 1.223772 0.415802 -0.072495 -0.365265 1.225390 -0.067772 0.914773 -0.942931 0.552720 -0.360882 1.263051 0.634419 -0.100852 -0.363636 -0.648953 1.095640 -0.056618 -0.473716 -0.950754 -0.339800 -0.219318 1.558348 -0.789407 0.795101 1.393000 -0.383646 0.029632 -0.634863 0.037510 -1.257782 -0.225463 0.293787 -0.460361 0.635173 -0.099375 -0.492178 0.797511 1.191199 -0.554819 0.128733 0.083095 0.588631 0.290234 0.413944 -0.925835 0.301029 0.100141 0.146870 -0.212309 -0.529266 0.818098 -0.186810 0.140046 -0.293381 1.133317 0.399033 0.550044 -0.204882 -1.185034 -0.556211 0.595966 0.532106 1.056480 0.989976 0.673096 0.557328 0.293547 0.238613 0.978873 0.039224 -0.299982 -0.675384 -0.204014 -0.176915 0.416790 0.593716 0.285328 -0.093235 0.213139 0.192970 
    2 0.796724 -1.948922 0.014311 0.067701 0.517223 -0.858219 0.533662 -0.223407 0.054118 -0.431168 -0.320532 -0.998214 -0.190818 -1.411080 -0.440887 -0.505509 0.420279 0.880616 -0.392985 -1.061248 1.160807 0.799785 0.044774 -1.082245 1.439289 0.094170 0.289959 -0.425295 0.809229 -0.648002 1.394173 1.070391 -0.047886 -0.544057 -0.957719 0.781045 0.049115 -1.078188 -1.273537 -1.045900 -0.676111 1.385192 -0.165708 1.627784 0.927958 -0.242325 -0.025301 -0.901127 1.238294 -0.865943 -1.046337 0.514014 -0.032426 0.745110 -0.103887 -0.710386 0.331318 1.516216 -0.545588 0.332131 -0.408549 0.184389 0.626102 0.285376 -0.369645 -0.176714 -0.185828 -0.034584 -0.618688 0.196415 1.386945 -0.326948 0.619665 -0.532076 1.723704 0.122944 0.311681 0.296361 -0.546144 0.087744 0.655675 0.437557 1.044402 0.530279 0.115217 0.729263 0.287888 0.084418 1.322944 0.191682 -0.170437 -0.048698 -0.488498 -0.398720 0.602159 0.617916 0.113779 0.692682 0.214308 0.114278 
    9 0.430199 -1.535816 0.621217 -0.133835 0.595488 -1.535371 0.604007 0.411121 -0.378968 -0.167975 -1.338478 -0.525081 0.531864 -1.482641 -0.106407 -0.558878 0.613487 1.144929 -0.698952 -1.843982 1.120445 0.723114 -0.839078 -0.701151 1.113342 -0.053206 0.020483 -0.965674 0.883526 -1.544908 0.762729 1.152731 0.342858 -0.988299 -0.836112 1.018552 0.273182 -0.897065 -1.665629 -1.068056 -0.955286 2.127842 -0.597711 2.134399 0.896043 -1.168222 -1.284307 -1.603689 0.819858 -1.188252 -0.377595 0.955246 -0.475821 0.617156 -0.627428 -0.888490 -0.195976 1.611191 -0.190567 0.713646 0.410602 0.745781 0.478056 0.536538 -0.336508 -0.582934 0.233023 0.230914 -0.600515 0.152313 1.656069 -0.237993 0.649240 -0.446488 2.502311 1.113313 0.809355 0.126824 -0.786265 -0.590757 0.694359 1.197047 1.555846 0.859726 -0.167394 0.921909 1.010017 0.008832 0.854760 -0.182674 -0.522382 -0.248213 -0.749689 -0.819027 0.248584 0.764648 0.009101 0.593816 0.257661 0.052867 
    5 0.027097 -1.357887 0.484137 0.280334 0.581371 -1.551910 0.395882 0.136256 -0.219693 -0.019004 -0.590390 0.161880 -0.102916 -0.714743 -0.193341 -0.378727 0.369988 1.333522 0.018847 -1.097890 1.000026 0.715920 -0.375472 -0.315126 0.939593 0.073661 0.711065 -0.977077 1.603500 -0.987229 1.276530 1.151170 -0.024719 -0.928332 -0.751038 0.424090 -0.110073 -0.618844 -1.262401 -1.042661 -0.827203 2.013558 -0.691223 1.734996 0.694853 -0.705855 -0.498650 -1.570667 0.288112 -0.878634 -0.389645 0.271362 -0.687765 1.281921 -0.122846 -0.591261 0.078656 1.189545 -0.244780 0.280973 -0.138671 0.785842 0.315810 0.165640 -0.146456 -0.156161 0.236688 -0.070151 -0.241224 -0.454857 1.007199 -0.011072 0.677101 -0.144001 1.246772 0.524610 0.409072 -0.005322 -0.203555 -0.884237 0.565256 0.982512 1.656533 0.282093 0.232717 0.627285 0.826530 0.415268 0.813834 0.163711 -0.839457 -0.823339 -0.138562 -0.472411 0.240254 0.785046 -0.209408 0.342577 0.081673 -0.411394 
    3 0.376539 -1.692077 0.185746 0.744651 0.952363 -1.507542 0.186167 -0.535023 -0.009349 -0.059639 -0.865420 -0.467367 -0.238753 -0.325272 -0.412360 -0.649837 0.150102 0.958415 -0.405517 -0.782719 0.735197 0.634678 0.604993 -0.865423 1.423454 0.174954 0.011162 -0.744526 1.228833 -1.204825 1.380595 0.739734 0.232005 -1.005787 -1.326282 0.780914 -0.012008 -0.737906 -1.034185 -1.039250 -0.756872 1.697843 -0.585332 1.620814 0.640736 -0.009005 -0.705187 -1.378477 0.722849 -0.661413 -0.532069 0.230416 -0.362538 0.807111 -0.086612 -0.324833 0.244617 0.882930 0.190306 0.308085 -0.353483 0.281802 0.338259 0.501642 -0.156847 0.019266 -0.017276 0.501100 -0.170327 0.023537 0.700217 -0.240141 0.693405 0.389683 1.427803 0.592405 0.395929 0.710002 -0.018362 -0.212182 0.699019 -0.061812 0.920918 0.388198 0.797476 0.133865 0.694982 0.139000 1.082220 0.322975 -0.727632 -0.288781 -0.017378 -0.297497 0.484570 0.666596 0.224186 0.936332 -0.175191 0.028076 
    7 0.686138 -1.548129 0.377079 -0.142737 1.134327 -1.899610 0.494720 -0.056481 -0.179955 -0.060068 -1.233871 -0.944682 0.502188 -1.132820 -0.176030 -1.105116 0.676634 1.115632 -0.301601 -0.991112 1.255543 1.039221 -1.171018 -0.417340 0.956750 -0.278199 -0.276621 -1.169337 1.227405 -1.383714 1.012661 0.757493 0.472938 -0.907095 -1.068278 0.337581 0.116181 -0.857872 -1.820693 -0.483580 -0.530035 2.475187 -0.555425 2.174009 1.303947 -1.056823 -0.865841 -1.057295 1.060917 -1.403282 -0.147228 0.657924 -0.566915 0.912562 -0.108012 -1.037428 -0.018195 1.585033 -0.180586 0.674726 -0.004778 1.215487 0.597746 0.268703 -0.565713 -0.936360 0.549737 0.157722 -0.266642 0.037939 1.307320 -0.283140 0.784565 0.007305 2.043890 0.790118 1.125497 0.392618 -1.221707 -0.384862 0.312685 0.991102 1.500339 0.329276 -0.191163 0.730847 0.918443 0.420560 0.737907 0.276760 -0.823051 -0.569014 -0.285644 -0.252946 0.772301 1.264958 -0.111511 1.016977 0.363281 0.186255 
    4 0.639892 -1.900695 0.284368 -0.495353 0.695999 -1.464713 0.197188 0.271055 0.221562 -0.024689 -0.855095 -0.800182 0.152956 -1.117811 -0.201294 -0.547988 0.308895 0.886875 -0.178308 -1.143794 0.936459 0.911311 -0.805435 -0.656211 1.355230 0.247277 0.046506 -1.106653 1.222021 -1.453288 1.493715 1.046448 0.195221 -1.255465 -0.942223 0.645961 0.331721 -0.784991 -1.231700 -1.024701 -1.014964 2.072442 -0.240767 1.967075 1.376813 -1.447141 -0.420670 -1.107343 0.773365 -1.215497 0.036724 0.495653 -0.807667 0.778743 -0.699142 -0.539399 -0.424691 1.852491 -0.080710 0.243721 -0.494392 0.433512 0.176392 -0.177499 -0.277959 -0.445826 -0.076556 0.655453 -0.318869 0.061363 1.178184 -0.641742 0.287650 -0.540669 1.523626 1.143160 0.215833 -0.243433 -0.425116 -0.382232 0.501791 0.998140 1.163912 0.249432 0.019262 0.430727 0.196862 -0.342430 1.080297 0.367153 -0.816991 -0.389124 -0.360724 -0.546148 0.635922 1.141823 -0.204950 0.513280 -0.181582 -0.347577 
    6 0.660049 -2.136506 0.772808 0.025882 0.621458 -1.360698 0.306944 -0.021378 -0.265552 -0.065116 -0.936218 -0.578105 -0.275621 -1.031073 0.440905 -1.125586 0.502492 0.963663 -0.266117 -1.370476 0.890518 1.238010 -1.109986 -0.588322 1.071527 -0.060072 -0.246544 -0.981753 1.185958 -1.509346 1.414467 1.145951 0.177615 -0.764763 -0.899183 0.443273 0.378041 -1.024602 -1.644983 -1.118741 -0.714462 2.282691 -0.911177 1.700478 0.599244 -1.299320 -0.468529 -1.588957 0.916924 -1.316168 -0.122439 0.280465 -0.958551 0.858089 -0.309765 -1.496656 -0.376812 1.198116 0.161078 0.154865 -0.552823 0.556953 0.407698 0.488010 -0.484583 -0.518374 0.060368 0.523654 -0.273683 0.238752 1.772026 -0.601178 0.640304 -0.577983 2.126510 0.756806 0.785993 0.004233 -0.631448 -0.753683 0.503019 0.820325 1.402176 0.430839 0.290198 0.933084 0.487202 0.007474 0.596455 0.144696 -0.626802 -0.631521 -0.708055 -0.757117 0.716286 1.113129 -0.069796 0.221953 -0.156050 -0.423047 
    8 1.144733 -1.420854 0.255576 0.197300 1.089872 -1.856242 -0.334946 -0.329654 -0.357364 0.149543 -0.640845 -0.227611 -0.106728 -0.714869 -0.534953 -0.337428 0.349810 0.746475 -0.237205 -1.585561 0.815047 1.146835 -0.813108 -0.730991 1.536018 0.246400 0.310424 -1.328894 1.622091 -1.240272 0.949173 1.247899 0.335135 -0.762463 -0.531595 0.540330 0.147264 -1.137909 -1.224642 -0.346666 -0.922617 1.931932 -0.813893 1.361518 0.988282 -0.878040 -1.230306 -1.326943 1.071209 -1.410560 -0.119581 0.447661 -1.008621 0.932386 -0.315426 -0.956401 -0.578413 1.621181 -0.048608 0.707738 -0.248825 0.412767 0.491481 0.487334 -0.283758 0.026459 0.069590 0.622122 -0.430604 0.305718 1.614871 -0.591745 0.708115 0.117411 1.610316 1.433844 0.782168 -0.189912 -0.658954 0.034220 0.143497 0.557975 1.129142 0.288523 0.391687 0.919572 0.789056 -0.118835 1.047429 -0.140097 -1.100011 -0.429651 -0.562964 -0.712836 0.874173 1.310506 0.072491 0.538367 -0.387470 -0.020577-0.385313 0.852112 0.188845 0.601442 0.862356 0.421013 -0.203719 0.184331 -1.003970 0.312765 0.629701 0.634459 0.251128 -0.506506 -0.573301 -0.001814 -0.411062 -0.241175 -0.163325 -0.445730 0.136647 0.319291 -0.610769 -0.960814 0.164735 -0.972983 0.433142 -0.584780 -0.052846 -0.214945 -0.039094 -1.217604 0.798807 0.413474 1.132950 -0.042499 -0.045608 0.513035 -0.627747 -0.002362 0.899425 -0.962069 -0.880306 1.016745 -0.354465 -0.039335 -0.261865 -0.766917 -0.236231 0.069479 -0.100019 0.141856 -0.384326 0.088789 0.573328 -0.142947 -0.539076 0.696900 -0.423769 -0.420309 -0.109328 0.099146 0.337069 0.031392 -0.321081 0.118927 0.053248 1.197592 -0.006118 0.983034 0.289405 0.775270 -1.027337 -0.620721 -0.290834 -0.339782 0.044933 -0.740298 -0.394105 -0.557330 0.259238 0.470486 0.279033 -0.129163 0.349747 0.367525 0.326036 -0.587368 -0.050678 -1.213679 0.873737 0.079616 0.325256 -0.566941 0.876915 -0.261052 -0.960305 0.132397 -0.502338 0.829834 
    gt 0.976755 1.843778 -0.526706 0.225782 -1.329857 0.605540 0.193018 -1.300703 1.156567 -0.248502 -0.620974 0.420977 -0.756767 -0.743087 0.443295 0.833855 0.647449 -0.856170 0.297026 -0.803337 -0.210509 -1.934232 1.190496 1.618945 -0.909628 -0.140515 1.152186 0.407435 0.260389 0.812745 -0.597821 -0.378965 -2.216874 0.646358 0.359788 -0.341678 0.047112 0.375834 -0.241980 0.459320 2.246169 0.618858 -0.106583 -0.356139 0.808713 0.519531 1.132495 0.660087 0.012846 -0.414578 -0.552774 0.167386 0.920089 1.226985 0.858974 0.345629 -1.329860 -0.416833 1.590607 -0.393505 0.663447 1.011095 0.243608 -0.997299 0.413452 1.237800 0.184702 0.283127 -0.094413 -1.050654 0.744824 -1.005729 0.141731 -1.641291 -0.641828 -1.238792 0.073952 -0.070155 -0.851277 0.575457 -1.339826 0.623817 -0.926928 -2.014447 0.292904 -1.834037 -1.597176 -0.082282 -0.231484 0.171289 0.179839 0.163231 -0.220211 1.008953 -1.099844 -0.342974 -0.358521 -0.005559 2.498505 0.654858 
    lt 1.228335 2.101295 -1.061336 0.368279 -1.057292 1.890155 0.010266 -1.910027 0.902895 -0.612061 -0.281988 -0.147186 -0.867478 -0.799812 0.002057 -0.102972 0.514866 -0.747178 0.534237 -1.495874 0.496394 -1.835517 1.918533 0.864067 -0.523666 1.042588 0.992911 -0.843959 0.157424 0.419785 -0.647613 0.101954 -1.955281 1.172090 0.351593 -0.635530 -0.188719 0.383749 -0.190588 0.573265 1.774888 0.167808 -0.252338 0.528611 0.240990 0.227364 0.710031 -0.297372 -0.215056 -0.367987 -0.741486 -0.686843 1.086495 0.628401 0.716063 0.020737 -1.040754 -0.442486 1.494796 0.256398 -0.072583 0.634031 0.146345 -0.575781 0.193659 0.686364 0.813828 0.744854 -0.418878 -1.428770 0.820986 -0.473917 -0.581053 -0.086962 -0.961157 -0.274096 0.307437 -0.282653 -0.506899 0.400273 -1.595679 -0.042821 -1.003266 -1.409092 0.516702 -1.835003 -1.921708 -0.793217 -0.003419 0.360393 0.366462 -0.275371 -1.290637 0.069571 -1.552507 -1.509455 -0.198562 -0.691162 1.635939 2.268819 
    http 0.357790 -1.128060 1.322192 0.832477 -0.442011 0.564185 0.589258 0.394006 -0.269859 -1.415416 -1.151705 -0.163474 -0.326050 2.353091 -0.815129 -0.884818 0.024056 -0.526538 -0.509924 -1.197667 0.886271 -0.443330 0.758296 1.905891 2.174188 0.286231 2.186927 -1.139047 1.629515 0.752453 0.059150 0.622714 -1.285841 0.977630 -0.670683 0.813382 0.178719 0.920098 1.071980 0.598463 0.437731 0.458332 -1.051452 0.296404 0.933478 -0.178128 -0.389616 0.071070 1.271361 -0.478144 -0.564578 0.619874 0.300444 -0.273065 0.633991 0.405873 0.602577 1.099830 -0.357755 -1.395251 -0.849199 0.284414 -0.181851 -0.283938 -1.092029 -1.043476 -1.817800 -0.909899 -1.561629 0.537021 1.735107 0.484310 0.600076 -0.771111 -0.332786 -0.166272 -0.185701 -0.185467 0.922263 1.041176 0.624154 0.289908 1.572242 0.829472 0.367359 -0.212692 -0.739431 0.326043 -0.676531 0.221337 0.463970 -2.648719 0.853113 1.698196 -0.532771 -0.260186 0.091186 -0.790238 -0.466587 0.9283610.461006 -0.101692 -0.649082 0.374383 0.291725 -1.219079 -0.569625 0.227667 -0.031928 -1.398760 -0.604408 -0.242289 0.268465 -0.129413 0.312929 0.163318 -0.528172 1.635753 0.422734 0.167543 1.219644 -0.064137 0.226555 0.093030 0.765308 1.647635 -0.907463 -0.286778 0.709045 0.063878 0.377348 -0.726679 0.039296 0.923758 -0.370950 0.135635 0.947269 -0.259729 -0.523168 0.303467 -0.821508 0.862522 0.581352 1.738677 -0.672348 -0.178276 0.372749 -0.688535 0.027470 0.773339 0.207380 0.102010 -0.220577 -0.313932 0.290834 1.519755 0.844025 -0.479230 -0.359589 -0.723244 1.350076 0.789765 0.626507 1.072780 -0.230538 -0.594488 -0.172262 -1.232577 0.276886 -0.371442 0.344279 -1.054108 0.359457 0.031268 0.334266 -0.577317 -0.154667 0.428606 0.020900 -0.096803 0.120269 0.796212 0.343915 0.103605 -0.532199 -0.162407 -0.125628 -0.038576 1.173923 0.319060 -1.507104 0.476998 1.549204 -0.491798 1.093290 -0.190138 -0.243939 0.531329 0.148997 -0.139750 

    有bug的代码

    f=open('/home/xbwang/Desktop/all_vectors','r')
    while True :
    line
    =f.readline()
      #print(line)
    if line == None : break a=line[:1]
      #print(a)
    f1=open('/home/xbwang/Desktop/a.txt','a') f1.write(a+' ')

    错误代码生成的数据是乱码,通过添加print这种调试方法才找到来错误所在

    错误原因:自己认为切片就是自动切空白,实际上列表的切片切的是列表的元素,真正分割空白的是split

     >>> line=f.readline()
     >>> a=line[:1]
     >>> a
     ‘<'
     >>> a
     '<'
     >>> a=line[4]
     >>> a
     ' '
     >>> a=line[5]
     >>> a
     '0'

       这是读文件第二行的情况,可以看出,读出的都是字符串,并且列表line的索引5不是0.004003,而是0

    readline每读一次返回文件的一行到一个list,a=line[:1]处理第一行返回结果为<,处理http向量所在行返回结果为h,处理第向量所在行返回结果为乱码。

    正确的代码

    f=open('/home/xbwang/Desktop/all_vectors','r')
    while True :
        line=f.readline()
        if line == None : break
        a=line.split()
        b=a[0]
        print(b)
        f1=open('/home/xbwang/Desktop/a.txt','a')
        f1.write(b+'
    ')

    split默认的分割符是空格
  • 相关阅读:
    嵌入式为什么要用Linux操作系统
    SPI 协议的理解
    跳转某指定地址、给某绝对地址赋值
    define 宏定义
    笔试--编程题
    spring 技巧集锦
    spring data jpa auditing
    spring security
    Python基础笔记
    调试EF源代码环境配置
  • 原文地址:https://www.cnblogs.com/ymjyqsx/p/6208475.html
Copyright © 2020-2023  润新知