准备一批数据,先不说标注有多些麻烦吧,生成xml文件费了些功夫。但是还好,解决的比较快。就是细节的东西太伤人,当时生成xml文件时,是用python做的,当时看到了生成的xml文件有<xml version ****>等等这样的开头信息,我当时也注意到了,这和标准数据给的xml文件时不一样的,但是测试时用python测试的,读xml文件时没问题的,也就没有深究有这个开头的信息是否可以去掉的问题,模型训练也成功了。当然,训练模型时读xml文件也是用的python,开头的那些信息并不影响的。但是,在测试阶段,matlab程序总是挂掉。开始挂掉是由于我自己的原因,我之前要做个测试,于是把官方的程序改了一点,结果出错。把这个改过来,就出现无法解析开头的那段信息的错误。于是,知道绕不开了,解决掉。本来想python会有办法,从新生成一下xml文件,把开头的信息去掉,结果查一下,真不好做。尤其是我的程序改动挺多的要,于是再查,想到可以用字符串替换。
本来想用awk,结果查了一下,不好用,配置文件并不是按照列存储的,我要按照行处理,或者就是一个单一字符串。于是想到了有sed,于是找到了上一篇博客的处理方法。瞬间解决了问题。
真的是好麻烦呢,现在把一批xml文件解决了,不过由于下午着急把另外一套模型训练起来,没有测试python读时会不会有问题。下周继续吧,不过估计没什么问题的,就是要继续找一个办法,生成xml文件时如何不让开头的信息存在。
真的觉得好麻烦啊,数据的准备超级郁闷。