http://tieba.baidu.com/p/921609137?pid=10093515358&cid=0#10093515358
纯文本人工智能是什么呢?我以为,它是人工智能的大脑。图像识别只是人工智能的眼睛,它最终生成的信息也应该是一些文本描述信息,如“前方5米处有棵树”、“远处有座山”、“现在的速度是10米每秒”。这些信息在传到纯文本人工智能里后识别处理,并生成反应指令。声音识别就是人工智能的耳朵,传感技术就是人工智能的触觉,它们也和图像识别一样,主要功能是接受外在信息,并生成内部可以理解的信息。人有眼耳鼻皮肤等器官,以识别判断外界环境和信息,用大脑来分析处理这些外来信息。而纯文本人工智能就是没有眼耳鼻等器官,也没有手脚等行动器官。有的仅仅只是大脑。纯文本人工智能应该有学习,分析,判断,想象,响应等智能生命的基本功能。
所谓纯文本就应该有一个语言环境,由于对外国语言了解不多,就不多做评述了,但是汉语应该是最适合做纯文本人工智能的语言之一了。汉字有以下一些特性,首先是字数基本固定,产生的词汇也基本固定,通过不同的组合,能表达所需要的所有信息。二是汉语的语法也最适合智能程序的编写。
常用汉字不多,就六千多,但也不少,索引所有的词也不会造成词链过长的情况。
汉语语法也很重要,在我所构建的数据结构中,有两个最重要的字“是”和“有”。这两个既是字又是词,在程序里有非常重要的地位,因为用这两个字可以解释和归纳几乎所有名词,举个例子:“我的职业是教师。”这句话中就包括的好多信息,包括 (可以存储起来的信息),“我有职业”,“我是教师”,“教师是职业”,“职业有教师 ”等,通过“有”和“是”我们就可以吧这些信息存储起来。有兴趣的可以自己举些例子来分析下。 名词有了存储的结构,那动词呢?也有,就是利用中国的五行学说来实现,有兴趣的可以自行研究。
下来说说村文本人工智能的具体基础数据结构。首先是字链表,它包括“字”、“拼音”等元素。由于我们使用的vc2008编写的程序,它支持宽字节字符(Unicode),所以字结构体组成的链表可存储,汉字,标点符号,英文字母,等世界上所有已知的符号。
词结构体是纯文本人工智能中最复杂的也是最重要的一部分,最基本的包括,“词”、“词性”、“是什么”、“有什么”等,以上是名词用上的元素,关于动词的这里先不讲。
句子链表就是在词结构体的基础上加了部分内容组成,主要加了一个“当前词性”,因为有的词有多个词性,我们需要区分它在当前句子中的词性。像这样的句子“我的同学的爸爸是教师。”,还需要“幽影指针”,因为“我的同学的爸爸”是由五个词组成,但在句子中表达了一个专有名词,张三(假如:我的同学的爸爸是张三),这是就需要“幽影指针”指向张三。
最后就是事件链表了,事件实际上就是记叙文了,包括时间,地点,人物,事件等要素。
再讲讲程序的大体框架,由于是拟人的程序,所以多线程是跑不了了。主线程是一个对话框,用以输入输出信息,还有任务列表这三块。次线程包括“思考线程”、“事件线程”、“回应线程”等。
大家有兴趣没?有的话后边接着说几个线程的实现方法.