荔园在线

荔园之美,在春之萌芽,在夏之绽放,在秋之收获,在冬之沉淀

[回到开始] [上一篇][下一篇]


发信人: Minatl ([3;38H[]到本站一游。), 信区: Program
标  题:  我在大学写的第一个故事(第二版)
发信站: BBS 荔园晨风站 (Sat Mar  4 22:21:37 2000), 转信


作者: Minatl


    大学毕业后我没有去找工作,和几个大学的同学开了一家软件公司,开始了我们的
创业生涯。我们的的目标是成为深大自巨人集团和OpenICQ后的第三个传奇!
    我们公司规模虽然不大,但是我们相信IT这一行是没有"伦理的",只要我们敢创、
敢干一样有机会击败那些大公司。
    由于互连网是最容易出奇迹的,所以我们选择了它为我们的研发方向。
    我们发现互联网上信息泛滥,用户想在最短的时间里找到他所需的信息,所以造就了
信息搜索引擎的成功。但我们又发现互连网搜索引擎虽然出现了多年,但都是基于关键字
的,没有基于问句。开发基于问句的索引引擎我想很多的公司都想到了,但可能他们由于
觉得难度很大所以退缩了。因为这里牵涉到了自然语言的识别问题。这是很棘手的问题,
我大学时候研究过一下这个问题,所以有一些了解。
    自然语言的识别最早是企图用模式识别来解决的,后来又加入了语法分析的算法,
但是由于语言表达的灵活性,识别的正确率始终是不高。经过多年的研究,发现数据库才
是解决问题的方向。但是我们现在遇到的问题只是简单句的识别,所以难度还是相对比较
小的。
    我们现在只考虑用户提出简单的疑问句的情形
    设A是我们想找的资讯的中心词
    问句不外乎这2种:
    1) 哪里可以找到A
    2) 怎么解决A

   由这两种疑问句的不同的疑问词的替换所派生出来的不同句式也是有限的,
再加上一些模糊分析算法,所以我们要理解用户的意思是基本没问题的。

   现在最大的问题是如何才能找到问句的答案,即信息数据库的建立问题。我们要建
立有效的信息数据库我们必须知道用户会问什么。这太难了,因为这太不确定了,范围太
大了!考虑到成本和时间问题,所以我们先只把最有可能问到的信息存入库中。(存入的
是信息的连接,对同一种信息只给出一个链接)

   我们先找出各类资讯的代表性站点。然后作机器分析或人工提取。
个大网站的布局都不尽相同,机器分析可能要对不同的网站编程,提取效率不一定比人手
提取效率高,所以必须权衡一下,以高效节约为原则。
   我们很快就按着我们的想法去做了,做出来的引擎与一般的索引引擎相比有如下的优点:
    1)自然语言索引(其实也没什么特别的,加了一些模糊分析技术而已^_^)
    2)问啥答啥(鬼叫我们穷,一条问题只能给出一个答案,所以就干脆就帮用户链接
                 到答案的URL里去了^_^)

   做出来的效果还可以,轰动了一时,但还是斗不过国内的一些大公司的搜索引擎,我想
我们可能忽略了一些东西,这是。。。(商业秘密我不能说出来,不过我可以告诉你们这
不单只是数据库的问题)

后记:
情况一:我们得到了风险投资,大力改进引擎、加快数据库的更新与大公司一争高下。。
情况二:我们没得到了风险投资,放弃数据库的更新(但没有放弃引擎的改进)在内部偷
        调大公司的搜索引擎。。。


--
※ 修改:·Minatl 於 Mar  5 11:41:34 修改本文·[FROM: 192.168.0.90]
※ 来源:·BBS 荔园晨风站 bbs.szu.edu.cn·[FROM: 192.168.0.90]


[回到开始] [上一篇][下一篇]

荔园在线首页 友情链接:深圳大学 深大招生 荔园晨风BBS S-Term软件 网络书店