其他任务
以下是通过概率性语言模型处理的一些其他任务。
语言识别
存在Web协议来声明网页的编码语言。实际上至少存在两种协议,一种在HTML,另一种在HTTP。但是有时这两种协议不一致,它们都不表示真实的信息,因此搜索引擎在搜集了一些已知语言的样本页面后,通常通过基于实际页面内容对页面进行分类。任务是写一个这样的分类器。该技术的前沿水平是语言识别的准确率超过99%。
垃圾邮件检测和其他分类任务
据估计,每天发送的垃圾邮件有1000亿封。给定垃圾邮件和非垃圾邮件两个语料库,任务是对未来的消息进行分类。最佳的垃圾邮件分类器包含N元单词模型(包含“10000000.00 will be released”和“our country Nigeria”的消息很可能是垃圾邮件)以及N元字符模型(“v1agra”可能是垃圾邮件)等特征。该任务的前沿技术是通过垃圾邮件拦截方式,其准确率超过99%。一旦你可以对文档分类为垃圾邮件/非垃圾邮件,那么你就可以很容易地进行其他方式的分类,比如紧迫/非紧迫邮件消息,或者对新闻文章的分类,如政治/商业/体育/其他,或者产品反馈的分类如“喜欢/一般/不喜欢”。
作者识别(文体学Stylometry)
语言模型已经被用于识别《Federalist Papers》、莎士比亚的诗和《圣经》的有争议的作者。相似的技术还被用于追踪恐怖组织,在刑法中,用于识别和找到罪犯。该领域还不太成熟,我们还不太确定什么是最佳实践,或者期望概率是多少,虽然2004年竞赛的胜出者的准确率达到71%。竞赛的最佳实践在语言上很简单,但是在统计上非常复杂。
记录文档重组和DNA序列化
在Vernor Vinge的科幻小说《Rainbows End》(Tr Books出版),Librareome项目通过把所有书籍扔到树碎纸机、对碎片拍照和使用计算机算法重新组合这些图片的方式数字记录整个图书馆的信息。在实际生活中,德国政府的E-Puzzler项目正在重新构建4500万页面的记录文档,它们被民主德国秘密警察Stasis所破坏。这两个项目都依赖复杂的计算机视觉技术。但是一旦把图像转化为字符,即可使用语言模型和爬山算法来重新组合那些碎片。可以采用类似的技术来解读生命之语:人类基于组项目使用了称为shotgun序列化技术来重新组合DNA碎片。因此,所谓的“下一代序列化”把更多的负担从Web实验室转移到大规模的并行重组算法。
机器翻译
G公司的N元语料是由机器翻译组的研究人员创建的。把外语(f)翻译成英语(e)和纠正拼写错误的单词很相似。最佳的英语翻译建模如下:
best=argmaxe P(e|f)=argmaxe P(f|e)P(e)
其中,P(e)是英语的语言模型,通过N元语法模型数据进行估计,而P(f|e)是翻译模型,通过双语语料库进行学习:在双语语料库中,一对文档被标记为相互的翻译。虽然高端系统利用了语言学特征,包括很多句子的一部分词和语义解析,但是结果发现翻译需要的绝大部分知识来自于n元文法模型数据。