博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
02-NLP-04基于统计的翻译系统-01预处理
阅读量:6095 次
发布时间:2019-06-20

本文共 685 字,大约阅读时间需要 2 分钟。

基于统计的机器翻译:mosesdecoder作为比对翻译效果的baseline,如果不如这个的效果,就说明测试系统效果不算好。

首先看看一共需要以下三个模型:

语言模型:用来评估这句话的通畅程度。

1、需要从大量的语料中学习出在新的句子知道对应的英语翻译是什么。

2、翻译模型:实质是基于短语的(不是基于单词的翻译)

3、平行语料:只要中英文两个文件中行是相同的,那他们就是相互对应的中英文

4、在大量的平行语料中学习出该怎样去完成。可能会对词进行一些表示,例如word2vec等将文字表示为计算机能读懂的向量。然后做后续的映射。

5、基于统计的机器翻译就是做大量运算之后得到一个统计表:中文对应英文某表达的概率(可能有很多对应,但是每种对应方式会有不同大小的概率值)

6、对于数字、日期、时间、网址等这类不需要翻译(翻译前后都是一模一样的数字),无需为他们在统计表中记录下来,因此可以提前将所有苏子都转化为$number标记好,然后在训练时就直接原封不动的保留下来即可,不必放入统计表中计算映射关系。

这类均可以通过自行定义泛化名进行原文替换。同时,泛化可以很好地解决数据稀疏的问题(因为所给的这些量只会有很少的次数对应,有可能所有个文档中就出现一次)

因此,可以对所有你认为有必要且能规整为一个固定模式的量都进行这样的泛化处理。

7、提前将训练数据做好分词(可以利用jieba等)对整个文件做好分词。如果不做这些预处理,会有很多冗余的信息量,会浪费很多内存。

 

转载于:https://www.cnblogs.com/Josie-chen/p/9133959.html

你可能感兴趣的文章
10、程序员和编译器之间的关系
查看>>
前端学习之正则表达式
查看>>
配置 RAILS FOR JRUBY1.7.4
查看>>
Beta阶段——Scrum 冲刺博客第五天
查看>>
指令汇B新闻客户端开发(五) ShareSdk的使用
查看>>
AndroidStudio中导入SlidingMenu报错解决方案
查看>>
http://www.blogjava.net/pdw2009/archive/2007/10/08/151180.html
查看>>
cocos2d-x 画
查看>>
hadoop(6)---mapred-site.xml 详解以及常用配置。
查看>>
修改GRUB2背景图片
查看>>
Ajax异步
查看>>
好记性不如烂笔杆-android学习笔记<十六> switcher和gallery
查看>>
JAVA GC
查看>>
codeforce 599B Spongebob and Joke
查看>>
3springboot:springboot配置文件(外部配置加载顺序、自动配置原理,@Conditional)
查看>>
9、Dubbo-配置(4)
查看>>
前端第七天
查看>>
BZOJ 2190[SDOI2008]仪仗队
查看>>
图解SSH原理及两种登录方法
查看>>
[转载] 七龙珠第一部——第058话 魔境圣地
查看>>