Improving Lexical Choice in Neural Machine Translation. Toan Q. Nguyen & David Chiang

Size: px

Start display at page:

Download "Improving Lexical Choice in Neural Machine Translation. Toan Q. Nguyen & David Chiang"

Anna Harmon
5 years ago
Views:

1 Improving Lexical Choice in Neural Machine Translation Toan Q. Nguyen & David Chiang 1

2 Overview Problem: Rare word mistranslation Model 1: softmax cosine similarity (fixnorm) Model 2: direction connections (fixnorm+lex) Experiments & Results 2

3 Rare word mistranslation src ref NMT Ammo muammolar hali ko p, deydi amerikalik olim Entoni Fauchi. But sull there are many problems, says American scienust Anthony Fauci. But there is sull a lot of problems, says James Chan. NMT tends to translate words that seem natural in the context, but do not reflect the content of the source sentence (Arthur et al., 2016). 3

4 h<latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> Softmax query vector B A 4

5 h<latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> Softmax using dot product query vector A B 5

6 h<latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> Softmax using dot product query vector A B A might be closer in direction still, B wins 6

7 h<latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> Softmax using dot product query vector A B 7

8 <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> Softmax using dot product query vector h<latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit>

9 h<latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> Softmax using dot product Source: Ammo muammolar hali ko p, deydi amerikalik olim Entoni Fauchi. Reference: But still there are many problems, says American scientist Anthony Fauci. NMT: But there is still a lot of problems, says James Chan. query vector Anthony Fauci Director NIAID Margaret Chan Former Director WHO 9

10 <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> <latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> Softmax using cosine similarity (fixnorm) Source: Ammo muammolar hali ko p, deydi amerikalik olim Entoni Fauchi. Reference: But still there are many problems, says American scientist Anthony Fauci. NMT: But there is still a lot of problems, says James Chan. Fixed-norm: But there is still a lot of problems, says American scientist. query vector Solution: fix magnitudes of vectors to constant h<latexit sha1_base64="eocxerqep48atrgieqyvv2nhrs4=">aaab8hicbvbns8naej3ur1q/qh69lbbbu0le0gpri8ck9kpaudabtbt0swm7e6ge/govhhtx6s/x5r9x2+agrq8ghu/nmdmvskuw6lrftmltfwnzq7xd2dnd2z+ohh61tzjpxlsskynubtrwkrrvoudju6nmna4k7wtj25nfeelaieq94ctlfkyhskscubtsyx+fdhk+mg6qnbfuzkfwiveqghrodqpf/tbhwcwvmkmn6xluin5onqom+btszwxpkrvtie9zqmjmjz/pd56sm6uejeq0lyvkrv6eyglszcqobgdmcwswvzn4n9flmlr2c6hsdllii0vrjgkmzpy9cyxmdoxeesq0slcsnqkamrqzvwwi3vllq6r9uffcund/wwvcfhgu4qro4rw8uiig3eetwsaghmd4htdhoy/ou/oxac05xcwx/ihz+qmrdzci</latexit> with weight normalization Anthony Fauci Director NIAID Salimans and Kingma (2016) Margaret Chan Former Director WHO 10

11 Direct Connections (fixnorm+lex) Chan Pro: Word choice depends on output source and target context Con: Word choice depends on decoder source and target context encoder Fauchi 11

12 Direct Connections (fixnorm+lex) Fauci Pro: Word choice depends on output decoder source and target context Con: Word choice depends on source and target context Solution: Add a more direct path encoder that depends only on source word Fauchi Reference: But still there are many problems, says American scientist Anthony Fauci. Fixed-norm + lexical: But there are still problems, says American scientist Anthony Fauci. 12

13 Direct Connections (fixnorm+lex) 13

14 Direct Connections (fixnorm+lex) Fauci l nmt h t c t h t h s Ammo olim Entoni Fauchi <bos> Anthony Fauci 13

15 Direct Connections (fixnorm+lex) Fauci l lex l nmt h t c t c e h t h s Ammo olim Entoni Fauchi <bos> Anthony Fauci 13

16 Experiments We compare our models against the following baselines: Moses NMT + tied embedding (Inan et al., 2017; Press and Wolf, 2017) Arthur: NMT + tied embedding + discrete lexicon by Arthur et al. (2016) NMT systems: Global attention + general scoring + feed input (Luong et al., 2015a) Datasets: 9 datasets, 8 language pairs, ranging from 0.1-8M words Training: Adadelta, dropout, select checkpoint based on dev BLEU 14

17 Results (word-based) 15

18 Results (word-based) NMT Moses/bitext LM Arthur fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Ja(KFTT)* Lower resource Higher resource 15

19 Results (word-based) NMT Moses/bitext LM Arthur fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Ja(KFTT)* Lower resource Higher resource 15

20 Results (word-based) NMT Moses/bitext LM Arthur fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Ja(KFTT)* Lower resource Higher resource 15

21 Results (word-based) NMT Moses/bitext LM Arthur fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Ja(KFTT)* Lower resource Higher resource 15

22 Results (word-based) NMT Moses/bitext LM Arthur fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Ja(KFTT)* Lower resource Higher resource 15

23 Results (word-based) NMT Moses/bitext LM Arthur fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Ja(KFTT)* Lower resource Higher resource 15

24 Alignments & replacement Koehn and Knowles (2017): Alignments are sometimes shifted Could affect replacement (Luong et al., 2015b) Koehn and Knowles,

25 17

26 17

27 17

28 17

29 17

30 17

31 17

32 17

33 17

34 17

35 17

36 Byte Pair Encoding (BPE) communists > + sts agglomerációs > ációs 18

37 Results (BPE) 19

38 Results (BPE) NMT Moses fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Lower resource Higher resource 19

39 Results (BPE) NMT Moses fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Lower resource Higher resource 19

40 Results (BPE) NMT Moses fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Lower resource Higher resource 19

41 Results (BPE) NMT Moses fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Lower resource Higher resource 19

42 Results (BPE) 30 NMT Moses fixnorm fixnorm+lex BLEU Ta Ur Ha Tu Uz Hu Vi Lower resource Higher resource 19

43 What s different about BPE? 20

44 What s different about BPE? Here 's V@@ la@@ di@@ mi@@ r src T@@ sa@@ st@@ sin form T@@ art@@ u in E@@ st@@ onia. ref Đây là Vladimir Tsastsin đến từ Tartu, Estonia Đây là V@@ la@@ di@@ mi@@ r T@@ NMT sa@@ st@@ sin ở E@@ st@@ onia. (Đây là Vladimir Tsastsin ở Estonia.) 21

45 Conclusion We present two simple and effective solutions for rare word mistranslation Word-based: improvements on all tested languages, up to +5.5 BLEU BPE-based: improvements on lowresource languages, up to +1.9 BLEU 22

46 Code improving_lexical_choice_in_ nmt Thanks! 23

47 Train perplexity 24

48 Train perplexity NMT fixnorm fixnorm+lex Train perplexity Ta Ur Ha Tu Uz Hu Vi 24

49 Train perplexity NMT fixnorm fixnorm+lex Train perplexity Ta Ur Ha Tu Uz Hu Vi 24

50 Train perplexity NMT fixnorm fixnorm+lex Train perplexity Ta Ur Ha Tu Uz Hu Vi 24

51 Train perplexity NMT fixnorm fixnorm+lex Train perplexity Ta Ur Ha Tu Uz Hu Vi 24

52 Dev perplexity 25

53 Dev perplexity NMT fixnorm fixnorm+lex Dev perplexity Ta Ur Ha Tu Uz Hu Vi 25

54 Dev perplexity NMT fixnorm fixnorm+lex Dev perplexity Ta Ur Ha Tu Uz Hu Vi 25

55 Dev perplexity NMT fixnorm fixnorm+lex Dev perplexity Ta Ur Ha Tu Uz Hu Vi 25

56 Dev perplexity NMT fixnorm fixnorm+lex Dev perplexity Ta Ur Ha Tu Uz Hu Vi 25

Neural Hidden Markov Model for Machine Translation

Neural Hidden Markov Model for Machine Translation Weiyue Wang, Derui Zhu, Tamer Alkhouli, Zixuan Gan and Hermann Ney {surname}@i6.informatik.rwth-aachen.de July 17th, 2018 Human Language Technology and