Sitting in an Armchair

取るに足らない勉強日記

DeepL翻訳を使った論文読みの注意点

「DeepL翻訳を使うと爆速で論文が読める」というのがTwitter上で話題です(2020年5月1日現在)。実際、私も日本語以外の論文を読むときにはほぼ確実に使うようになった(なってしまった?)のですが、たまに問題に感じるところがあったりもしたので、それを書いておきます。

DeepL翻訳とは

ドイツのスタートアップ企業が開発している無料の機械翻訳サービスです。
2020年3月ごろに日本語にも対応し、翻訳がほかのサービス(主にGoogle翻訳)と比べてかなり自然だというので話題になりました。
www.deepl.com

使い方としては他の翻訳サイトと同じで、文章をコピーしてぶち込むだけです。

f:id:v_yezoensis:20200501122342p:plain
DeepL翻訳の画面
画像の左半分のところに文章を入力すれば、ちょっと待てば言語を自動判別して翻訳してくれます。一度に翻訳できる上限は5000字のようですが、これは論文で言うと1~2ページ分くらいを一度にやってくれるイメージと思います。ペーパーのレイアウトにもよりますが。
5000字いっぱい入力しても大体5秒くらいで訳してくれるので、個人的にはスピード感も十分です。

DeepL翻訳を使った論文読みプロセス

Twitterでえらいひとたちがいっぱい紹介してくれているので、それを見てください。
twitter.com
私はコピペ→翻訳を別文書に貼り付け→それを繰り返して全体の訳を作る→原文と横並びで読む、という方法で読んでます。

DeepL論文読みで困ったところ

本題です。
コピペ→読む、のループだけ回していれば読めるのであれば非常に楽なのですが、完全に半自動化というわけにいかないところも何個かありました。

要は、コピペをしても正常に訳してくれないことがあるので、手作業で修正が必要なのです。
しかも5000字訳すときにはだいたい10~50か所は手作業の修正が入ります。

正常に翻訳されない問題もいくつかタイプがあって、困る度合いも結構違うのですが、だいたい以下の通りだと思います。★が多いほど個人的に深刻な問題です。

  • DeepL特有の問題
    • [★★★★★] 脚注がついてると翻訳されない問題
  • 単にコピペがうまくできないパターン
    • [★★★★☆] 数式表記の位置がずれる問題 
    • [★★★☆☆] 要らんところに改行が入っちゃう問題
    • [★☆☆☆☆] 文字間のスペースが詰まっちゃう問題

DeepL特有の問題

Google翻訳やみらい翻訳だと訳されるのに、DeepLだと訳されない事案です。しかも手作業で修正しないと翻訳がまるまる抜けてしまうので、読むときに十分な注意が必要です。

脚注がついていると翻訳されない問題

ほぼそのままなのですが、脚注番号がついている場合、その前後の文章がまるまる翻訳されません。1文が翻訳から落ちるということになるので、重要な情報を読み逃してしまうことにもなります。
ためしに、脚注のついた文章をDeepL翻訳・Google翻訳・みらい翻訳の3つで翻訳してみます。

f:id:v_yezoensis:20200501132416p:plain
赤い部分を訳してみます。緑にマーカーを引いたところに脚注があります

まず、Google翻訳とみらい翻訳で試してみます。
黄色マーカーをひいた部分が脚注のついている文章ですが、不自然さなどを抜きにして、翻訳はなされていることがわかります。ついでに脚注番号もそのまま残っていますね。

f:id:v_yezoensis:20200501135442p:plain
Google翻訳。黄色マーカーの部分でちゃんと翻訳されている
f:id:v_yezoensis:20200501135448p:plain
みらい翻訳。黄色マーカーの部分がちゃんと翻訳されている
ところが、DeepL翻訳でやると、脚注がついた文章がスキップされ、次の文章から翻訳が始まっていることがわかります。
f:id:v_yezoensis:20200501135927p:plain
DeepL翻訳では黄色マーカーの脚注付き部分が翻訳されない
おそらく、脚注番号がピリオドにくっついているのが問題です。ピリオドと脚注番号の間にスペースを入れるか、脚注番号を消すかの手作業をしないと、この文章は翻訳されません。
翻訳が不自然とか以前の問題でそもそも翻訳されないのと、対策も現状手作業しかないので、一番厄介な仕様です。見た目は自然な翻訳に見えるために気づかない人が多そうなのが尚更です。

コピペがうまくできない

このパターンのエラーは、DeepLには何の落ち度もありません。そもそも文章のコピーがうまくいっていないので、その文章をGoogle翻訳にぶち込もうがみらい翻訳にお願いしようが同じ問題はある、というたぐいの問題です。

数式表記の位置がずれる問題

たまに、数式表記が本来の位置で認識されず、変なところに挿入されることがあります。

f:id:v_yezoensis:20200501142043p:plain
ここをコピーしてみると…

A key question is how to measure empirically. Because reimbursemi ment in the pre-PPS regime was based on Medicare’s share of patient days in the hospital (Newhouse 2002, 22), we define as the share of mi Medicare inpatient days. Since, as discussed in the motivating theory, the Medicare share is likely to respond endogenously to the regumi latory change, we measure in 1983, the year prior to the implemenmi tation of PPS.

数式表記のm_iがあちこちに吹っ飛んで行ってしまっていることがわかると思います。私はこれに気づかないうちは、regumilatoryってなんだよ…と無駄な時間を過ごしてしまいました。
これはジャーナルのPDF公開のフォーマット依存のところも大きく、うまくコピーできるジャーナルも多いです。が、発生してしまうと手作業で直さないといけないのでちょっと大変です。
もうここだけ原文で読んでもいいかなって感じはします。

要らんところに改行が入っちゃう問題

文章をコピーすると、不要なところに改行が入ってしまうことがしばしばあります。どの翻訳でも、改行が入るとそこで文章終了という判定がされるので、不自然にぶつ切りの翻訳が現れることになります。
ページ幅のところで毎回改行されているというのはよくあるパターンです。これくらいならかわいい話で、最悪短い部分の翻訳だけなら手作業で直してもいいかなと思えるのですが、たまに下図のようなシチュエーションもあります。

f:id:v_yezoensis:20200501125521p:plain
この文章をコピーしてみると
f:id:v_yezoensis:20200501130141p:plain
ほげえええええ
そんな改行いらんやろ!!!!!
単語ごとに改行が挟まれてしまうと(しかも2つずつ!)、さすがに手作業はつらいです。

こういう時には、不要な改行・スペースを自動で削除してくれるweb上のツールを間に噛ませてやる必要があり、1段階手間が増えます。
不要な改行削除をやってくれるWebツールは「改行削除」でググればいろいろ出てくると思います。例えばこんなものがあります。

そのまま翻訳すると読めないけど、半自動化のステップを増やせば解決はできるので、そこまで重大な問題でもないですね。

文字間のスペースが詰まっちゃう問題

たまに、コピーにスペースが反映されないことがあります。急にごちゃっとした文字の塊が現れるのですこしぎょっとします。

f:id:v_yezoensis:20200501143608p:plain
ここをコピーしてみると

More specifically, under some simple data generatingprocessesthatareconsistentwiththestatedassumptionsoftheOP/LP models, the moment condition underlying the first stage estimating equation does not identify the labor coefficient. The problem is one of functional dependence.

ただ、実はこのごちゃっとした塊をそのまま翻訳に投入しても、それなりに意味の通る翻訳をしてくれるので(ほかのサービスも同様)、大きな問題ではないと思います。
上の文章を翻訳してみたら、スペース入れなくても入れたものと同じ翻訳を出してくれました。

f:id:v_yezoensis:20200501144045p:plain
ごちゃっとしたまま翻訳
f:id:v_yezoensis:20200501144054p:plain
スペースを手作業で挿入して翻訳
そのままでも読めるという意味ではほぼエラーとも言えないレベルですね。

まとめ

DeepL翻訳での論文読みも万能ではないです、とくに脚注問題は注意しつつ使ったほうが良いと思います。
まあ大体の流れを翻訳でつかんだ後は原文読みましょうね!という話でもあります。もとから原文読めば何の問題もないですけど

事例提示に使った論文は以下の通りです。