「単語単位のトークン化を使用する」の設定について

日本語から英語への翻訳において、「原文がアジア言語の場合に単語単位のトークン化を使用する」の設定の動きを確認させてください。

SDL Trados Blog の 「Trados Studio 2019 – 進歩した日本語原文の解析」というガイドを参考にさせて頂きましたが、どうもこのガイドの説明と実際の動きが合っていないように思えましたので、よろしくお願い致します。

例として、「実行条件」という原文と、「execution condition」という訳文をメモリに登録しました。

 

 ■ 単語単位のトークン化を使用しない場合 (チェックボックスをオフにした場合)

「実行条項」という原文を訳そうとすると、以下のようにメモリがヒットしてきます。

■ 単語単位のトークン化を使用する場合 (チェックボックスをオンにした場合)

「実行条項」という原文に対しては以下のようになり、メモリがヒットしてきません。

 

  

使用している Trados のバージョンは、2017 SR1 CU18 です。

メモリの検索設定は、以下のように、一致率の最小値は 70%、フラグメント一致は有効、にしています。

上記の例はたった 4 文字で、実際の翻訳の分節としては極端に短いので、なんで 82% になるんだろうとか、単純に文字でヒットさせても 75% にはなるんじゃないのとか、そういった細かいことはあまり気にしていません。私が気になっているのは、単語単位のトークン化を使用した方がメモリのヒットが少なくなっていることと、この設定が、解析だけでなく、実際のエディタでの作業にも影響していることです。

私は翻訳会社から翻訳を依頼される個人翻訳者という立場であるため、以下のように考えています。 

・解析時は、従来どおり文字ベースでマッチ率を計算して欲しい

・エディタでの作業時は、フラグメント一致の機能を使いたい

 これを実現してくれるのが「単語単位のトークン化を使用する」の設定かと思っていたのですが、違ったでしょうか???

 

従来どおり文字ベースでマッチ率を計算するには、この設定をオンとオフのどちらにすべきでしょうか。 

また、作業時にフラグメント一致 (upLIFT) の機能を使うには、この設定を変える必要があるでしょうか。

 

ちなみに、パッケージで渡される場合、翻訳者側ではこの設定を変更できません。ですので、もし設定が必要であるのであれば、翻訳会社さんにお願いするしかなく、それはそれでとても面倒なんじゃないかと思っています。

 

長くなりましてすみませんが、よろしくお願い致します。

Parents Reply
  • すみません、SDL Trados Blog の 「Trados Studio 2019 – 進歩した日本語原文の解析」というガイドを読み直してみたのですが、私が大きな勘違いしていたような気がしてきました。
    「単語単位のトークン化」という機能は、文字数ではなく単語数を数えるときに影響するもので、それ以外には基本的には関係ないのですね。

    2017 になってからマッチ率がずいぶん上がったと感じていたので、SDL Trados Blog の「翻訳メモリの互換性 SDL Trados Studio 2019 / 2017 / 2015」で説明されている、解析結果の差異と、「単語単位のトークン化」が関係しているのではないかと思ってしまっていました。


    いろいろとお騒がせしましたが、以下の理解でよろしいでしょうか。

    • 「単語単位のトークン化」は、日本語原文でも、文字数ではなく単語数を知りたいときのみ使用する。
    • 「単語単位のトークン化」を使用しないからといって、マッチ率が下がるわけではない。
      (つまり、「単語単位のトークン化」を使用しなくても、TM の単語やフレーズレベルでの一致などの機能強化のメリットは享受できる。)


    ということで、だいぶ理解できたと思うのですが、最後に 1 つだけ、質問させてください。

    上記に挙げたブログで「解析結果の差異が解消された」と説明されていますが、この解析結果というのは、「単語単位のトークン化」を使用しない場合の数字でしょうか。

    この投稿の最初のサンプルに挙げたとおり、「単語単位のトークン化」を使用するかしないかで解析結果のマッチ率が変わってきます。「単語単位のトークン化」はデフォルトでは無効であり、私個人の経験の範囲では、翻訳会社から送られてくるほとんどのパッケージで無効になっていたと思います。ですので、「単語単位のトークン化」を使用しない状態で、解析結果の差異が解消されたということでしたら問題ないと考えています。

    本当に何回もすみません。最初の投稿からは質問の内容も変わってしまいましたが、どうぞよろしくお願いします。

Children
  • 投稿いただきありがとうございます。「単語単位のトークン化」を使用しない状態では、日本語原文のTM一致は「文字単位でどれだけ一致しているか」という機械的な基準で判定されます。

    これは単純な文字ベースの比較による判定ですが、「より言語的な解析によって単語上の類似性を判定する」ことが「単語単位のトークン化」であるとご理解ください。従いまして、このように文字数の短い文章ではこのオプションを使用しないほうがマッチ率が高いということは確かにありえます。

    しかし下記の例のように、「一致している文字数の機械的な比較」だけではヒットしないTM一致も拾い上げることができるようになったこともご理解ください。

    こちらは、単語単位のトークン化により「より言語的に合理性のある比較結果」であると言えます。

    また、ご理解のとおり、ブログでの解析結果の互換性に関しましては、このオプションを使用しない前提でのものとなります。