AAMT機械翻訳課題調査委員会とUTX

2019年3月20日は、AAMT(アジア太平洋機械翻訳協会)機械翻訳課題調査委員会の最後の会合でした。この委員会は、AAMTの体制変更に伴い解散することとなりました。関係者の皆様、長い間お疲れ様でした。

私は2006年からAAMTに参加し、その後、ワーキンググループ3「標準化」のリーダーとして用語集形式UTXの策定を行いました。AAMTでは、言語処理学会、情報処理学会MT Summitなどでの発表をしたほか、ISOの委員としても国際会議で発表させていただきました(UTX関係の発表)。

UTXやUTXに基づく用語データは、企業や官庁で用語管理に活用いただいています。

用語データは翻訳での縁の下の力持ちであり、表舞台に出ることはありません。残念ながら日本では用語管理の考え方は未だに十分に浸透していません。 ニューラル機械翻訳の時代でも、特に技術翻訳・実務翻訳で、用語管理は、翻訳品質を維持するうえで最重要の要素です。

委員会の解散に伴い、UTXの標準化活動は終了します。これまで策定されたUTX用語データは今後とも問題なくお使いいただけます。

UTX仕様書等の使用許諾は、Creative Commons 4.0 BYからCC0 1.0(パブリック ドメイン)に変更され、こちらもどなたでもお使いいただけます。当面はAAMTウェブサイトで継続して公開されます。

UTX簡易仕様書(3ページ)を公開

用語データ形式UTX簡易仕様書の日本語・英語版をAAMTで公開しました。

UTXの最小限の基本をわずか3ページにまとめた仕様書です。

翻訳、 機械翻訳 、技術文書で専門用語をうまく扱いたい方は必見。

シンプルな用語データ形式といいながら詳しく説明したいがために38ページになっていた仕様書を思い切って短くしました。

UTXの詳細を知るには、公式仕様書をご覧ください。

2016/11/25の特許情報シンポジウムで特別講演

_DSC8242-2k

2016/11/25の特許情報シンポジウムで特別講演をさせていただきます。
「文章と翻訳の品質を改善する―構造化用語データUTXによる用語管理と実務日本語ルール」
当方の講演は、UTX用語集の解説が主ですので特許に詳しくない方でもどうぞ。参加費は無料ですが、受付は先着100名様までとなります。シンポジウムでは、Google翻訳で導入されて英日・日英でも精度が上がったと話題のニューラルネットワーク機械翻訳の講演もあります。お誘い合わせの上、多数のご来場をお待ちしております。

UTX 1.11をUTX 1.20に変換する

UTX 1.11をUTX 1.20に変換するのは、ほとんどの場合、ヘッダーの一部を修正するだけで済みます。ただし、UTX 1.20の新機能である「言語ごと用語ステータス」や(完全な)双方向翻訳を活用するには、各項目での修正が必要になります。2016/01/15現在では、各種変換ツールはまだUTX 1.20に対応していませんが、近い将来対応するものと思われます。

utx1.11 to 1.20

 

表1:UTX 1.20でのシンプルな用語集

#UTX 1.20

#src:en

tgt:ja

test

テスト

表2:UTX 1.11でのシンプルな用語集(赤字はUTX 1.20と異なる点)

#UTX 1.11; en/ja; 2016-01-06

#src

tgt

src:pos

test

テスト

 

表3:表2の用語集を最小限の変更でUTX 1.20に対応させた用語集
青字はUTX 1.11と異なる点)

#UTX 1.20; lang: en/ja; creation date: 2016-01-06

#src:en

tgt:ja

test

テスト

UTXの用語ステータスで文章や翻訳を分かりやすくする

UTXでは、用語ステータス(term status)を使って、文章や翻訳の訳文で使われている用語を、より分かりやすい用語で統一できます(用語ステータスの詳細は、UTX 1.20仕様をご覧ください)。意味が同じ同義語でも、「褥瘡」の代わりに「床ずれ」という用語を使ったほうが分かりやすいことがあります。一つのUTX対訳用語集を、「分かりやすい文章」と「分かりやすい翻訳」のどちらにも活用できるわけです。

UTXでは、ある用語を用語集に含めるべきか、用語として適切かどうかを「用語集管理者」が管理します。用語集管理者が、読者にとって難し過ぎるなど、使用すべきでない用語であると判断した場合、用語ステータスで「禁止(forbidden)」を指定します。一方で、使用すべき用語の用語ステータスを「承認(approved)」にします。

さらに、UTX変換ツールを使うと、UTX用語集から、禁止語とそれに対応する承認語のペアを、タブ区切り形式のリストとして抽出できます。次に、換の玉のような置換ツールを使うと、このようなリストに基づいて、分かりやすい用語に一括または逐次置換できます。

synonym-handling

どの語を禁止すべきかという基準は絶対的なものではありません。用語集によって用語集管理者は異なりますし、用語集管理者が異なれば、判断基準も異なります。用語集管理者は、その用語集が使われる組織の合意形成を、用語集に最終的に反映する代表者という位置付けになります。

なお、上図では”yomi:ja”という読みがな情報が入っています。「増悪(ぞうあく)」は「憎悪(ぞうお)」と読み違えることがありますが、ここを見ると違う語ということがはっきり分かります。

この記事についての質問は、翻訳工学ページまでどうぞ!

Glossary ConverterでTBXをUTX(Excel)に変換する

image

ISO標準の用語集形式であるTBXは広く使われています。今回は、Glossary Converterを使用してTBXをUTXに変換する手順をご紹介します。(Glossary Converterをインストールするには、SDL Trados Studioも必要です。)

  1. Glossary ConverterのsettingsでUTXを出力に設定する。
    image
  2. [Use the selected output format for any input format]のチェックをオンにする。
  3. TBXファイルをGlossary Converterにドロップする。
  4. (変換の初回時のみ)各項目にどのフィールド種別(Language、Index、Entry、Term)を割り当てるか訊かれる。各項目を右クリックして、すべての項目をTermに設定する。
  5. もう一度、訳語側のフィールド種別の割り当てでもすべての項目をTermに設定する。
  6. UTXファイルが作成される。

エラーが出た場合

  1. 上記設定画面で、[Use the selected output format for any input format]のチェックを外す。
  2. 手順を繰り返す。
  3. この場合、まずは用語ベース形式の*.sdltbファイルが作成される
  4. 作成された*.sdltbファイルをもう一度Glossary Converterにドロップする
  5. UTXファイルが作成される

手順3でフィールド種別の設定を間違えた場合、以下のファイルを編集して修正できます。
C:\Users\<user>\AppData\Local\SDL OpenExchange\GlossaryConverter\settings.xml

Glossary Converterでは、TBXをExcelに変換することもできますが、UTXに変換してからExcelにするほうが活用の幅が広がるのでお勧めです。

(2016/3/8追記) [Use the selected output format for any input format]の説明を変更しました。

Glossary ConverterからUTX変換ツールにデータを渡す

Glossary Converterはすばらしいツールなのですが、変換結果のUTXファイルを公式UTX変換ツールで使うには、以下の2点を修正する必要があります。
■UTXのバージョン
×#UTX-S 0.91;
→○#UTX 1.11;

■作成日付の形式
×2015/10/23
→○2015-10-23T00:00:00+09:00

この他に、元データの項目などの問題点があるかは、公式UTX変換ツールのUTXファイル検証機能を使ってチェックできます。検証を実行すると、出力されるerrors.logに問題のある行が示されています。エラーがなければ、翻訳ソフト辞書などその他のファイル形式に変換できます。方法はUTX変換ツールのマニュアルにも詳しく書かれています。

http://utxconv.sourceforge.net/ja/#basic_usage

UTX-converter-verification

用語集形式UTXとはなにか

_DSC9147-2k

(用語集形式UTXとはなにか、UTXの基本的な利点を分かりやすくご説明します。)

用語集形式UTXとは、用語集(用語データ)を作るための一定の形式です。

ご存じのように、通訳・翻訳では多数の専門用語や固有名詞が出てきて、正しく訳す妨げとなります。用語のデータとしての形式を統一することにより、多人数の通訳者・翻訳者で共有・再利用がしやすくなります。特定分野でこのような用語集が日々、少しずつでも蓄積されると、用語調べの時間を節約でき、正確な用語で翻訳できるため、通訳・翻訳品質の向上に大きく役立ちます。

逆に言えば、用語集がいくつもあり、それぞれの形式がバラバラだと活用しにくくなり、せっかく作った用語集が埋もれてしまいます。

UTX用語集を使うと、たとえば、企業や自治体が、通訳者・翻訳者に「このような用語で訳してほしい」という要望を伝えることができます。また、逆に、通訳者・翻訳者が「このような用語で訳しました」という情報を集めて、用語集にすることもできます。さらに、「このようには訳さないでほしい」という情報も決まった形で管理することができます。このように、「一定の形で用語集を作る」ことを徹底することで、「何をどのように訳すか」を確実にやり取りできます。

「用語集は作るのが面倒」と敬遠されがちですが、UTXでは、作りやすい・管理しやすいシンプルさを徹底しているため、Excelで管理できる形式としています。

Japio(日本特許情報機構)のYear Book 2014に寄稿

_P1M0059-2k

Japio(日本特許情報機構)のYear Book 2014に寄稿しました。「用語集形式UTX の現況と実務日本語・百半ルール」で、変換ツールを含むUTXの最近の成果、UTXとISOとの今後の関係、機械翻訳と翻訳支援の関係、シンプルで現実的な日本語改善手法としての百半ルールを紹介しています。

公式UTX変換ツールで翻訳ソフト間のユーザー辞書変換が可能に

AAMT公式のUTX変換ツールが新しくなり、翻訳ソフト各社ユーザー辞書(富士通ATLAS、東芝The翻訳、クロスランゲージPC-Transerシリーズ)とUTX用語集の相互変換ができるようになりました。UTX形式を経由することで、既存の用語データを有効活用できます。UTX形式は、Excel上で編集・管理でき、用語にコメントや優先度情報をつけることもできます。

utx-mt-apps

utx_converter_0_2_0_0_screenshot

公式UTX変換ツールのダウンロードは無料です。UTX変換ツールは、UTXチーム メンバーで元クロスランゲージの秋元さんがボランティアで開発してくださっています。 DLLも無償公開されており、他製品に組み込むこともできます。