UTX簡易仕様書(3ページ)を公開

用語データ形式UTX簡易仕様書の日本語・英語版をAAMTで公開しました。

UTXの最小限の基本をわずか3ページにまとめた仕様書です。

翻訳、 機械翻訳 、技術文書で専門用語をうまく扱いたい方は必見。

シンプルな用語データ形式といいながら詳しく説明したいがために38ページになっていた仕様書を思い切って短くしました。

UTXの詳細を知るには、公式仕様書をご覧ください。

UTX 1.11をUTX 1.20に変換する

UTX 1.11をUTX 1.20に変換するのは、ほとんどの場合、ヘッダーの一部を修正するだけで済みます。ただし、UTX 1.20の新機能である「言語ごと用語ステータス」や(完全な)双方向翻訳を活用するには、各項目での修正が必要になります。2016/01/15現在では、各種変換ツールはまだUTX 1.20に対応していませんが、近い将来対応するものと思われます。

utx1.11 to 1.20

 

表1:UTX 1.20でのシンプルな用語集

#UTX 1.20

#src:en

tgt:ja

test

テスト

表2:UTX 1.11でのシンプルな用語集(赤字はUTX 1.20と異なる点)

#UTX 1.11; en/ja; 2016-01-06

#src

tgt

src:pos

test

テスト

 

表3:表2の用語集を最小限の変更でUTX 1.20に対応させた用語集
青字はUTX 1.11と異なる点)

#UTX 1.20; lang: en/ja; creation date: 2016-01-06

#src:en

tgt:ja

test

テスト

UTXの用語ステータスで文章や翻訳を分かりやすくする

UTXでは、用語ステータス(term status)を使って、文章や翻訳の訳文で使われている用語を、より分かりやすい用語で統一できます(用語ステータスの詳細は、UTX 1.20仕様をご覧ください)。意味が同じ同義語でも、「褥瘡」の代わりに「床ずれ」という用語を使ったほうが分かりやすいことがあります。一つのUTX対訳用語集を、「分かりやすい文章」と「分かりやすい翻訳」のどちらにも活用できるわけです。

UTXでは、ある用語を用語集に含めるべきか、用語として適切かどうかを「用語集管理者」が管理します。用語集管理者が、読者にとって難し過ぎるなど、使用すべきでない用語であると判断した場合、用語ステータスで「禁止(forbidden)」を指定します。一方で、使用すべき用語の用語ステータスを「承認(approved)」にします。

さらに、UTX変換ツールを使うと、UTX用語集から、禁止語とそれに対応する承認語のペアを、タブ区切り形式のリストとして抽出できます。次に、換の玉のような置換ツールを使うと、このようなリストに基づいて、分かりやすい用語に一括または逐次置換できます。

synonym-handling

どの語を禁止すべきかという基準は絶対的なものではありません。用語集によって用語集管理者は異なりますし、用語集管理者が異なれば、判断基準も異なります。用語集管理者は、その用語集が使われる組織の合意形成を、用語集に最終的に反映する代表者という位置付けになります。

なお、上図では”yomi:ja”という読みがな情報が入っています。「増悪(ぞうあく)」は「憎悪(ぞうお)」と読み違えることがありますが、ここを見ると違う語ということがはっきり分かります。

この記事についての質問は、翻訳工学ページまでどうぞ!

Glossary ConverterでTBXをUTX(Excel)に変換する

image

ISO標準の用語集形式であるTBXは広く使われています。今回は、Glossary Converterを使用してTBXをUTXに変換する手順をご紹介します。(Glossary Converterをインストールするには、SDL Trados Studioも必要です。)

  1. Glossary ConverterのsettingsでUTXを出力に設定する。
    image
  2. [Use the selected output format for any input format]のチェックをオンにする。
  3. TBXファイルをGlossary Converterにドロップする。
  4. (変換の初回時のみ)各項目にどのフィールド種別(Language、Index、Entry、Term)を割り当てるか訊かれる。各項目を右クリックして、すべての項目をTermに設定する。
  5. もう一度、訳語側のフィールド種別の割り当てでもすべての項目をTermに設定する。
  6. UTXファイルが作成される。

エラーが出た場合

  1. 上記設定画面で、[Use the selected output format for any input format]のチェックを外す。
  2. 手順を繰り返す。
  3. この場合、まずは用語ベース形式の*.sdltbファイルが作成される
  4. 作成された*.sdltbファイルをもう一度Glossary Converterにドロップする
  5. UTXファイルが作成される

手順3でフィールド種別の設定を間違えた場合、以下のファイルを編集して修正できます。
C:\Users\<user>\AppData\Local\SDL OpenExchange\GlossaryConverter\settings.xml

Glossary Converterでは、TBXをExcelに変換することもできますが、UTXに変換してからExcelにするほうが活用の幅が広がるのでお勧めです。

(2016/3/8追記) [Use the selected output format for any input format]の説明を変更しました。

用語集形式UTXとはなにか

_DSC9147-2k

(用語集形式UTXとはなにか、UTXの基本的な利点を分かりやすくご説明します。)

用語集形式UTXとは、用語集(用語データ)を作るための一定の形式です。

ご存じのように、通訳・翻訳では多数の専門用語や固有名詞が出てきて、正しく訳す妨げとなります。用語のデータとしての形式を統一することにより、多人数の通訳者・翻訳者で共有・再利用がしやすくなります。特定分野でこのような用語集が日々、少しずつでも蓄積されると、用語調べの時間を節約でき、正確な用語で翻訳できるため、通訳・翻訳品質の向上に大きく役立ちます。

逆に言えば、用語集がいくつもあり、それぞれの形式がバラバラだと活用しにくくなり、せっかく作った用語集が埋もれてしまいます。

UTX用語集を使うと、たとえば、企業や自治体が、通訳者・翻訳者に「このような用語で訳してほしい」という要望を伝えることができます。また、逆に、通訳者・翻訳者が「このような用語で訳しました」という情報を集めて、用語集にすることもできます。さらに、「このようには訳さないでほしい」という情報も決まった形で管理することができます。このように、「一定の形で用語集を作る」ことを徹底することで、「何をどのように訳すか」を確実にやり取りできます。

「用語集は作るのが面倒」と敬遠されがちですが、UTXでは、作りやすい・管理しやすいシンプルさを徹底しているため、Excelで管理できる形式としています。

公式UTX変換ツールで翻訳ソフト間のユーザー辞書変換が可能に

AAMT公式のUTX変換ツールが新しくなり、翻訳ソフト各社ユーザー辞書(富士通ATLAS、東芝The翻訳、クロスランゲージPC-Transerシリーズ)とUTX用語集の相互変換ができるようになりました。UTX形式を経由することで、既存の用語データを有効活用できます。UTX形式は、Excel上で編集・管理でき、用語にコメントや優先度情報をつけることもできます。

utx-mt-apps

utx_converter_0_2_0_0_screenshot

公式UTX変換ツールのダウンロードは無料です。UTX変換ツールは、UTXチーム メンバーで元クロスランゲージの秋元さんがボランティアで開発してくださっています。 DLLも無償公開されており、他製品に組み込むこともできます。

『通訳翻訳ジャーナル』2015年冬号に「エクセル用語集の作り方・使い方」を寄稿

通訳翻訳ジャーナル』2015年冬号に「エクセル用語集の作り方・使い方」という記事を寄稿しました。

_DSC7472-svga

調べものは、翻訳で最も時間のかかる作業ですが、専門用語を集めた用語集は、調べものの手間を軽減してくれます。ところが、用語集を作ること自体が敬遠されていることが多いものです。Excelをうまく使うと、手軽に用語集を作れます。

出版社・編集者の方で、翻訳・英語学習についての記事執筆のご要望がありましたらどうぞお気軽にお問い合わせください。

UTX Converter 0.1(UTX用語集形式の変換・検証ツール)を公開

アジア太平洋機械翻訳協会(AAMT)UTXチームが、UTX Converter 0.1(UTX変換・検証ツール)を公開しました。

utx-converter-validation-dialog

初期のバージョンなので基本的な機能のみですが、以下のことを行えます。

  • 用語集がUTX 1.11形式(タブ区切り)になっているかの検証
  • MultiTerm用語ベースにインポートするためのテキスト形式への変換
  • 禁止語リストの抽出

なお以前に紹介したGlossary Converterでは、UTXと用語ベースの相互変換が直接できます。そのため、この種の変換は、現時点では、Glossary Converterを使うほうが便利です。

UTX Converterは、MITライセンスに基づいてご利用いただけます。

シンプルな用語集形式UTXについての詳細は公式サイトをご覧ください。

Glossary Converter 3.0でUTX用語集とMultiTerm用語ベースを相互変換

Glossary Converter 3.0が公開されています。ExcelなどとMultiTerm用語ベースを数秒間で相互変換するツールです。

Glossary Converter 3.0では、用語集形式UTX 1.11がサポートされました。   
 

glossary-converter3.0-1

 

glossary-converter3.0-2   

 

オプションでは、UTXはUniversal Terminology eXchangeと表記されています。   

 

無料でどなたでもダウンロードできます。

 

簡単にテストしただけですが、確かにUTXが直接MultiTerm用語ベースにできました。またMultiTerm用語ベースからUTXへの変換もできました。   
UTXで独自のフィールドを定義している場合は、変換時に割り当てが必要になります。

 

UTXヘッダー コメントも用語ベースの「詳細情報」に保持されています。著作権情報もばっちりです。すばらしい!

 

ぜひ各自でお試しいただき、既存の用語ベースがUTXになることを確認してみてください。

12/4(本日)第5回集合知シンポジウムで用語集形式UTXについて発表

12/4(本日)第5回集合知シンポジウムで用語集形式UTXについて発表します。

good-data

「シンプルな用語集形式UTXとその活用~ビッグデータと『グッド データ』の関連性~」

http://www.ieice.org/~nlc/cs2013.html

場所:グリー株式会社(六本木ヒルズ)

聴講は無料で事前申込みは不要です。

私の発表は14:20-14:45です。お気軽にご参加ください!