日漫迷有福了:全自動翻譯日漫,不用學日語了

機器之心報道|機器之心編輯部

買了心儀的漫畫全集,卻又苦於看不懂上面的文字,翻譯成了一大難題。對於這個令人頭疼的問題,來自 Mantra 公司、雅虎日本和東京大學的研究者幫你解決了。他們提出了一個全自動漫畫翻譯系統,可將漫畫中的文字翻譯成英文和中文。

漫畫在世界各地都很流行,但大多數漫畫中的文字沒有翻譯。如果能夠迅速將漫畫中的文字翻譯成各種語言,那可就太棒了。近日,來自 Mantra 公司、雅虎日本和東京大學的研究者聯合發表了一篇論文,提出了一種快速翻譯漫畫文字的方法。就像這樣:

該研究解決了日漫(Japanese comics)的機器翻譯問題,這涉及兩個重要問題:語境感知和多模態翻譯。在漫畫中,文字和圖像是以非結構化的方式混合在一起的,因此從圖像中獲取語境至關重要。但如何從圖像中提取語境並集成到機器翻譯模型中仍是一個尚待解決的問題。

論文地址:https://arxiv.org/pdf/2012.14271v1.pdf

此外,目前還沒有用於訓練和評估此類模型的語料庫和基準。該論文為日漫翻譯研究奠定了基礎,主要貢獻包括以下 4 點:

  • 首先,該研究提出了一種多模態的語境感知翻譯框架,也是首個結合漫畫圖像來獲取語境資訊的研究。該方法能夠翻譯對話氣泡中的文字,這類文字通常需要語境資訊(如其他對話氣泡中的文字、說話者的性別等)才能夠翻譯;
  • 其次,為了訓練模型,研究者提出了基於成對的原始日漫及其譯文自動構建語料庫的方法。使用該方法可以構建大型平行語料庫,且無需任何人工標註;
  • 第三,該研究創建了一個新的日漫翻譯評估基準;
  • 最後,該研究在提出方法的基礎上,設計了一個用於全自動日漫翻譯的新系統。

語境感知日漫翻譯

該研究提出的語境感知日漫翻譯框架包括兩個主要部分:語境提取和翻譯。

多模態語境提取

該方法提取 3 類語境:場景、閱讀順序、視覺資訊(如圖 2 左側所示),這三者對多模態語境感知翻譯都有重要作用。

圖 2:該研究提出的日漫翻譯框架。其中,N’ 表示源句子 N 的譯文。

1)場景分組:單個漫畫頁面包括多個畫框,每個畫框代表一個場景。翻譯故事時,同一場景中的文字通常比其他場景中的文字更加有用。因此,該研究按場景將文字進行分組,以選出可以用做語境的文字。

2)文字排序:接下來要預估文字的閱讀順序。更正式的說,該方法對無序集合 T 進行排序,形成有序集合 {t_1,…,t_N}。由於在日漫中,單個句子通常被分為多個文字區域,因此確保文字順序正確是非常重要的。日漫是按畫框閱讀的,因此文字的閱讀順序是根據以下順序確定的:畫框;每個畫框中的文字。

3) 視覺語義資訊提取:最後,該研究提取了場景中出現的物體等視覺語義資訊。為了利用每個場景中的視覺語義資訊,研究人員使用 illustration2vec 模型來預測每個場景中的語義標籤。

需要強調的是該框架並不侷限於日漫。通過適當地定義場景,該框架可被擴展到電影、動畫等具備多模態語境的媒介中。例如,按照以下步驟提取語境,該方法可以輕鬆翻譯電影字幕:將視訊分割成場景;對文字按時間進行排序;通過視訊分類提取語義標籤。

語境感知翻譯模型

為了將提取到的多模態語境集成到 MT 模型,該研究採用了一種簡單而有效的連接方法:連接多個連續文字,並使用句子級 NMT 模型進行一次性翻譯。這裡注意一點,任何 NMT 架構都可以與該方法合併。該研究選擇了 Transformer (big) 模型並按照《Attention is All you Need》設置默認參數。

圖 2 右側展示了三種模型:模型 1:2+2 翻譯;模型 2:基於場景的翻譯;模型 3:具有視覺特徵的基於場景的翻譯。

構建大型平行語料庫

除了日漫翻譯框架以外,該研究還提出了一種自動語料庫構建方法,以便訓練翻譯模型。輸入為兩本漫畫書,一本是日本漫畫,另一本是其英文版,目標是提取具有語境資訊的平行文字,這些資訊可用來訓練該研究提出的模型。

術語和可用的標註資料:圖 4 列舉了對話氣泡、文字區域以及文字行。對話氣泡包含一或多個文字區域(即段落),每個文字區域包含一或多個文字行。

圖 4:日漫文字中的術語定義。

該研究假設訓練模型只能獲取對話氣泡的標註,文字行和文字區域的標註不可用。此外,對話氣泡和任何目標語言資料的分割掩碼也不可用。

注意,該研究提出的方法並不依賴於特定語言。除了英語,該研究還將漢語作為目標語言,稍後在圖 9 中演示。

訓練檢測器:該研究訓練了兩個目標檢測器:對話氣泡檢測器和文字行檢測器,這是語料庫構建 pipeline 的基本構建塊。該研究使用以 ResNet101 為主幹網路的 Faster R-CNN 模型來訓練目標檢測器。

由於無法獲取文字行標註,該研究以弱監督方式基於對話氣泡標註生成文字行標註,參見下圖 6:

圖 6:生成文字行標註

圖 6:生成文字行標註。

提取平行文字區域

下圖 5 展示了提取平行文字區域的 pipeline,包括:a) 頁面配對、b) 文字框檢測、c) 對話氣泡的像素級估計、d) 分割連接的對話氣泡、e) 不同語言之間的對齊操作、f) 文字識別,g) 語境提取。

圖 5:平行語料庫構建框架

圖 5:平行語料庫構建框架。

全自動日漫翻譯系統

研究人員基於其模型和構建的語料庫提出了一個全自動日漫翻譯系統。給出日漫頁面,該系統可以自動識別文字、將文字翻譯為目標語言,並將譯文替換掉原始文字。

該系統包括以下步驟:文字檢測與識別;翻譯;清除原始日語文字;將譯文填充進原始文字區域,下圖展示了該系統的翻譯過程。實驗結果表明該該系統能夠自動將日漫翻譯成英文或中文。

圖 9:全自動日漫翻譯系統的示例,分別從日語翻譯成英語和中文。

實驗

資料集:該研究建立了兩個新型日漫資料集:OpenMantra 和 PubManga,一個用來評估 MT(機器翻譯),另一個用來評估構建的語料庫。

機器翻譯評估

為了驗證該研究提出的模型和 Manga 語料庫的效果,該研究在 OpenMantra 資料集上進行了翻譯實驗。參與評估的 6 個系統參見下表 1:

表 1:在 OpenMantra Ja–En 資料集上進行評估的所有翻譯系統及其性能。「*」表明結果顯著優於 Sentence-NMT (Manga) ,p<0.05。

從表 1 中可以看到人工和自動評估結果。與谷歌翻譯與 Sentence-NMT (OS18) 相比,SentenceNMT (Manga) 的性能有顯著提升,這表明該研究提出的 Manga 語料庫構建策略有效。

與人工評估的結果相反,語境感知模型的 BLEU 值不如 Sentence-NMT (Manga)(表 1 第 4-6 行),這表明 BLEU 值不適合作為日漫翻譯的評估指標。下圖 7 展示了在人工評估中 Scene-NMT 優於 SentenceNMT (Manga) 的一個示例,但前者的 BLEU 值較低。

圖 7:基於句子(中間圖)與基於畫框(右側圖)的模型輸出。H 和 B 後面的值分別表示每個頁面的人工評測值和 BLEU 值。

語料庫構建評估

為了評估語料庫構建的性能,該研究比較了以下四種方法:Box、Box-parallel、Mask w/o split、Mask w/ split,結果如下表所示:

表 2:在 PubManga 資料集上對語料構建性能進行評估。

該結果表明,該研究利用掩碼估計的語料庫構建方法顯著優於僅使用邊界框區域的兩種方法,掩碼分割也能顯著提升查準率和查全率。

相關文章