專利名稱:圖像處理裝置和圖像處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理裝置和圖像處理方法。
背景技術(shù):
JP-A-2006-72892公開了ー種如下的圖像處理裝置,該裝置把通過組合預(yù)先存儲(chǔ)在存儲(chǔ)單元中的關(guān)鍵字?jǐn)?shù)據(jù)而生成的候選文件名稱顯示在觸摸面板上,并且由用戶來選擇從顯示在觸摸面板上的候選文件名稱中讀取的適用于電子文件的文件名稱。JP-A-2004-140551公開了ー種網(wǎng)絡(luò)圖像通信裝置,該裝置讀取記錄在傳送原稿的預(yù)定區(qū)域中的圖形和字符,并且生成上述圖形和字符的文件名稱
發(fā)明內(nèi)容
本發(fā)明的ー些方面的優(yōu)點(diǎn)是本發(fā)明提供一種可以生成能被原稿的讀者理解的特征字符串的圖像處理裝置。根據(jù)本發(fā)明的第一方面,提供ー種圖像處理裝置,包括記錄單元,其記錄(存儲(chǔ))第一語言和不同于所述第一語言的第二語言;字符串提取単元,其從通過讀取原稿而獲取的讀取信息中提取ー個(gè)或多個(gè)字符串;多個(gè)特征字符串生成部,其基于由所述字符串提取單元提取的所述ー個(gè)或多個(gè)字符串來生成所述原稿的特征字符串;以及切換單元,其基于所記錄的第一語言和所記錄的第二語言的組合對(duì)用于生成所述特征字符串的所述特征字符串生成部進(jìn)行切換。本發(fā)明的第二方面提供根據(jù)第一方面所述的圖像處理裝置,其中,所述第一語言是能被所述原稿的讀者識(shí)別的讀者語言;并且所述第二語言是基于所述原稿中出現(xiàn)的字符串確定的原稿語目。本發(fā)明的第三方面提供根據(jù)第二方面所述的圖像處理裝置,其中,所述讀者語言是基于所述原稿的讀者的鑒別信息確定的,并且所述原稿語言是在原稿中出現(xiàn)比例最高的
イ五古
レロロ ο本發(fā)明的第四方面提供根據(jù)第一方面所述的圖像處理裝置,其中,所述多個(gè)特征字符串生成部包括多個(gè)選擇部,其執(zhí)行如下處理基于所述第一語言和所述第二語言的組合,從提取出的一個(gè)或多個(gè)字符串中選擇構(gòu)成所述原稿的特征字符串的一個(gè)或多個(gè)構(gòu)成要素;以及多個(gè)特征字符串確定部,其執(zhí)行利用由所述選擇部選擇的所述構(gòu)成要素確定所述特征字符串的處理,并且所述切換単元基于所述第一語言和所述第二語言的組合,切換用于生成所述特征字符串的選擇部且切換用于生成所述特征字符串的特征字符串確定部。本發(fā)明的第五方面提供根據(jù)第一方面所述的圖像處理裝置,其中,所述多個(gè)特征字符串生成部包括多個(gè)轉(zhuǎn)換部,其基于所述第一語言和所述第二語言的組合對(duì)由所述字符串提取單元提取出的一個(gè)或多個(gè)字符串進(jìn)行轉(zhuǎn)換;以及多個(gè)特征字符串確定部,其執(zhí)行利用由所述轉(zhuǎn)換部轉(zhuǎn)換的所述字符串確定所述特征字符串的處理,并且所述切換単元基于所述第一語言和所述第二語言的組合,切換用于生成所述特征字符串的所述多個(gè)轉(zhuǎn)換部和所述多個(gè)特征字符串確定部。本發(fā)明的第六方面提供根據(jù)第一方面所述的圖像處理裝置,其中,所述多個(gè)特征字符串生成部包括多個(gè)選擇部,其執(zhí)行如下處理基于所述第一語言和所述第二語言的組合,從提取出的一個(gè)或多個(gè)字符串中選擇所述原稿的特征字符串的一個(gè)或多個(gè)構(gòu)成要素;多個(gè)轉(zhuǎn)換部,其基于所述第一語言和所述第二語言的組合對(duì)由所述選擇部選擇的ー個(gè)或多個(gè)字符串進(jìn)行轉(zhuǎn)換;以及多個(gè)特征字符串確定部,其執(zhí)行利用由所述轉(zhuǎn)換部轉(zhuǎn)換的所述構(gòu)成要素確定所述特征字符串的處理,并且所述切換単元基于所述第一語言和所述第二語言的組合,切換用于生成所述特征字符串的所述選擇部,切換用于生成所述特征字符串的所述轉(zhuǎn)換部且切換用于生成所述特征字符串的所述特征字符串確定部。本發(fā)明的第七方面提供根據(jù)第四方面或第六方面所述的圖像處理裝置,其中,所述多個(gè)選擇部中的一個(gè)選擇部執(zhí)行基于提取出的一個(gè)或多個(gè)字符串在所述原稿中的出現(xiàn)頻率來選擇構(gòu)成要素的處理。本發(fā)明的第八方面提供根據(jù)第四方面或第六方面所述的圖像處理裝置,其中,所 述多個(gè)選擇部中的一個(gè)選擇部將提取出的字符串中具有預(yù)定位置和預(yù)定規(guī)模中至少ー者的第一字符串的權(quán)重因子設(shè)置為比提取出的字符串中除了所述第一字符串之外的字符串的權(quán)重因子高出預(yù)定值,所述權(quán)重因子是用于從提取出的字符串中選擇所述構(gòu)成要素的指數(shù)。本發(fā)明的第九方面提供根據(jù)第四方面或第六方面所述的圖像處理裝置,其中,所述多個(gè)選擇部中的一個(gè)選擇部執(zhí)行如下處理選擇第二字符串作為所述構(gòu)成要素,所述第二字符串與配置要素相對(duì)應(yīng),所述配置要素設(shè)置在所述原稿中并構(gòu)成所述原稿,并且所述配置要素不同于所述字符串。本發(fā)明的第十方面提供根據(jù)第四方面或第六方面所述的圖像處理裝置,其中,所述多個(gè)選擇部中的一個(gè)選擇部將提取出的字符串中的采用所述第一語言的第三字符串的權(quán)重因子設(shè)置為比提取出的字符串中除了所述第三字符串之外的字符串的權(quán)重因子高出預(yù)定值,所述權(quán)重因子是用于從提取出的字符串中選擇所述構(gòu)成要素的指數(shù)。本發(fā)明的第十一方面提供根據(jù)第五方面或第六方面所述的圖像處理裝置,其中,所述多個(gè)轉(zhuǎn)換部中的一個(gè)轉(zhuǎn)換部將提取出的一個(gè)或多個(gè)字符串翻譯為所述第一語言。本發(fā)明的第十二方面提供根據(jù)第五方面或第六方面所述的圖像處理裝置,其中,所述多個(gè)轉(zhuǎn)換部中的一個(gè)轉(zhuǎn)換部將提取出的一個(gè)或多個(gè)字符串轉(zhuǎn)換為表述所述一個(gè)或多個(gè)字符串的發(fā)音的字符串。本發(fā)明的第十三方面提供根據(jù)第五方面或第六方面所述的圖像處理裝置,其中,所述多個(gè)轉(zhuǎn)換部中的一個(gè)轉(zhuǎn)換部將提取出的一個(gè)或多個(gè)字符串的字符代碼轉(zhuǎn)換為所述字符串的對(duì)應(yīng)的不同字符代碼。根據(jù)本發(fā)明的第十四方面,提供ー種圖像處理方法,包括記錄第一語言和不同于所述第一語言的第二語言;從通過讀取原稿而獲取的讀取信息中提取ー個(gè)或多個(gè)字符串;基于提取出的一個(gè)或多個(gè)字符串來生成所述原稿的特征字符串;以及基于所記錄的第一語言和所記錄的第二語言的組合對(duì)用于生成所述特征字符串的特征字符串生成部進(jìn)行切換。根據(jù)本發(fā)明的第一方面至第三方面,可以提供ー種圖像處理裝置,該圖像處理裝置可以生成能被所述原稿的讀者理解的特征字符串。
根據(jù)本發(fā)明的第四方面,除了具有由本發(fā)明的第一方面至第三方面實(shí)現(xiàn)的優(yōu)點(diǎn)之夕卜,還可以基于能被所述原稿的讀者識(shí)別的語言與所述原稿的語言的組合來選擇所述特征字符串的構(gòu)成要素。根據(jù)本發(fā)明的第五方面,除了具有由本發(fā)明的第一方面至第三方面實(shí)現(xiàn)的優(yōu)點(diǎn)之夕卜,還可以生成基于能被所述原稿的讀者識(shí)別的語言與所述原稿的語言的組合而轉(zhuǎn)換的特征字符串。根據(jù)本發(fā)明的第六方面,除了具有由本發(fā)明的第一方面至第三方面實(shí)現(xiàn)的優(yōu)點(diǎn)之夕卜,還可以基于能被所述原稿的讀者識(shí)別的語言與所述原稿的語言的組合來轉(zhuǎn)換被選擇的特征字符串的所述構(gòu)成要素。根據(jù)本發(fā)明的第七方面,除了具有由本發(fā)明的第四方面或第六方面實(shí)現(xiàn)的優(yōu)點(diǎn)之夕卜,還可以生成如下特征字符串所述特征字符串包括在所述原稿中的出現(xiàn)頻率較高的字符串。根據(jù)本發(fā)明的第八方面,除了具有由本發(fā)明的第四方面或第六方面實(shí)現(xiàn)的優(yōu)點(diǎn)之 夕卜,還可以生成如下特征字符串所述特征字符串包括比所述原稿中的其它字符串更加高度可見的字符串。根據(jù)本發(fā)明的第九方面,除了具有由本發(fā)明的第四方面或第六方面實(shí)現(xiàn)的優(yōu)點(diǎn)之夕卜,即使當(dāng)所述原稿不包括任何字符串時(shí),或者當(dāng)所述原稿只包括不能識(shí)別的字符串時(shí),仍然可以生成特征字符串。根據(jù)本發(fā)明的第十方面,除了具有由本發(fā)明的第四方面或第六方面實(shí)現(xiàn)的優(yōu)點(diǎn)之夕卜,還可以減少后續(xù)處理內(nèi)容。根據(jù)本發(fā)明的第十一方面,除了具有由本發(fā)明的第五方面或第六方面實(shí)現(xiàn)的優(yōu)點(diǎn)之外,還可以生成被翻譯為能被所述原稿的讀者識(shí)別的語言的特征字符串。根據(jù)本發(fā)明的第十二方面,除了具有由本發(fā)明的第五方面或第六方面實(shí)現(xiàn)的優(yōu)點(diǎn)之外,還可以生成能在所述原稿的讀者的環(huán)境下被識(shí)別的特征字符串。根據(jù)本發(fā)明的第十三方面,除了具有由本發(fā)明的第五方面或第六方面實(shí)現(xiàn)的優(yōu)點(diǎn)之外,還可以生成能在所述原稿的讀者的環(huán)境下被識(shí)別的特征字符串。根據(jù)本發(fā)明的第十四方面,可以提供ー種圖像處理方法,所述圖像處理方法可以生成能被所述原稿的讀者理解的特征字符串。
將基于以下附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例,其中圖I是示出根據(jù)本發(fā)明示例性實(shí)施例的圖像處理裝置的硬件構(gòu)造的示意圖;圖2是示出在圖I所示的圖像處理裝置中操作的處理程序的示意圖;圖3是示出圖2所示的特征字符串生成單元的構(gòu)造的示意圖;圖4是示出存儲(chǔ)在圖2所示的被提取字符串管理單元中的字符串列表的示意圖;圖5A至圖5G是示出切換表的示意圖;圖6是示出處理程序的處理流程的流程圖;圖7A和圖7B是分別示出在根據(jù)示例性實(shí)施例的圖像處理裝置中處理的原稿的實(shí)例和字符串的提取結(jié)果的實(shí)例的示意圖8是示出當(dāng)圖7A和圖7B所示的原稿的讀者語言是日語時(shí)的特征字符串生成單元的處理的示意圖;圖9是示出當(dāng)圖7A和圖7B所示的原稿的讀者語言是漢語時(shí)的特征字符串生成單元的處理的示意圖;圖10是不出當(dāng)圖7A和圖7B所不的原稿的讀者語目是韓語時(shí)的特征字符串生成単元的處理的示意圖;以及圖11是示出當(dāng)圖7A和圖7B所示的原稿的讀者語言是漢語時(shí)的特征字符串生成單元的處理的示意圖。
具體實(shí)施例方式圖I是示出根據(jù)本發(fā)明示例性實(shí)施例的圖像處理裝置2的硬件構(gòu)造的示意圖。
如圖I所示,圖像處理裝置2包括控制裝置21、通信裝置22、記錄裝置24、用戶接ロ(UI)裝置25、打印裝置26和圖像讀取裝置27,控制裝置21包括例如CPU等計(jì)算單元212和例如存儲(chǔ)器等存儲(chǔ)單元214。UI裝置25包括例如IXD (液晶顯示器)顯示裝置或CRT (陰極射線管)顯示裝置等顯示裝置、鍵盤和觸摸面板。打印裝置26是例如打印機(jī),并且將字符數(shù)據(jù)或圖像數(shù)據(jù)打印在例如紙張(片材)等記錄介質(zhì)上。圖像讀取裝置27是例如掃描儀,并且從原稿等記錄介質(zhì)讀取圖像并將所讀取的圖像轉(zhuǎn)換為例如位圖格式的讀取信息。也就是說,圖像處理裝置2具有例如計(jì)算機(jī)等硬件構(gòu)成部分,該硬件構(gòu)成部分能夠執(zhí)行信息處理并且能夠與其它的圖像處理裝置或終端進(jìn)行通信。在下文要描述的附圖中,以相同的附圖標(biāo)號(hào)和標(biāo)記表示大致相同的部件和處理。雖然在本示例性實(shí)施例中指出圖像處理裝置2包括打印裝置26和圖像讀取裝置27,但圖像處理裝置可以是例如不包括打印裝置和圖像讀取裝置的個(gè)人計(jì)算機(jī)(PC)。在這種情況下,圖像處理裝置可以經(jīng)由LAN(局域網(wǎng))等而與圖像讀取裝置相連。圖2是示出在圖I所示的圖像處理裝置2中操作的處理程序3的構(gòu)成的示意圖。如圖2所示,處理程序3包括原稿讀取信息接收單元302、配置分析単元304、字符識(shí)別單元306、語素分析単元308、字符串提取単元310、被提取字符串管理単元312、讀者語言記錄單元320、原稿語言記錄單元322、語言組合確定單元324、切換單元326和特征字符串生成單元40。利用存儲(chǔ)介質(zhì)240 (圖I)將處理程序3提供給圖像處理裝置2,將處理程序3載入存儲(chǔ)單元214中,并且在安裝于圖像形成裝置2中的操作系統(tǒng)(OS)(未示出)上特別地使用圖像處理裝置2的硬件資源來執(zhí)行處理程序3。雖然在本示例性實(shí)施例中指出處理程序3的功能是由軟件來實(shí)現(xiàn)的,但處理程序3的全部或部分功能也可以由FPGA(現(xiàn)場(chǎng)可編程門陣列)等硬件來實(shí)現(xiàn)。圖3是示出圖2所示的特征字符串生成單元40的構(gòu)造的示意圖。這里,“特征字符串”是用戶用來識(shí)別原稿的字符串,并且“特征字符串”在原稿被轉(zhuǎn)換為電子數(shù)據(jù)(電子文件)時(shí),例如是電子數(shù)據(jù)的名稱或存儲(chǔ)該電子數(shù)據(jù)的路徑文件夾(目錄)的名稱。如圖3所示,特征字符串生成単元40包括構(gòu)成要素選擇單元42、構(gòu)成要素轉(zhuǎn)換單元44和特征字符串確定單元46。構(gòu)成要素選擇單元42包括出現(xiàn)頻率優(yōu)先選擇部420、讀者語言優(yōu)先選擇部422、復(fù)合字符串優(yōu)先選擇部424、位置/規(guī)模優(yōu)先選擇部426、配置要素優(yōu)先選擇部428和手動(dòng)選擇部430。構(gòu)成要素轉(zhuǎn)換單元44包括翻譯部440、語音表述(標(biāo)音)部442、字符代碼轉(zhuǎn)換部444、無轉(zhuǎn)換部446和手動(dòng)轉(zhuǎn)換部448。特征字符串確定單元46包括連接標(biāo)記插入結(jié)合部460、頭字符轉(zhuǎn)換結(jié)合部462、無轉(zhuǎn)換結(jié)合部464、順序改變結(jié)合部466和手動(dòng)結(jié)合部468。
也可以將組成特征字符串生成単元40的構(gòu)成要素選擇單元42、構(gòu)成要素轉(zhuǎn)換單元44和特征字符串確定單元46稱為“特征字符串生成部”。類似地,也可以將組成構(gòu)成要素選擇單元42的出現(xiàn)頻率優(yōu)先選擇部420、讀者語言優(yōu)先選擇部422、復(fù)合字符串優(yōu)先選擇部424、位置/規(guī)模優(yōu)先選擇部426、配置要素優(yōu)先選擇部428和手動(dòng)選擇部430,組成構(gòu)成要素轉(zhuǎn)換單元44的翻譯部440、語音表述部442、字符代碼轉(zhuǎn)換部444、無轉(zhuǎn)換部446和手動(dòng)轉(zhuǎn)換部448,以及組成特征字符串確定單元46的連接標(biāo)記插入結(jié)合部460、頭字符轉(zhuǎn)換結(jié)合部462、無轉(zhuǎn)換結(jié)合部464、順序改變結(jié)合部466和手動(dòng)結(jié)合部468稱為“特征字符串生成部”。在處理程序3 (圖2)中,原稿讀取信息接收單元302接收從圖像讀取裝置27獲取的讀取信息(原稿讀取信息)并存儲(chǔ)所接收的原稿讀取信息,以便將原稿讀取信息提供給配置分析単元304的處理。配置分析単元304分析原稿讀取信息,將原稿中的例如字符、表及照片等自然圖像、計(jì)算機(jī)圖形(CG)或繪畫分類(將對(duì)象分類),指定被分類對(duì)象(例如字符、表及照片等自然圖像、CG或繪畫,在下文中將這些稱為“配置要素”)的區(qū)域,并且將位置信息與配置要素相關(guān)聯(lián)。配置分析単元304將表示分析結(jié)果的信息作為配置信息輸出至字符識(shí)別単元306和特征字符串生成単元40。這里,配置信息是如下信息該信息表示在與原稿讀取信息相對(duì)應(yīng)的原稿中配置有什么對(duì)象,以及該對(duì)象以怎樣的規(guī)模配置在什么位置?!芭渲眯畔ⅰ卑ū硎九渲靡氐奈恢玫奈恢眯畔⒑捅硎九渲靡氐囊?guī)模(尺寸或面積)的規(guī)模信息。這里,位置信息可以表示例如位置坐標(biāo)等絕對(duì)位置,或者可以表示與其它字符串的相對(duì)位置關(guān)系。類似地,規(guī)模信息可以表示配置要素的例如字體或占據(jù)面積等絕對(duì)規(guī)模,或者可以表示相對(duì)于另一配置要素的相對(duì)規(guī)模,或者可以表示與配置要素的規(guī)模的平均值的差值。配置分析單元304例如通過檢測(cè)原稿中的各種線、框線及格線(ruled line)或者顔色信息,檢測(cè)邊緣以及圖案匹配來執(zhí)行配置要素的分類。然而,該分類處理不限于這些方法。
字符識(shí)別単元306通過指定用配置信息來描述其字符的區(qū)域并且對(duì)該區(qū)域(字符區(qū)域)執(zhí)行例如OCR(光學(xué)字符識(shí)別)功能來識(shí)別字符。這里,字符的識(shí)別指的是指定通過讀取而獲取的字符,并且通過將該字符的圖像數(shù)據(jù)與預(yù)先存儲(chǔ)的圖案相組合來生成字符數(shù)據(jù)。字符識(shí)別単元306將所生成的字符數(shù)據(jù)輸出至語素分析単元308。這里,字符數(shù)據(jù)(及稍后描述的字符串)可以用例如移位JIS碼、ASCII碼(美國(guó)信息互換標(biāo)準(zhǔn)代碼)或統(tǒng)ー碼(Unicode)等字符代碼來表示。這里,字符代碼是如下代碼(其表示對(duì)應(yīng)關(guān)系)該代碼表示當(dāng)不將字符作為例如圖像等圖形數(shù)據(jù)而是作為例如計(jì)算機(jī)等電子介質(zhì)中的文本數(shù)據(jù)來處理時(shí)的字符和語句。語素分析単元308通過對(duì)字符識(shí)別単元306所獲取的字符數(shù)據(jù)執(zhí)行語素分析處理 來將由字符數(shù)據(jù)表示的句子分割為語素(字符串),并且將屬性信息賦予分割出的語素。語素分析単元308將被賦予屬性信息的字符串的組(字符串組)輸出至字符串提取單元310。這里,語素分析指的是如下處理基于預(yù)先存儲(chǔ)的語法規(guī)則的信息和存有詞語的字典將語句分割成作為語素(具有意義的最小語言單位)的字符串并且判斷分割出的語素(字符串)的詞類。在該語素分析處理中,還判斷字符串的語言(判斷字符串是日語、英語、漢語、韓語及其它語言中的哪種語言)。在語素分析處理中,判斷字符串是否為復(fù)合字符串。這里,復(fù)合字符串指的是包括多個(gè)詞語的字符串。例如,由于字符串“市場(chǎng)規(guī)?!卑▋蓚€(gè)詞語“市場(chǎng)”和“規(guī)模”,所以判斷出該字符
串為復(fù)合字符串。屬性信息是表示例如字符串的詞類(名詞、動(dòng)詞等)和字符串的語言等字符串屬性的信息,并且屬性信息包括表示字符串的詞類的字符串詞類信息和表示字符串的語言的字符串語言信息。當(dāng)字符串是復(fù)合字符串吋,屬性信息包括表示字符串是復(fù)合字符串的事實(shí)的信息(復(fù)合字符串信息)。字符串提取単元310從由語素分析単元308輸入的字符串組中提取被賦予預(yù)定的指定屬性信息的字符串。字符串提取單兀310基于預(yù)定基準(zhǔn)將提取出的字符串排序,并且以該順序列舉提取出的字符串。字符串提取単元310將列舉出的字符串的列表(字符串列表)輸出至被提取字符串管理單元312。被提取字符串管理単元312存儲(chǔ)來自字符串提取單元310的字符串列表并且管理該字符串列表,以便將該字符串列表提供給特征字符串生成単元40進(jìn)行處理。圖4是示出存儲(chǔ)于圖2所示的被提取字符串管理単元312中的字符串列表的示意圖。如圖4所示,字符串列表包括字符串、出現(xiàn)頻率的順位、出現(xiàn)頻率、及各個(gè)字符串的屬性信息。屬性信息包括字符串詞類信息、字符串語言信息及復(fù)合字符串信息。
在圖4所示的實(shí)例中,字符串“複合機(jī)”的順位是1,該字符串的出現(xiàn)頻率是5次,該字符串的詞類是“名詞”,該字符串的語言是“日語”,并且該字符串不是復(fù)合字符串。字符串“FujiXeiOX”的順位是3,該字符串的出現(xiàn)頻率是3次,該字符串的詞類是“名詞”,該字符串的語言是“英語”,并且該字符串是復(fù)合字符串。字符串提取単元310 (圖2)可以從字符串組中提取例如被賦予如下屬性信息的字符串,該屬性信息的字符串詞類信息表明為名詞。例如,字符串提取單元310可以從在原稿中出現(xiàn)的頻率(出現(xiàn)頻率)最大的字符串開始依次地列舉字符串。這里,字符串提取単元310可以不列舉出現(xiàn)頻率等于或低于預(yù)定頻率的字符串或者出現(xiàn)頻率的順位低于預(yù)定順位的字符串,而是可以跳過這些字符串。字符串提取単元310可以在列舉字符串時(shí)將權(quán)重因子賦予字符串,該權(quán)重因子表 /In與該字符串的順位或出現(xiàn)頻率相對(duì)應(yīng)的權(quán)重。例如,當(dāng)字符串“複合機(jī)”的出現(xiàn)頻率最高、字符串“販売”的出現(xiàn)頻率第二高、并且字符串“伝票”的出現(xiàn)頻率第三高吋,字符串提取単元310可以將10. O的權(quán)重因子賦予字符串“複合機(jī)”,可以將8. O的權(quán)重因子賦予字符串“販売”,并且可以將6. O的權(quán)重因子賦予字符串“伝票”。字符串提取単元310可以基于語法規(guī)則來列舉字符串,或者可以基于詞語的預(yù)定屬性來列舉字符串。例如,字符串提取単元310可以基于普通名詞或?qū)S忻~等名詞的類型來列舉字符串,或者可以列舉具有高順位的在語句中用作主語的字符串??梢岳们袚Q單元326 (稍后描述)來改變字符串提取単元310對(duì)字符串排序的基準(zhǔn)。 讀者語言記錄單元320記錄能夠被原稿的讀者識(shí)別的語言(讀者語言),并且將表示所記錄的讀者語言的信息(讀者語言信息)輸出至語言組合確定單元324。例如,當(dāng)原稿的讀者能夠識(shí)別日語時(shí),讀者語言是日語。當(dāng)原稿的讀者能夠識(shí)別漢語時(shí),讀者語目是漢語。讀者語言記錄單元320可以例如通過從UI裝置25接收由用戶對(duì)UI裝置25進(jìn)行操作而獲取的讀者語目彳目息來記錄讀者語目。讀者語言記錄單元320可以在無需用戶去操作UI裝置25的情況下記錄讀者語言。例如,讀者語言記錄單元320存儲(chǔ)預(yù)先將讀者的鑒別信息與讀者語言彼此關(guān)聯(lián)的讀者語言表,并且讀者語言記錄單元320可以通過將讀者語言表與讀者的鑒別信息相組合來記錄讀者語言,讀者的鑒別信息是通過用鑒別卡讀取裝置(未示出)來讀取讀者的鑒別卡而獲取的。當(dāng)圖像處理裝置2安裝在讀者的周圍時(shí),例如當(dāng)原稿的讀者等同于圖像處理裝置2的用戶時(shí),圖像處理裝置2可以預(yù)先存儲(chǔ)讀者語言信息,并且可以基于所存儲(chǔ)的讀者語言信息來記錄讀者語言。當(dāng)預(yù)先將讀者的鑒別信息嵌入原稿中時(shí),例如當(dāng)原稿中描述了原稿的讀者姓名時(shí),字符識(shí)別単元306可以通過利用字符識(shí)別來識(shí)別所嵌入的讀者鑒別信息,從而獲取與讀者鑒別信息相對(duì)應(yīng)的字符串,并且讀者語言記錄單元320可以通過將讀者語言表與對(duì)應(yīng)于所獲取的讀者鑒別信息的字符串相組合來記錄讀者語言。當(dāng)多位讀者讀取原稿吋,讀者語言記錄單元320可以記錄多種讀者語言。原稿語目記錄單兀322記錄原稿的語目(原稿語目)并且將表不所記錄的原稿語言的信息(原稿語言信息)輸出至語言組合確定單元324。例如,當(dāng)在原稿中出現(xiàn)的字符串中語言是日語的字符串的比例最大時(shí),原稿語言是日語,并且當(dāng)語言是漢語的字符串的比例最大時(shí),原稿語言是漢語。原稿語言記錄單元322可以例如通過從UI裝置25接收由用戶對(duì)UI裝置25進(jìn)行操作而獲取的原稿語言信息來記錄原稿語言。原稿語目記錄單兀322可以在無需用戶去操作UI裝置25的情況下記錄原稿語
言。 例如,語素分析単元308可以判斷原稿中出現(xiàn)的字符串的語言,并且原稿語言記錄單元322可以通過判斷以最大的比例出現(xiàn)的字符串的語言來記錄原稿語言。語言組合確定單元324可以基于來自讀者語言記錄單元320的讀者語言信息和來自原稿語目記錄單兀322的原稿語目fg息,確定讀者語目與原稿語目的組合。語目組合確定單兀324將表不讀者語目與原稿語目的組合的/[目息(語目組合イ目息)輸出至切換單元326。切換單元326基于來自語言組合確定單元324的語言組合信息對(duì)用于在特征字符串生成単元40中生成特征字符串的特征字符串生成部進(jìn)行切換。具體地說,切換單元326基于語言組合信息和切換表(稍后參考圖5A至圖5G進(jìn)行描述)來控制特征字符串生成単元40的構(gòu)成要素選擇單元42、構(gòu)成要素轉(zhuǎn)換單元44和特征字符串確定單元46,以便對(duì)用于生成特征字符串的特征字符串生成部進(jìn)行切換。圖5A至圖5G是示出切換表的示意圖。切換表表示語言組合與特征字符串生成単元40的構(gòu)成要素選擇單元42、構(gòu)成要素轉(zhuǎn)換單元44和特征字符串確定單元46所構(gòu)成的用于生成特征字符串的特征字符串生成部之間的對(duì)應(yīng)關(guān)系。切換表可以預(yù)先存儲(chǔ)在圖像處理裝置2中,或者可以由用戶對(duì)Π裝置25進(jìn)行操作來適當(dāng)?shù)匦拚?。在圖5A至圖5G所示的實(shí)例中,例如,在讀者語言是日語并且原稿語言是日語的組合的情況(圖5A所示的情況)下,切換單元326將特征字符串生成単元40的構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部420和復(fù)合字符串優(yōu)先選擇部424,將構(gòu)成要素轉(zhuǎn)換単元44切換為無轉(zhuǎn)換部446,并且將特征字符串確定單元46切換為連接標(biāo)記插入結(jié)合部460。在圖5A至圖5G所示的實(shí)例中,在讀者語言是漢語并且原稿語言是日語的組合的情況(圖5B所示的情況)下,切換單元326將特征字符串生成単元40的構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部420,將構(gòu)成要素轉(zhuǎn)換單元44切換為翻譯部440,并且將特征字符串確定單元46切換為連接標(biāo)記插入結(jié)合部460。在圖5A、圖5E、圖5F和圖5G所示的情況下,切換單元326可以控制特征字符串生成単元40,以便使用構(gòu)成要素選擇單元42的多個(gè)特征字符串生成部。類似地,如圖5C和圖5F所示的情況,切換單元326可以控制特征字符串生成単元40,以便使用構(gòu)成要素轉(zhuǎn)換單元44的多個(gè)特征字符串生成部,或者如圖5E所示的情況,切換單元326可以控制特征字符串生成単元40,以便使用特征字符串確定單元46的多個(gè)特征字符串生成部。在特征字符串生成単元40中(圖2和圖3),切換單元326切換用于生成特征字符串的特征字符串生成部,然后使用切換后的特征字符串生成部生成特征字符串。構(gòu)成要素選擇單元42從被提取字符串管理単元312提取字符串列表,從字符串列表所包括的字符串中選擇ー個(gè)或多個(gè)字符串作為特征字符串的構(gòu)成要素(在下文中,簡(jiǎn)稱為“構(gòu)成要素”),并且將所選擇的構(gòu)成要素輸出至構(gòu)成要素轉(zhuǎn)換單元44。具體地說,構(gòu)成要素選擇單元42通過使用構(gòu)成要素選擇單元42的特征字符串生成部之中由切換單元326設(shè)定的一個(gè)或多個(gè)特征字符串生成部,從被賦予最大權(quán)重因子的字符串開始依次地選擇預(yù)定數(shù)目的字符串(與構(gòu)成要素的數(shù)目相對(duì)應(yīng))。由構(gòu)成要素選擇單元42選擇的字符串的數(shù)目可以是恒定的而與語言組合無關(guān), 或者可以基于語言組合而適當(dāng)?shù)厍袚Q。當(dāng)在選擇出的構(gòu)成要素中存在不能被構(gòu)成要素轉(zhuǎn)換單元44的切換后的特征字符串生成部轉(zhuǎn)換的構(gòu)成要素時(shí)(例如,當(dāng)構(gòu)成要素是特殊的漢語詞語時(shí)),構(gòu)成要素選擇單元42可以從沒有被選為構(gòu)成要素的字符串中選擇具有最大權(quán)重因子的字符串,來代替不能被轉(zhuǎn)換的構(gòu)成要素。出現(xiàn)頻率優(yōu)先選擇部420對(duì)字符串列表中所包括的字符串從具有最高出現(xiàn)頻率的字符串開始依次地賦予遞減的權(quán)重因子。例如,當(dāng)字符串“複合機(jī)”的出現(xiàn)頻率最高、字符串“販売”的出現(xiàn)頻率第二高、并且字符串“伝票”的出現(xiàn)頻率第三高吋,出現(xiàn)頻率優(yōu)先選擇部420將10. O的權(quán)重因子賦予字符串“複合機(jī)”,將8. O的權(quán)重因子賦予字符串“販売”,并且將6. O的權(quán)重因子賦予字符串“伝票”。出現(xiàn)頻率優(yōu)先選擇部420可以基于字符串的出現(xiàn)頻率(出現(xiàn)的次數(shù))而不是字符串的出現(xiàn)頻率的順位,將權(quán)重因子賦予字符串。當(dāng)字符串提取単元310賦予權(quán)重因子吋,出現(xiàn)頻率優(yōu)先選擇部420可以基于預(yù)定基準(zhǔn)來改變由字符串提取単元310賦予的權(quán)重因子。允許出現(xiàn)頻率優(yōu)先選擇部420賦予權(quán)重因子的基準(zhǔn)可以是恒定的而與語言組合無關(guān),或者可以基于語言組合而適當(dāng)?shù)厍袚Q。當(dāng)字符串列表所包括的字符串中存在如下的字符串時(shí),讀者語言優(yōu)先選擇部422將該字符串的權(quán)重因子増加預(yù)定值,該字符串被賦予表示與讀者語言相同的語言的字符串語Hィ目息。例如,讀者語言優(yōu)先選擇部422可以把被賦予表示與讀者語言相同的語言的字符串語言信息的字符串的權(quán)重因子乘以預(yù)定值(例如,把權(quán)重因子加倍),或者可以把預(yù)定值加到權(quán)重因子上(例如,把2. O加到權(quán)重因子上)。當(dāng)字符串不是與讀者語目相同的語目時(shí),例如,當(dāng)讀者語目是英語而原稿語目是日語時(shí),讀者語言優(yōu)先選擇部422可以例如將以片假名表述英語詞語的字符串(例如,字符串“プログラム”是英語詞語“program,,的片假名表述)作為英語來處理。當(dāng)字符串列表所包括的字符串中存在被賦予表示復(fù)合字符串的復(fù)合字符串信息的字符串時(shí),復(fù)合字符串優(yōu)先選擇部424將字符串的權(quán)重因子增加預(yù)定值。例如,復(fù)合字符串優(yōu)先選擇部424可以把被賦予復(fù)合字符串信息的字符串的權(quán)重因子乘以預(yù)定值(例如,把權(quán)重因子乘以5),或者可以把預(yù)定值加到權(quán)重因子上(例如,把5. O加到權(quán)重因子上)。當(dāng)復(fù)合字符串的權(quán)重因子等于或大于構(gòu)成該復(fù)合字符串的字符串的權(quán)重因子吋,復(fù)合字符串優(yōu)先選擇部424可以將該復(fù)合字符串中的該字符串刪除,以使該復(fù)合字符串中的該字符串不被選為構(gòu)成要素。與讀者語言優(yōu)先選擇部422類似,位置/規(guī)模優(yōu)先選擇部426把在原稿中處于預(yù)定位置的字符串的權(quán)重因子或具有預(yù)定規(guī)模的字符串的權(quán)重因子增大預(yù)定值。例如,當(dāng)字符串在豎直方向上比原稿中的預(yù)定位置設(shè)置得更高并且在水平方向上設(shè)置在距原稿中心的預(yù)定范圍之內(nèi)時(shí),位置/規(guī)模優(yōu)先選擇部426把字符串的權(quán)重因子增 加預(yù)定值。例如,當(dāng)字符串的規(guī)模等于或大于預(yù)定值時(shí),位置/規(guī)模優(yōu)先選擇部426把字符串的權(quán)重因子增加預(yù)定值。位置/規(guī)模優(yōu)先選擇部426可以基于字符串的位置或規(guī)模來逐漸地増加字符串的權(quán)重因子。當(dāng)配置分析単元304判斷出原稿中包括預(yù)定配置要素時(shí),配置要素優(yōu)先選擇部428選擇表示配置要素的字符串(配置要素字符串)并且將預(yù)定權(quán)重因子賦予該配置要素字符串。例如,當(dāng)原稿中包括配置要素“照片”時(shí)(即使當(dāng)字符串提取単元310沒有提取出字符串“照片”時(shí)),配置要素優(yōu)先選擇部428選擇配置要素字符串“照片”并且將預(yù)定權(quán)重因子賦予該配置要素字符串。配置要素優(yōu)先選擇部428的用于確定將權(quán)重因子賦予配置要素的基準(zhǔn)以及確定將權(quán)重因子賦予哪個(gè)配置要素的基準(zhǔn)可以是恒定的而與語言組合無關(guān),或者可以基于語言組合而適當(dāng)?shù)厍袚Q。配置要素字符串可以是讀者語言的字符串。手動(dòng)選擇部430使得UI裝置25顯示用于催促用戶選擇構(gòu)成要素的消息,并且接收用戶對(duì)Π裝置25進(jìn)行操作所選擇(輸入)的字符串。手動(dòng)選擇部430可以控制Π裝置25,以便使用戶輸入字符串列表中不包括的字符串。在這種情況下,手動(dòng)選擇部430可以控制UI裝置25,以便使用戶輸入讀者語言的字符
串O用于使讀者語言優(yōu)先選擇部422、復(fù)合字符串優(yōu)先選擇部424和位置/規(guī)模優(yōu)先選擇部426將權(quán)重因子増加預(yù)定值的基準(zhǔn)可以是恒定的而與語言組合無關(guān),或者可以基于語言組合而適當(dāng)?shù)厍袚Q。雖然在本示例性實(shí)施例中指出讀者語言優(yōu)先選擇部422、復(fù)合字符串優(yōu)先選擇部424和位置/規(guī)模優(yōu)先選擇部426使由出現(xiàn)頻率優(yōu)先選擇部420賦予給字符串的權(quán)重因子増加預(yù)定值,但讀者語言優(yōu)先選擇部422、復(fù)合字符串優(yōu)先選擇部424和位置/規(guī)模優(yōu)先選擇部426可以獨(dú)立于出現(xiàn)頻率優(yōu)先選擇部420執(zhí)行該處理。也就是說,例如,當(dāng)讀者語言中的字符串的數(shù)目等于或大于構(gòu)成要素的數(shù)目時(shí),讀者語言優(yōu)先選擇部422可以只選擇讀者語言中的字符串作為構(gòu)成要素,而不考慮出現(xiàn)頻率。例如,當(dāng)讀者語言中的字符串的數(shù)目小于構(gòu)成要素的數(shù)目時(shí),讀者語言優(yōu)先選擇部422可以將最大權(quán)重因子賦予讀者語言中所存在的字符串,以便選擇該字符串作為構(gòu)成要素,并且,出現(xiàn)頻率優(yōu)先選擇部420可以選擇其它的構(gòu)成要素。構(gòu)成要素轉(zhuǎn)換單元44通過使用構(gòu)成要素轉(zhuǎn)換單元44的特征字符串生成部中由切換單元326切換的一個(gè)或多個(gè)特征字符串生成部,對(duì)由構(gòu)成要素選擇單元42選擇的構(gòu)成要素進(jìn)行轉(zhuǎn)換。構(gòu)成要素轉(zhuǎn)換單元44將已轉(zhuǎn)換的構(gòu)成要素輸出至特征字符串確定單元46。翻譯部440例如使用預(yù)先存儲(chǔ)的翻譯詞典將構(gòu)成要素翻譯為讀者語言。 這里,翻譯詞典是用于將原稿語言翻譯為讀者語言的信息(數(shù)據(jù)庫(kù)),并且翻譯詞典將原稿語言中的字符串與讀者語言中的對(duì)應(yīng)(與原稿語言具有相同的含義)字符串彼此相關(guān)聯(lián)地進(jìn)行存儲(chǔ)。例如,如果讀者語言是英語且原稿語言是日語,所選擇的構(gòu)成要素是“合計(jì)”,在翻譯詞典中日語字符串“合計(jì)”與英語字符串“total”相關(guān)聯(lián),則翻譯部440將構(gòu)成要素“合計(jì)”翻譯為“total”。語音表述部442利用例如預(yù)先存儲(chǔ)的發(fā)音詞典將構(gòu)成要素的發(fā)音轉(zhuǎn)換為例如表達(dá)歐洲字符(字母數(shù)字字符和預(yù)定符號(hào))等的預(yù)定字符代碼(發(fā)音字符代碼),并且語音表述部442利用字符代碼所表達(dá)的字符對(duì)語素進(jìn)行表述。這里,發(fā)音字符代碼是例如ASCII碼等使用I個(gè)字節(jié)(由計(jì)算機(jī)處理的最小數(shù)據(jù)単位)來表達(dá)字符的字符代碼。這里,發(fā)音詞典是用于表述在發(fā)音上與發(fā)音字符代碼相對(duì)應(yīng)的原稿語言的信息(數(shù)據(jù)庫(kù))并且存儲(chǔ)原稿語言中的字符串;并且,使用彼此相關(guān)聯(lián)的發(fā)音字符代碼來表述發(fā)音與原稿語言中的字符串相對(duì)應(yīng)的字符串。例如,當(dāng)所選擇的構(gòu)成要素是“合計(jì)”時(shí),語音表述部442將構(gòu)成要素“合計(jì)”表述為羅馬字符(歐洲字符)“goukei”。字符代碼轉(zhuǎn)換部444例如使用預(yù)先存儲(chǔ)的轉(zhuǎn)換表來將表達(dá)構(gòu)成要素的字符代碼轉(zhuǎn)換為能夠在讀者環(huán)境中被識(shí)別的對(duì)應(yīng)的不同字符代碼,并且,字符代碼轉(zhuǎn)換部444利用已轉(zhuǎn)換的字符代碼表達(dá)的字符對(duì)構(gòu)成要素進(jìn)行表述。這里,例如,構(gòu)成要素是漢語字符,轉(zhuǎn)換表以漢語、日語及韓語示出漢語字符的字符代碼(用于對(duì)與具有相同含義但具有不同表述的漢語字符進(jìn)行表述的字符代碼)的對(duì)應(yīng)關(guān)系。例如,轉(zhuǎn)換表示出如下對(duì)應(yīng)關(guān)系其中,漢語字符以漢語的字符代碼Big5(大五碼)來表達(dá),并且以日語的字符代碼移位JIS碼來表達(dá)。轉(zhuǎn)換表還示出作為構(gòu)成要素的字符串的字符代碼與對(duì)應(yīng)于該字符串的例如Unicode等以通用語言統(tǒng)一井表述字符串的字符代碼之間的對(duì)應(yīng)關(guān)系。例如,當(dāng)讀者語言與原稿語言相同吋,無轉(zhuǎn)換部446不對(duì)構(gòu)成要素執(zhí)行任何轉(zhuǎn)換處理,并且將構(gòu)成要素輸出至特征字符串確定單元46。手動(dòng)轉(zhuǎn)換部448控制UI裝置25來顯示用于促使用戶對(duì)構(gòu)成要素進(jìn)行轉(zhuǎn)換的消息,接收由用戶對(duì)UI裝置25進(jìn)行操作而轉(zhuǎn)換的字符串作為構(gòu)成要素,并且將該構(gòu)成要素輸出至特征字符串確定單元46。特征字符串確定單元46通過使用特征字符串確定單元46的特征字符串生成部中由切換單元326設(shè)定的一個(gè)或多個(gè)特征字符串生成部,結(jié)合被構(gòu)成要素轉(zhuǎn)換單元44轉(zhuǎn)換的構(gòu)成要素(包括沒有被無轉(zhuǎn)換部446轉(zhuǎn)換的構(gòu)成要素)來確定特征字符串。特征字符串確定單元46執(zhí)行使UI裝置25顯示所確定的特征字符串的處理。當(dāng)使Π裝置25顯示所確定的特征字符串時(shí),特征字符串確定單元46可以執(zhí)行處理,以便用戶能夠使用UI裝置25來修正該特征字符串。順序改變結(jié)合部466執(zhí)行如下處理基于讀者語言和原稿語言的組合,把轉(zhuǎn)換后的構(gòu)成要素改變?yōu)榕c讀者語言的語法相對(duì)應(yīng)的順序,并且以改變后的順序?qū)?gòu)成要素結(jié)合起來。
例如,順序改變結(jié)合部466利用語素分析處理把轉(zhuǎn)換后的構(gòu)成要素的順序改變?yōu)榕c讀者語言的語法相對(duì)應(yīng)的順序。當(dāng)不使用順序改變結(jié)合部466時(shí),特征字符串中的構(gòu)成要素的順序可以與由構(gòu)成要素選擇單元42所選擇的順序(即,權(quán)重因子遞減的順序)相同。連接標(biāo)記插入結(jié)合部460執(zhí)行如下處理在將轉(zhuǎn)換后的構(gòu)成要素結(jié)合起來時(shí),在構(gòu)成要素之間插入例如“(下橫線)等連接標(biāo)記。頭字符轉(zhuǎn)換結(jié)合部462執(zhí)行如下處理在將轉(zhuǎn)換后的構(gòu)成要素結(jié)合起來時(shí),將各個(gè)構(gòu)成要素的頭字符轉(zhuǎn)換為與該頭字符相對(duì)應(yīng)的字符。例如,當(dāng)轉(zhuǎn)換后的構(gòu)成要素采用歐洲字符時(shí),頭字符轉(zhuǎn)換結(jié)合部462將構(gòu)成要素的頭字符由小寫字符轉(zhuǎn)換為大寫字符。無轉(zhuǎn)換結(jié)合部464執(zhí)行如下處理在將轉(zhuǎn)換后的構(gòu)成要素結(jié)合起來時(shí),對(duì)構(gòu)成要素進(jìn)行結(jié)合,而不對(duì)構(gòu)成要素執(zhí)行任何轉(zhuǎn)換處理。手動(dòng)轉(zhuǎn)換部448使得UI裝置25顯示促使用戶在構(gòu)成要素之間插入任意標(biāo)記且將構(gòu)成要素順序地結(jié)合起來的消息,并且手動(dòng)轉(zhuǎn)換部448把用戶對(duì)Π裝置25進(jìn)行操作所確定的字符串確定為特征字符串。將逐項(xiàng)地描述圖5A至圖5G所示的實(shí)例中的特征字符串生成単元40的處理。稍后將參考圖7A、圖7B及圖8至圖IIA來具體地描述原稿語言是日語并且讀者語言是日語、漢語及韓語的情況(圖5A至圖所示的情況)。在讀者語言是英語并且原稿語言是日語的情況(圖5E所示的情況)下,切換單元326將構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部420和讀者語言優(yōu)先選擇部422,將構(gòu)成要素轉(zhuǎn)換單元44切換為翻譯部440,并且將特征字符串確定單元46切換為頭字符轉(zhuǎn)換結(jié)合部462和順序改變結(jié)合部466。出現(xiàn)頻率優(yōu)先選擇部420依次將權(quán)重因子賦予字符串列表中所包括的字符串,使出現(xiàn)頻率較高的字符串具有較高權(quán)重因子。當(dāng)字符串列表中存在以英語作為讀者語言的英語字符串時(shí),讀者語言優(yōu)先選擇部422將由出現(xiàn)頻率優(yōu)先選擇部420賦予給英語字符串的權(quán)重因子增加預(yù)定值。構(gòu)成要素選擇單元42從利用上述處理被賦予權(quán)重因子的字符串中的最高權(quán)重因子開始依次地選擇與預(yù)定數(shù)目的構(gòu)成要素相對(duì)應(yīng)的字符串作為構(gòu)成要素。
翻譯部440把由構(gòu)成要素選擇單元42選擇的構(gòu)成要素從日語翻譯為英語。翻譯部440可以不翻譯原稿語言是英語的構(gòu)成要素。頭字符轉(zhuǎn)換結(jié)合部462把被翻譯為英語的各個(gè)構(gòu)成要素的頭字符從小寫字符轉(zhuǎn)換為大寫字符。順序改變結(jié)合部466按照與英語語法相對(duì)應(yīng)的順序?qū)Ρ环g為英語的構(gòu)成要素進(jìn)行排列。特征字符串確定單元46將頭字符已經(jīng)被轉(zhuǎn)換成大寫字符且已排列成與英語語法對(duì)應(yīng)的構(gòu)成要素結(jié)合起來,以便確定特征字符串。在讀者語言是日語并且原稿語言是漢語的情況(圖5F所示的情況)下,切換單元326將構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部420和位置/規(guī)模優(yōu)先選擇部426,將構(gòu)成要素轉(zhuǎn)換單元44切換為字符代碼轉(zhuǎn)換部444和語音表述部442,并且將特征字符串 確定單元46切換為連接標(biāo)記插入結(jié)合部460。出現(xiàn)頻率優(yōu)先選擇部420依次將權(quán)重因子賦予字符串列表中所包括的字符串,使得出現(xiàn)頻率較高的字符串具有較高權(quán)重因子。當(dāng)字符串在豎直方向上比原稿中的預(yù)定位置設(shè)置得更高、在水平方向上設(shè)置在距原稿中心的預(yù)定范圍之內(nèi)、并且字符串的規(guī)模等于或大于預(yù)定值時(shí),位置/規(guī)模優(yōu)先選擇部426把賦予給字符串的權(quán)重因子增加預(yù)定值。構(gòu)成要素選擇單元42從利用上述處理被賦予權(quán)重因子的字符串中的最高權(quán)重因子開始依次地選擇與預(yù)定數(shù)目的構(gòu)成要素相對(duì)應(yīng)的字符串作為構(gòu)成要素。字符代碼轉(zhuǎn)換部444把以漢語字符代碼表達(dá)的構(gòu)成要素所構(gòu)成的字符串代碼轉(zhuǎn)換為日語字符代碼,并且利用轉(zhuǎn)換后的字符代碼所表達(dá)的字符對(duì)構(gòu)成要素進(jìn)行表述。語音表述部442將漢語構(gòu)成要素中不具有日語字符代碼的構(gòu)成要素的發(fā)音轉(zhuǎn)換為發(fā)音字符代碼,并且將該構(gòu)成要素表述為由發(fā)音字符代碼表達(dá)的字符。連接標(biāo)記插入結(jié)合部460把按照由構(gòu)成要素選擇單元42選擇的順序(即,權(quán)重因子遞減的順序)排列的轉(zhuǎn)換后的構(gòu)成要素結(jié)合起來,在構(gòu)成要素之間插入有連接標(biāo)記,以便確定特征字符串。在讀者語言是日語并且原稿語言是X語言(語言的類型不能被鑒別)的情況(圖5G所示的情況)下,切換單元326將構(gòu)成要素選擇單元42切換為配置要素優(yōu)先選擇部428和手動(dòng)選擇部430,將構(gòu)成要素轉(zhuǎn)換單元44切換為手動(dòng)轉(zhuǎn)換部448,并且將特征字符串確定單兀46切換為手動(dòng)結(jié)合部468。當(dāng)原稿包括預(yù)定配置要素(例如,照片)時(shí),配置要素優(yōu)先選擇部428選擇配置要素字符串(例如,字符串“照片”)并且將預(yù)定權(quán)重因子賦予該配置要素字符串。手動(dòng)選擇部430控制UI裝置25,以便允許用戶輸入字符串。構(gòu)成要素選擇單元42選擇以下字符串作為構(gòu)成要素由配置要素優(yōu)先選擇部428選擇的字符串(配置要素字符串),以及由手動(dòng)選擇部430接收的作為UI裝置25上的操作結(jié)果的字符串。手動(dòng)轉(zhuǎn)換部448使得UI裝置25顯示如下消息該消息用于促使用戶轉(zhuǎn)換構(gòu)成要素,并且手動(dòng)轉(zhuǎn)換部448接收由用戶對(duì)UI裝置25進(jìn)行操作而轉(zhuǎn)換的字符串作為構(gòu)成要素。當(dāng)以讀者語言表達(dá)由構(gòu)成要素選擇單元42選擇的構(gòu)成要素時(shí),用戶不必操作Π裝置25來執(zhí)行轉(zhuǎn)換處理。手動(dòng)結(jié)合部468使得UI裝置25顯示促使用戶在構(gòu)成要素之間插入標(biāo)記以按任意順序?qū)?gòu)成要素結(jié)合起來的消息,并且手動(dòng)結(jié)合部468把由用戶對(duì)UI裝置25進(jìn)行操作所確定的字符串確定為特征字符串。圖6是示出處理程序3的處理流程的流程圖(SlO)。在步驟100 (S100)中,讀者語目記錄單兀320記錄讀者語目。在步驟102(S102)中,原稿語目記錄單兀322記錄原稿語目。在步驟104(S104)中,原稿讀取信息接收單元302接收從圖像讀取裝置27獲取的原稿讀取信息。在步驟106(S106)中,配置分析單元304分析原稿讀取信息,指定原稿中的配置要 素的區(qū)域,并且生成配置信息。在步驟108(S108)中,字符識(shí)別単元306識(shí)別根據(jù)配置信息而指定的字符區(qū)域中的字符,并且生成字符數(shù)據(jù)。在步驟IlO(SllO)中,語素分析単元308對(duì)由字符識(shí)別単元306識(shí)別的字符數(shù)據(jù)執(zhí)行語素分析處理,并且將屬性信息賦予語素(字符串)。在步驟112(S112)中,字符串提取單元310從語素分析單元308所接收的字符串組中提取被賦予預(yù)定的指定屬性信息的字符串。在步驟114(SI 14)中,切換單元326基于語言組合信息對(duì)用于在特征字符串生成単元40中生成特征字符串的特征字符串生成部進(jìn)行切換。在步驟116(S116)中,構(gòu)成要素選擇單元42利用由切換單元326設(shè)定的一個(gè)或多個(gè)特征字符串生成部將權(quán)重因子賦予特征字符串列表中所包括的字符串,并且從具有最大權(quán)重因子的字符串開始來依次地選擇與構(gòu)成要素的數(shù)目相對(duì)應(yīng)的字符串作為構(gòu)成要素。在步驟118(S118)中,構(gòu)成要素轉(zhuǎn)換單元44利用構(gòu)成要素轉(zhuǎn)換單元44的特征字符生成部中由切換單元326設(shè)定的一個(gè)或多個(gè)特征字符串生成部,對(duì)選擇出的構(gòu)成要素進(jìn)行轉(zhuǎn)換。在步驟120(S120)中,特征字符串確定單元46通過利用特征字符串確定單元46的特征字符生成部中由切換單元326設(shè)定的一個(gè)或多個(gè)特征字符串生成部,將轉(zhuǎn)換后的構(gòu)成要素結(jié)合起來以確定特征字符串。下面將參考具體實(shí)例來描述根據(jù)本示例性實(shí)施例的圖像處理裝置2的處理流程。圖7A和圖7B是示出在根據(jù)本示例性實(shí)施例的圖像處理裝置2中處理的原稿的實(shí)例和字符串的提取結(jié)果的實(shí)例的不意圖,其中,圖7A 出原稿的實(shí)例,圖7B 出字符串提取結(jié)果的實(shí)例。由于圖7A所示的原稿主要用日語記載,所以原稿語言是日語。基于原稿利用字符串提取単元310的處理,以圖7B所示的順序提取字符串。圖8是示出在圖7A和圖7B所示的原稿的讀者語言是日語的情況下的特征字符串生成単元40的處理流程的示意圖。圖8所示的情況與圖5A所示的情況相對(duì)應(yīng)。在這種情況下,切換單元326將構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部420和復(fù)合字符串優(yōu)先選擇部424,將構(gòu)成要素轉(zhuǎn)換單元44切換為無轉(zhuǎn)換部446,并且將特征字符串確定單元46切換為連接標(biāo)記插入結(jié)合部460。出現(xiàn)頻率優(yōu)先選擇部420從圖8所示的出現(xiàn)頻率最高的字符串開始依次地將權(quán)重因子賦予圖7B所示的字符串。復(fù)合字符串優(yōu)先選擇部424將復(fù)合字符串“富士ゼ口ックス”和“販殼金額”的權(quán)重因子増大至五倍,如圖8所示。由于字符串“販売”的權(quán)重因子是9. O并且字符串“金額”的權(quán)重因子是6. O但權(quán)重因子更大的復(fù)合字符串“販売金額”中包括字符串“販売”和“金額”,所以刪除字符串“販売”和“金額”。當(dāng)構(gòu)成要素的數(shù)目是4吋,構(gòu)成要素選擇單元42選擇如下四個(gè)高順位的字符串作為構(gòu)成要素權(quán)重因子較大的“富士ゼロックス”、“販売金額”、“複合機(jī)”和“伝票”。無轉(zhuǎn)換部446不對(duì)構(gòu)成要素“富士ゼロックス”、“販売金額”、“複合機(jī)”和“伝票” 執(zhí)行轉(zhuǎn)換處理。連接標(biāo)記插入結(jié)合部460在構(gòu)成要素之間插入連接標(biāo)記“_”并且將構(gòu)成要素結(jié)合起來,以生成圖8所示的特征字符串。這里,當(dāng)讀者語言為漢語和韓語的讀者的PC顯示字符串“富士ゼロックス販殼金額複合機(jī)伝票”時(shí),在該P(yáng)C中難以設(shè)置上述日語字符代碼。因此,不能正確地顯示該字符串,并且會(huì)發(fā)生所謂的亂碼。圖9是示出在圖7A和圖7B所示的原稿的讀者語言是漢語的情況下的特征字符串生成単元40的處理流程的示意圖。圖9所示的情況與圖5B所示的情況相對(duì)應(yīng)。在這種情況下,切換單元326將構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部420,將構(gòu)成要素轉(zhuǎn)換單元44切換為翻譯部440,并且將特征字符串確定單元46切換為連接標(biāo)記插入結(jié)合部460。出現(xiàn)頻率優(yōu)先選擇部420從圖8所示的出現(xiàn)頻率最高的字符串開始依次地將權(quán)重因子賦予圖7B所示的字符串。當(dāng)構(gòu)成要素的數(shù)目是4吋,構(gòu)成要素選擇單元42選擇如下四個(gè)高順位的字符串作為構(gòu)成要素權(quán)重因子較大的“複合機(jī)”、“販売”、“伝票”和“富士ゼロックス”。翻譯部440將構(gòu)成要素“複合機(jī)”、“販売”、“伝票和“富士ゼロックス”翻譯為漢語。連接標(biāo)記插入結(jié)合部460在構(gòu)成要素之間插入連接標(biāo)記“_”并且將構(gòu)成要素結(jié)合起來,以便生成圖9所示的特征字符串。圖10是示出在圖7A和圖7B所示的原稿的讀者語言是韓語的情況下的特征字符串生成単元40的處理流程的示意圖。圖10所示的情況與圖所示的情況相對(duì)應(yīng)。在這種情況下,切換單元326將構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部420,將構(gòu)成要素轉(zhuǎn)換單元44切換為語音表述部442,將特征字符串確定單元46切換為頭字符轉(zhuǎn)換結(jié)合部462。出現(xiàn)頻率優(yōu)先選擇部420從圖10所示的出現(xiàn)頻率最高的字符串開始依次地將權(quán)重因子賦予圖7B所示的字符串。
當(dāng)構(gòu)成要素的數(shù)目是4吋,構(gòu)成要素選擇單元42選擇如下四個(gè)高順位的字符串作為構(gòu)成要素權(quán)重因子較大的“複合機(jī)”、“販売”、“伝票”和“富士ゼロックス”。語音表述部442將構(gòu)成要素“複合機(jī)”、“販売”、“伝票”和“富士ゼ口ックス”轉(zhuǎn)換為表述上述構(gòu)成要素發(fā)音的字符(羅馬字符),如圖10所示。頭字符轉(zhuǎn)換結(jié)合部462將轉(zhuǎn)換后的構(gòu)成要素的頭字符轉(zhuǎn)換為大寫字符,然后將上述構(gòu)成要素結(jié)合起來,以便生成圖10所示的特征字符串。圖11是示出在圖7A和圖7B所示的原稿的讀者語言是漢語的情況下的特征字符串生成単元40的處理流程的示意圖。圖11所示的情況與圖5C所示的情況相對(duì)應(yīng)。在這種情況下,切換單元326將構(gòu)成要素選擇單元42切換為出現(xiàn)頻率優(yōu)先選擇部 420,將構(gòu)成要素轉(zhuǎn)換單元44切換為語音表述部442和字符代碼轉(zhuǎn)換部444,將特征字符串確定單元46切換為連接標(biāo)記插入結(jié)合部460。出現(xiàn)頻率優(yōu)先選擇部420從圖11所示的出現(xiàn)頻率最高的字符串開始依次地將權(quán)重因子賦予圖7B所示的字符串。當(dāng)構(gòu)成要素的數(shù)目是4吋,構(gòu)成要素選擇單元42選擇如下四個(gè)高順位的字符串作為構(gòu)成要素權(quán)重因子較大的“複合機(jī)”、“販売”、“伝票”和“富士ゼロックス”。字符代碼轉(zhuǎn)換部444將表述構(gòu)成要素漢語字符的字符代碼(例如,移位JIS碼)轉(zhuǎn)換為對(duì)應(yīng)的漢語字符代碼(例如,Big5碼),并且將構(gòu)成要素表述為由已轉(zhuǎn)換的字符代碼表達(dá)的字符,如圖11所示。語音表述部442將沒有對(duì)應(yīng)漢語字符代碼的字符串“ゼロックス”轉(zhuǎn)換為表述該字符串發(fā)音的字符,如圖11所示。連接標(biāo)記插入結(jié)合部460在轉(zhuǎn)換后的構(gòu)成要素之間插入連接符號(hào)“_”并且將構(gòu)成要素結(jié)合起來,以便生成圖11所示的特征字符串。出于示例和說明的目的提供了本發(fā)明的示例性實(shí)施例的上述說明。其意圖不在于窮舉或?qū)⒈景l(fā)明限制為所公開的確切形式。顯然,對(duì)于本領(lǐng)域的技術(shù)人員而言許多修改和變型是顯而易見的。選擇和說明實(shí)施例是為了最佳地解釋本發(fā)明的原理及其實(shí)際應(yīng)用,從而使得本領(lǐng)域的其他人員能夠理解各種實(shí)施例的發(fā)明和適合于特定預(yù)期應(yīng)用的各種修改。其目的在于用所附權(quán)利要求書及其等同內(nèi)容來限定本發(fā)明的范圍。
權(quán)利要求
1.一種圖像處理裝置,包括 記錄單元,其記錄第一語言和不同于所述第一語言的第二語言; 字符串提取單元,其從通過讀取原稿而獲取的讀取信息中提取一個(gè)或多個(gè)字符串; 多個(gè)特征字符串生成部,其基于由所述字符串提取單元提取出的所述一個(gè)或多個(gè)字符串來生成所述原稿的特征字符串;以及 切換單元,其基于所記錄的第一語言和所記錄的第二語言的組合對(duì)用于生成所述特征字符串的所述特征字符串生成部進(jìn)行切換。
2.根據(jù)權(quán)利要求I所述的圖像處理裝置,其中, 所述第一語言是能被所述原稿的讀者識(shí)別的讀者語言;并且 所述第二語言是基于所述原稿中出現(xiàn)的字符串確定的原稿語言。
3.根據(jù)權(quán)利要求2所述的圖像處理裝置,其中, 所述讀者語言是基于所述原稿的讀者的鑒別信息確定的,并且所述原稿語言是在原稿中出現(xiàn)比例最高的語言。
4.根據(jù)權(quán)利要求I所述的圖像處理裝置,其中, 所述多個(gè)特征字符串生成部包括 多個(gè)選擇部,其執(zhí)行如下處理基于所述第一語言和所述第二語言的組合,從提取出的一個(gè)或多個(gè)字符串中選擇構(gòu)成所述原稿的特征字符串的一個(gè)或多個(gè)構(gòu)成要素;以及 多個(gè)特征字符串確定部,其執(zhí)行利用由所述選擇部選擇的所述構(gòu)成要素確定所述特征字符串的處理,并且 所述切換單元基于所述第一語言和所述第二語言的組合,切換用于生成所述特征字符串的選擇部且切換用于生成所述特征字符串的特征字符串確定部。
5.根據(jù)權(quán)利要求I所述的圖像處理裝置,其中, 所述多個(gè)特征字符串生成部包括 多個(gè)轉(zhuǎn)換部,其基于所述第一語言和所述第二語言的組合對(duì)由所述字符串提取單元提取出的一個(gè)或多個(gè)字符串進(jìn)行轉(zhuǎn)換;以及 多個(gè)特征字符串確定部,其執(zhí)行利用由所述轉(zhuǎn)換部轉(zhuǎn)換的所述字符串確定所述特征字符串的處理,并且 所述切換單元基于所述第一語言和所述第二語言的組合,切換用于生成所述特征字符串的所述多個(gè)轉(zhuǎn)換部和所述多個(gè)特征字符串確定部。
6.根據(jù)權(quán)利要求I所述的圖像處理裝置,其中, 所述多個(gè)特征字符串生成部包括 多個(gè)選擇部,其執(zhí)行如下處理基于所述第一語言和所述第二語言的組合,從提取出的一個(gè)或多個(gè)字符串中選擇所述原稿的特征字符串的一個(gè)或多個(gè)構(gòu)成要素; 多個(gè)轉(zhuǎn)換部,其基于所述第一語言和所述第二語言的組合對(duì)由所述選擇部選擇的一個(gè)或多個(gè)字符串進(jìn)行轉(zhuǎn)換;以及 多個(gè)特征字符串確定部,其執(zhí)行利用由所述轉(zhuǎn)換部轉(zhuǎn)換的所述構(gòu)成要素確定所述特征字符串的處理,并且 所述切換單元基于所述第一語言和所述第二語言的組合,切換用于生成所述特征字符串的所述選擇部,切換用于生成所述特征字符串的所述轉(zhuǎn)換部且切換用于生成所述特征字符串的所述特征字符串確定部。
7.根據(jù)權(quán)利要求4或6所述的圖像處理裝置,其中, 所述多個(gè)選擇部中的一個(gè)選擇部執(zhí)行基于提取出的一個(gè)或多個(gè)字符串在所述原稿中的出現(xiàn)頻率來選擇構(gòu)成要素的處理。
8.根據(jù)權(quán)利要求4或6所述的圖像處理裝置,其中, 所述多個(gè)選擇部中的一個(gè)選擇部將提取出的字符串中具有預(yù)定位置和預(yù)定規(guī)模中至少一者的第一字符串的權(quán)重因子設(shè)置為比提取出的字符串中除了所述第一字符串之外的字符串的權(quán)重因子高出預(yù)定值,所述權(quán)重因子是用于從提取出的字符串中選擇所述構(gòu)成要素的指數(shù)。
9.根據(jù)權(quán)利要求4或6所述的圖像處理裝置,其中, 所述多個(gè)選擇部中的一個(gè)選擇部執(zhí)行如下處理選擇第二字符串作為所述構(gòu)成要素,所述第二字符串與配置要素相對(duì)應(yīng),所述配置要素設(shè)置在所述原稿中并構(gòu)成所述原稿,并且所述配置要素不同于所述字符串。
10.根據(jù)權(quán)利要求4或6所述的圖像處理裝置,其中, 所述多個(gè)選擇部中的一個(gè)選擇部將提取出的字符串中的采用所述第一語言的第三字符串的權(quán)重因子設(shè)置為比提取出的字符串中除了所述第三字符串之外的字符串的權(quán)重因子高出預(yù)定值,所述權(quán)重因子是用于從提取出的字符串中選擇所述構(gòu)成要素的指數(shù)。
11.根據(jù)權(quán)利要求5或6所述的圖像處理裝置,其中, 所述多個(gè)轉(zhuǎn)換部中的一個(gè)轉(zhuǎn)換部將提取出的一個(gè)或多個(gè)字符串翻譯為所述第一語言。
12.根據(jù)權(quán)利要求5或6所述的圖像處理裝置,其中, 所述多個(gè)轉(zhuǎn)換部中的一個(gè)轉(zhuǎn)換部將提取出的一個(gè)或多個(gè)字符串轉(zhuǎn)換為表述所述一個(gè)或多個(gè)字符串的發(fā)音的字符串。
13.根據(jù)權(quán)利要求5或6所述的圖像處理裝置,其中, 所述多個(gè)轉(zhuǎn)換部中的一個(gè)轉(zhuǎn)換部將提取出的一個(gè)或多個(gè)字符串的字符代碼轉(zhuǎn)換為所述字符串的對(duì)應(yīng)的不同字符代碼。
14.一種圖像處理方法,包括 記錄第一語言和不同于所述第一語言的第二語言; 從通過讀取原稿而獲取的讀取信息中提取一個(gè)或多個(gè)字符串; 基于提取出的一個(gè)或多個(gè)字符串來生成所述原稿的特征字符串;以及 基于所記錄的第一語言和所記錄的第二語言的組合對(duì)用于生成所述特征字符串的特征字符串生成部進(jìn)行切換。
全文摘要
本發(fā)明公開一種圖像處理裝置和圖像處理方法,該裝置包括記錄單元,其記錄第一語言和不同于所述第一語言的第二語言;字符串提取單元,其從通過讀取原稿而獲取的讀取信息中提取一個(gè)或多個(gè)字符串;多個(gè)特征字符串生成部,其基于由所述字符串提取單元提取出的所述一個(gè)或多個(gè)字符串來生成所述原稿的特征字符串;以及切換單元,其基于所記錄的第一語言和所記錄的第二語言的組合對(duì)用于生成所述特征字符串的所述特征字符串生成部進(jìn)行切換。
文檔編號(hào)H04N1/00GK102685347SQ201210028590
公開日2012年9月19日 申請(qǐng)日期2012年2月9日 優(yōu)先權(quán)日2011年3月11日
發(fā)明者上條裕義, 岡田茂, 大谷和宏, 安達(dá)真太郎, 小柳勝也, 張臻瑞, 袖浦稔 申請(qǐng)人:富士施樂株式會(huì)社