《基于新聞環(huán)境的人物肖像檢索》由會員分享,可在線閱讀,更多相關(guān)《基于新聞環(huán)境的人物肖像檢索(23頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、基于新聞環(huán)境的人物肖像檢索 主要內(nèi)容背景介紹相關(guān)工作系統(tǒng)框架實(shí)驗(yàn)及應(yīng)用總結(jié)一些問題 背景介紹新聞數(shù)量急劇膨脹各種新聞網(wǎng)站(BBC,CNN)各種分類(體育,軍事)各種RSS聚合各種范圍(國家大事,地區(qū)新聞) Web 2.0 如何提高閱讀效率? 輔以圖片等多媒體信息圖片在信息表示上的優(yōu)勢根據(jù)新聞的相關(guān)內(nèi)容,向用戶提供圖片等多媒體信息,讓用戶迅速領(lǐng)悟新聞主旨,提高閱讀效率,增加閱讀興趣本文希望從新聞主體人物出發(fā),向用戶提供人物肖像,達(dá)到更好的人機(jī)交互的目的 相關(guān)工作圖像搜索引擎 Google, MSN,Yahoo 基于內(nèi)容:WebSeek本場合不適用 Diogenes 檢索一些名人的肖像本身有一個(gè)圖
2、片庫家庭影集人物關(guān)聯(lián)系統(tǒng)根據(jù)標(biāo)注好的樣例,檢測對應(yīng)的人物 相關(guān)工作 Portrait (CMU) E-mail 閱讀搜尋主頁,得到相關(guān)圖片,檢測圖像 本文工作完全根據(jù)新聞本身檢索新聞人物肖像不限于少數(shù)名人沒有數(shù)據(jù)庫沒有供學(xué)習(xí)的樣例沒有直接的人物所屬機(jī)構(gòu),主頁,郵件信息充分利用現(xiàn)有搜索資源 系統(tǒng)描述 系統(tǒng)步驟框圖 人名及關(guān)鍵字提取命名實(shí)體識別類別:實(shí)體名,包括人名、地名、機(jī)構(gòu)名;時(shí)間表達(dá)式,包括日期、時(shí)間和持續(xù)時(shí)間數(shù)字表達(dá)式,包括錢、度量衡、百分比識別方法隱馬爾可夫模型(HMM)最大熵(ME)條件隨機(jī)場(CRF)統(tǒng)計(jì)與規(guī)則相結(jié)合 D M Bikel, R L Schwartz, R M Weis
3、chedel. An algorithm that learns whats in a nameJ. Machine Learning, 1999, 34(13): 211231. 新聞內(nèi)容的重要性由于新聞人物與事件的緊密聯(lián)系,事件的內(nèi)容是檢索人物肖像的重要環(huán)境參數(shù)重名問題檢索結(jié)果不相關(guān)問題新聞內(nèi)容表示詞頻統(tǒng)計(jì) TF-IDF 單個(gè)詞t i 在文檔di 中的個(gè)數(shù) 單個(gè)詞ti 在所有文檔D 中的個(gè)數(shù) N 文檔總數(shù)( , )in t dlog(1 ( , )log( / ( , )id i iw n t d N n t D ( , )in t D 圖片檢索將提取出的人名提交給搜索引擎抓取前十頁的網(wǎng)頁
4、和圖片剔除壞的網(wǎng)頁,圖片去除網(wǎng)頁標(biāo)記,提取正文 主題內(nèi)容匹配相關(guān)度計(jì)算基于改進(jìn)的VSM的方法綜合考慮內(nèi)容和命名實(shí)體文檔表示線性組合 1 2 1 2( , , , , , , , )d d kd d d ndd u u u w w w , doc NE keywords , , , ,1 12 2 2 2, , , ,1 1 1 1( ) ( )( , ) (1 )t ti m i n i m j ni im n t t t ti m i n i m i ni i i iw w u usim d d w w u u 獲取肖像肖像檢測內(nèi)容相關(guān)性比較后,很多圖片并非人物肖像人臉檢測基于神經(jīng)網(wǎng)絡(luò)的人臉
5、檢測方法特征簡化參數(shù)個(gè)數(shù) N 分為1個(gè),2個(gè)和2個(gè)以上三種位置 P分為圖片中心占50面積的方形區(qū)域內(nèi)和區(qū)域外兩種比例 R分為0,1/4,(1/4-2/4,(2/4-3/4,3/4以上四種顏色 C灰度和彩色 獲取肖像實(shí)際中只考慮個(gè)數(shù),比例只含有一個(gè)人臉人臉區(qū)域占圖像比例大于一定的閾值Reference:Neural Network-Based Face Detection, by Henry A. Rowley, Shumeet Baluja, and Takeo Kanade. IEEE Transactions on Pattern Analysis and Machine Intellig
6、ence, volume 20, number 1, pages 23-38, January 1998. 實(shí)驗(yàn)新聞源RSS種子來源平均每日提供新聞Yahoo!Entertainment 13BBC Sport 15 BBC Entertainment 11Sina English 20CNN Sports 15CNN World 12 n取100條新聞n包含人名432個(gè)n取內(nèi)容相關(guān)前20位的條目n人臉檢測top5的圖片 結(jié)果評價(jià)對最后檢測的top5的圖片,主觀判斷是/不是人物肖像,再對所有結(jié)果求和平均結(jié)果新聞內(nèi)容檢測有效過濾不相關(guān)圖片肖像檢測有效獲取人物肖像 相關(guān)實(shí)驗(yàn)結(jié)果 具體應(yīng)用 Refe
7、rence:T Wang, N Yu, Z Li,et al. nReader: Reading News Quickly, Deeply and VividlyA. SIGCHI 06 extended abstracts on Human factors in computing systemsC. Qubec, Canada: ACM Press, 2006,13851390. 總結(jié)根據(jù)新聞本身,檢索新聞人物主體的肖像圖片,使新聞閱讀生動具體,為新聞閱讀提供了新思路綜合利用了現(xiàn)有搜索引擎技術(shù)文檔相關(guān)性比較人臉檢測避免了一般系統(tǒng)的不足 問題每一步都有誤差命名實(shí)體抽取新聞內(nèi)容相關(guān)性人臉檢測 e.g 檢索Schmidt 如何綜合考慮,達(dá)到較滿意的效果 系統(tǒng)拓展不僅是肖像地點(diǎn),事件等相關(guān)圖片組合這些圖片,加上適當(dāng)?shù)年P(guān)鍵字描述,讓新聞閱讀直觀迅速不僅是新聞 Blog E-mail等時(shí)代有廣闊的發(fā)展空間 謝謝大家!