隨著多媒體技術的發展,視音頻信息越來越多,面對大量的資源,用戶希望能夠通過一個簡單的搜索引擎快速地找到所需要的信息。
而現有的搜索引擎主要是基於文本信息的檢索,不能滿足用戶對音視頻信息、多媒體信息檢索的需求。要實現對多媒體內容的搜索,關鍵要定義一種標準的描述多媒體內容的接口,規範對多媒體內容的描述。 1998年10月,MPEG(運動圖像專家組)組織就著手製定MPEG-7標準,稱為“多媒體內容描述接口”(multimedia content des cription interface)。 該標準的第4版已於2000年10月公佈。本篇文章對MPEG-7給與介紹。
1.MPEG-7標準的目標
MPEG-7標準的目標,是建立對多媒體內容的描述標準,滿足包括靜止圖像、圖形、3D模型、音頻、話音、視頻以及以上元素組合在一起的合成多媒體信息的應用領域的要求。並兼顧標準的通用性和擴展性的要求。
2.MPEG-7標準的框架
MPEG-7標準提供了通用、靈活、可擴展的多媒體內容描述框架。在這個框架中,標準化了一個描述符(Des criptor,D)集合、一個描述方案(Des cription Scheme,DS)集合、一種描述定義語言(Des cription Definition Language,DDL),以及對描述進行編碼的一種或者多種方法和工具。 描述符表示了多媒體對象的某種特徵,並定義了這種特徵表示的句法和語義。 描述方案規定了在某個描述中可用的描述符、描述符的生成,以及描述符與描述符、描述符與描述方案、描述方案與描述方案之間的關係的結構和語義。 描述定義語言(DDL)用來生成新的描述方案或者描述符的一種語言,也可以擴展或者修改已有的描述方案。 描述定義語言提供了建立描述方案和描述符的手段,而描述方案和描述符則是描述生成的基礎。
MPEG-7標準對多媒體內容的描述框架具有結構化的特點,同時標準中的描述方案和描述語言具有對新的描述支持的功能,增強了標準的靈活性和可擴展性。 作為MPEG-7核心的DDL語言是以XML語言為基礎,兼顧了其他多媒體描述語言(如SGML,DSSSL,HTML,SMDL等)而發展起來的,這提高了MPEG-7標准在各個頂用領域的適用性。
3.MPEG-7標準的範圍
MPEG-7的研究範圍僅限於對多媒體對象描述的生成,而具體採用什麼樣的特徵提取算法來提取描述,以及如何使用搜索引擎實現搜索都不在MPEG-7標準的範圍內,這樣做的目的是使得MPEG-7具有很強的通用性和擴展性,並給未來發展提供了條件。
4.與其他MPEG標準的關係
目前,ISO已公佈MPEG系列的標準有:MPEG-1,MPEG-2和MPEG-4標準。MPEG-7繼承和完善了其它標準,同時MPEG-7相對獨立,與其它標準有很大的區別。
MPEG-7與其他的MPEG主要的區別表現在:(1)MPEG-1,-2,-4重點是研究視頻和音頻高效的壓縮編碼算法,而MPEG-7將研究的重點放在更有效地描述多媒體對象特徵上。 MPEG-7可以獨立於其他的MPEG標準使用,MPEG-7的描述和所描述內容的壓縮、編碼、存儲無關。MPEG-7標准定義的所要描述的多媒體信息可以是未經任何壓縮的多媒體信息,也可以是經過其他MPEG壓縮的信息。 (2)MPEG-7是一個內容描述的標準,而不同的團體對內容的描述存在不同的技術和描述方法,這就要求在MPEG-7標準的製定過程中要對不同團體的需求進行調和。
當然,MPEG-7也參考其他標準合適的部分。例如,MPEG-4標準中提出了基於對象編碼的思想,已為MPEG-7所用,成為對多媒體對象進行描述處理的基本手段。另一方面,MPEG-7的內容描述有助於MPEG-1,MPEG-2和MPEG-4性能的提高和功能的擴展。 MPEG-1,MPEG-2和MPEG-4既是MPEG-7的工具和手段,又是MPEG-7應用的對象。 與其他類似的多媒體描述方式比較,MPEG-7的優點主要表現在:
普遍性:MPEG-7能適應多應用領域的要求。
面向對象的數據模式:MPEG-7能有效地針對對象進行描述。
高效的框架結構:MPEG-7把低水平和高水平的特性的描述結合在一個框架中。
可擴展性強:MPEG-7中的DDL語言允許用戶對描述符和描述方案自定義的擴展,並支持了標准在新的領域中的應用。
5.MPEG-7標準的組成
MPEG-7標準包括以下幾個組成部分:系統、描述定義語言、音頻、視頻、通用實體及多媒體描述方案、參考軟件和一致性檢驗。
5.1 MPEG-7系統
MPEG-7系統包括對描述符進行高效傳輸和存取的工具、對內容和描述進行同步的工具,以及管理和保護知識產權的工具。目前,MPEG-7系統定義了終端的結構和標準的接口。
MPEG-7系統中的“終端”,是指使用MPEG-7所標準化的多媒體內容描述信息的實體,這種實體對應於一個應用或應用系統的一部分。 標準化的終端結構分為四層:傳輸/存儲介質、傳輸層、壓縮層和應用層。最低層傳輸/存儲介質實現信息在物理上的傳送和存儲。傳輸層為MPEG-7的內容提供了同步,成幀,復用等功能,支持信息在不同的傳輸系統(包括MPEG-2,MPEG-4,ATM,IP等)中進行傳輸。 在傳輸/存儲介質和傳輸層中,MPEG-7的內容是以編碼的形式出現,在壓縮層中將對其進行碼流解析和內容重構,以供應用層使用。從終端四層結構的關係上說,傳輸/存儲介質為傳輸層提供了多元的碼流,傳輸層為壓縮層提供了基本碼流單元,壓縮層和應用層之間通過應用程序接口(API )來進行連接。
MPEG-7提供的是多媒體信息和多媒體描述間標準化的接口。 MPEG-7系統中定義了兩種標準化的接口,分別為文本格式接口和二進制格式接口,並定義了這兩種描述方式的等價性和轉換方式。
5.2 MPEG-7描述定義語言(DDL)
DDL語言是MPEG-7的一個核心部分。提供了基本的多媒體描述的方法,使用戶能夠創建自己的DS和D。 DDL語言發展兼顧和吸收了現有的各種媒體描述語言的特點,其中對其影響最大的是XML Schema語言和資源描述框架(RDF)。DDL可分為幾個部分:
XML Schema結構語言部分
XML Schema數據類型語言部分
MPEG-7特殊擴展部分
其中,MPEG-7對XML Schema的擴展主要表現在對數據類型的添加和擴展。
5.3 MPEG-7音頻
MPEG-7音頻委員會草案包括了6種技術:音頻描述結構、音像效果描述工具、樂器音質描述工具、語音識別描述工具、標準的靜寂部分及其帶有旋律的描述工具。
音頻描述結構定義了低水平的音頻描述符的框架,對描述符劃分等級形成樹的框架,以方便描述。聲音效果的描述工具是對聲音效果索引和分類工具的匯集。樂器音質描述工具是描述樂器聲音的特性,以實現單獨針對樂器音質的搜索。語音識別描述工具描述了音頻流中說話者語(word)和音(phone)的結合。旋律描述工具提供了音頻旋律信息的描述,允許通過旋律的相似性進行比較,使之更適用於哼唱方式的搜尋。 靜寂部分的描述符描述了音頻中的靜寂部分,以對音頻流進行分割,或暗示不用處理這個部分。
5.4 MPEG-7視頻
MPEG-7視頻描述工具包括用來描述視頻對象的各種描述符和描述方案。它的組成部分包括其基本的結構和涉及幾種基本的視覺特徵描述符:顏色、紋理、形狀、運動、定位及其他,每一類都有基本和復雜的描述符和描述方案組成。
基本結構:MPEG-7的視頻小組定義了5種與視覺有關的基本結構:網格結構、2D-3D多視角、時間序列、空間2D配合、時間插補。網格結構可將圖像分割為多個矩形區域,從而獨立地對每個區域進行描述。2D-3D多視角結構允許多視角採用2D的描述方法,對3D物體進行描述。 時間序列結構定義了視頻中描述符的時間順序,提供圖像和視頻幀以及視頻幀之間的比較。 空間2D配合結構支持局部和綜合的兩種配合系統,可用於對視頻的編輯。時間插補結構是用二項式來估計時變的多維變量的值,可用於估計物體的位置等。
顏色描述符:MPEG-7主要定義了7種顏色描述符:顏色空間、主導顏色、顏色的量化、顏色直方圖、GOF/GOP顏色、顏色結構、顏色佈局、對顏色的特性和結構進行描述。
紋理描述符:MPEG-7定義的紋理描述符為:邊緣直方圖、同源紋理、紋理瀏覽。
形狀描述符:MPEG-7定義的形狀描述符為:基於對象區域形狀描述符,基於輪廓的形狀描述符,3D的形狀描述符。
·运动描述符:MPEG-7定义的运动描述符为:照相机运动、对象运动轨迹、参数的物体运动、运动活动性。 ·運動描述符:MPEG-7定義的運動描述符為:照相機運動、對象運動軌跡、參數的物體運動、運動活動性。
定位描述符:MPEG-7中的定位描述符包括兩種:一種是區域定位,另一種是時間空間上的定位。區域定位描述符能對圖像或幀中的區域進行描述;而時空定位描述符能對視頻片斷中的時間空間的區域進行描述。
其他描述符:MPEG-7中還定義了其他的描述符,以適應多應用的要求。 比如人臉識別描述符等。
6. MPEG-7多媒體描述方案(MMDS)
MPEG-7描述方案(DS)的結構化和擴展化表明了其複雜的結構並定義了它們之間的關係,以便於多媒體內容的描述和管理。 在MPEG-7中,描述方案被分為兩大類。 一類是專門針對音頻、視頻和文本的媒體數據特性的描述方案,包括顏色,紋理,形狀,旋律等描述符;另一類是屬於多媒體的描述方案,它能夠對多媒體產生、用途和管理等。這兩種描述方案可以依靠工具的自動獲取或是人工的編輯而得到。對於低級的媒體數據特性描述方案,可以通過自動的提取工具而獲得,而對多媒體描述方案,因為涉及到語義上的問題,所以必須由人工的參與才能完成。
目前,MPEG-7工作小組所確定的多媒體描述方案的組成包括五個部分,分別為:基本要素、方案工具、內容描述、內容管理、內容組織、瀏覽訪問和用戶接口。
基本要素:定義了很多數據的類型和結構以及媒體連接和數據定位的工具,供定義描述方案時重複使用。
方案工具:提供MPEG-7的XML文檔的創建、組織描述方案(DS)進行多媒體內容的描述,並對DS進行分組打包以方便信息的應用。
內容管理:提供對內容創作信息(主題、作者等)、描述信息(壓縮、編碼和存儲格式等)以及使用信息(版權和使用權限等)的描述。
內容描述:內容描述方案描述了內容的結構和語義。 結構描述方案能為音視頻內容提供包括空間、時間、時空結構的描述。
內容組織:內容組織描述方案為音視頻內容、片斷和事件提供多種組織和建模方式,並描述它們基本的性質。
瀏覽訪問:為了方便對音視頻內容的瀏覽和獲取,MPEG-7對其內容定義的描述方案有:概要描述、分解描述、多樣性描述。
用戶接口:用戶接口描述方案描述了用戶對於多媒體節目的喜好,可支持個性化的音視頻內容的獲取和過濾的應用。
7.MPEG-7參考軟件——實驗模型(XM)
XM軟件是MPEG-7的D,DS,DDL,CS(編碼方案)進行仿真的平台,是MPEG-7的參考軟件。按功能,XM仿真的應用可分為兩種類型:客戶機端和服務器端的應用。
服務器端的應用主要是從多媒體數據中抽取描述符數據,井把這些數據進行編碼後寫入MPEG-7數據庫文件中。客戶端的應用主要執行對MPEG-7數據庫的搜索,這種搜索是通過把所詢問的描述和所有在MPEG-7數據庫中的描述進行比較來實現的。
這些應用中各項功能實現都是有XM所定義的類來完成的,這些類包括服務器應用類、客戶機應用類、圖像IO類、MOM VOP結構、描述符類、抽取單元類、編碼方案類、編碼文件IO類、解碼文件IO類、搜尋單元類、比較列表類。
8.MPEG-7一致性檢驗
MPEG-7的一致性檢驗提供了一種檢驗數據流或用戶終端的運作是否符合標準的規定,以保證資源互用性和數據資源全球化的要求。目前,一致性檢驗只是對MPEG-7的描述工具的一部分定義了檢驗的方法,並沒有完全地定義和完善。
9.MPEG-7標準的應用
MPEG-7對多媒體信息的內容進行了標準的描述,支持多方面、多領域的應用要求,使大容量的多媒體的檢索成為可能。MPEG-7應用的目標是實現多媒體信息能像現在文本信息一樣,很容易被搜索和訪問。
MPEG-7標準將支持兩種範疇的應用並對它們加以區分,一種是“拉”(pull)方式,對信息進行搜索和定位;另一種是“推”(push)方式,即對廣播信息的過濾。pull方式主要是使客戶能通過檢索的方式對服務器端獲取所需的信息。 MPEG-7應用中的push方式主要是指對網絡中的廣播信息根據用戶的設定進行過濾和有選擇的接收。
MPEG-7應用的工作方式是由各個商家和部門自定義的,不屬於標準的內容,但在,MPEG-7中對此也作了建議性的表述。如圖3所示就是一種典型的MPEG-7的應用工作方式框圖,圖中充分體現了用戶端pull(搜索引擎)和push(過濾器)的兩種應用。
當然,MPEG-7潛在的應用並不限於上面所提到的傳統意義上的面向多媒體內容,它還將涉及到其他方面的應用,包括自動半自動的媒體編輯、醫學領域的應用、遠程教育系統、監控系統等。
總結
MPEG-7將為多媒體的描述提供一種全面、靈活的框架。 MPEG-7將掌握多媒體數據庫中所有媒體的內容描述及其相關的框架結構,它將有助於多媒體數據庫的管理,而進行正確和高效的數據庫管理是進行內容搜索和獲取的先決條件。 另外,MPEG-7數據庫中將包含用語義進行描述的多媒體信息結構特性,這將為更正確的索引和搜索提供條件。 因此,MPEG-7標準受到行業內的重視,並成為研究的熱點。
- Aug 30 Sat 2008 21:39
MPEG-7
close
全站熱搜
留言列表
發表留言