תקן MPEG-1
מבנה תמונה
הבסיס לתקן
MPEG-1 (שהוא, כאמור תקן
MPEG המקורי)
דומה מאד לזה של
CCITT:
מדובר בדחיסת התמרה (
DCT) המשולבת בשערוך בין מסגרתי (
DPCM),
עם שערוך (ולאחר מכן קיזוז) תנועה. אולם על מנת להקנות תקן
MPEG-1 את הגמישות הרבה הנדרשת ממנו,
בוצעו בו שני שינויים עיקריים: שינוי אחד הוא תיאור מפורט מאד של רצף התמונות. ברמה הבסיסית, רצף תמונות הוידאו מתואר ע"י
6
תכונות, הכוללות בין היתר את מספרי הפיקסלים לרוחב ולגובה התמונה, קצב המסגרות וקצב הסיביות הכולל. רמת פירוט זו גבוהה יותר מאשר בתקן
CCITT, שבו אפשריים שני סוגי תמונה בלבד (
CIF ו-
QCIF), אם כי בתחום רחב של קצבי המסגרות.
בהקשר רחב יותר, רצף הסיביות בנוי מתחביר המורכב ממדרג של
6 רמות. במדרג זה התמונות מתוארות מהיבטים שונים,
החל מאפיון כללי של מבנה התמונות, עבור דרך תיאור הקשר בין תמונות עוקבות ברצף וכלה בסיביות המתארות את התמונות הדחוסות עצמן - לאח
ר התמרה וקידוד. התיאור המפורט של התמונה מאפשר גמישות רבה של מבנה התמונה (שכן המערכת הפורסת מקבלת תיאור מדויק של התמונות), חסינות
גבוהה לשגיאות ורעשים, תלות בדרך שבה קודד רצף התמונות, כל עוד המבנה שלו עונה לדרישות המפורטות בתקן.
שינוי שני שנעשה בתקן
MPEG-1 לעומת
CCITT הוא דחיסה בין מסגרתית מורכבת יותר וגם גמישה
ויעילה יותר. כאמור, בתקן
CCITT משודרים שני סוגי תמונה דחוסה: תמונה שלמה (שעברה דחיסה פנים-מסגרתית בלבד),
ותמונה הפרשית (שעברה גם דחיסה בין מסגרתית). השערוך הבין מסגרתי מבוצע קדימה בלבד, כלומר התמונה המשוערכת הבאה מתקבלת מסיכום התמונה
המשוערכת הקודמת עם התמונה ההפרשית הנוכחית. לכן קוראים לה תמונה קדמית. התמונה השלמה מסומנת
ב-
I (מהמילה Intraframe - פנים מסגרתית) והקדמית מסומנת
ב-
P (מהמילים forward Prediction - לציון השערוך שמבוצע במסגרת הקדמית).
בתקן
MPEG-1 קיים בנוסף לשני אלה סוג שלישי של תמונה, המתקבל משערוך דו כיווני, וסימנה הוא
B (Bi-directional interpolation). הקשר בין שלושת סוגי התמונות מתואר באיור
שלהלן:
רצף התמונות הדחוס בתקן MPEG-1 מורכב מקבוצות של תמונות. בכל קבוצה יש תמונות משלושת הסוגים. לשלושת סוגי התמונות יש תכונות שונות:
א. תמונות I - כל תמונה מסוג זה עומדת בפני עצמה (כלומר היא אינה משוערכת ממסגרות אחרות) ופריסתה מיידית,
כי אין צורך בידיעת מסגרות שכנות. לכן ניתן להשתמש בתמונות I כנקודות גישה לרצף התמונות בשימושי הקלטה.
אולם מאחר שמדובר בדחיסה מסגרתית בלבד, יחס הדחיסה המתקבל הוא נמוך יחסית,
עד 25:1 בתמונות טיפוסיות בדומה למתקבל בתקן JPEG
ב. תמונות P - תמונה כזו מתקבלת משערוך קדמי של התמונה שקדמה לה (מסוג I או
P), תוך קיזוז מתאים של התנועה. לכן תמונות I ו-P
מהוות תמונות ייחוס. יחס הדחיסה המתקבל בתמונות P גבוה פי 3-4 מאשר במסגרת
I. מצד שני, מאחר שהן אינן עומדות בפני עצמן, לא ניתן להשתמש בהן כנקודות גישה לרצף. ממילא, כדי לפרוס
תמונה P, יש לגשת תחילה לתמונה I שקדמה לה, ואז זו הופכת לנקודת הגישה.
ג. תמונות B - תמונה כזו נתונה בין זוג תמונות I ו-P
(אם כי לא בהכרח בצמוד אליהן). היא מתקבלת משערוך דו כיווני של שתיהן: זהו שילוב של שערוך קדמי של התמונה שקדמה לה
(P או I) ושערוך אחורי של התמונה שלאחריה (I
או P). היתרון העיקרי של תמונה מסוג B הוא ביחס הדחיסה הגבוה שלה, שברצף
תמונות טיפוסי הוא גדול פי 12-10 מזו של תמונה I. יתרון חשוב נוסף הוא בהגדלת החסינות לרעשים עקב היצוע
בין שתי תמונות הייחוס. תמונה B אינה משמשת לשערוך של מסגרות אחרות, משום שהיא עצמה מהווה שערוך מדור
שני (היא מתקבלת, בין השאר, ממסגרת P שבעצמה משוערכת מדור ראשון).
אולם לתמונות B יש כמה חסרונות: ראשית, בגלל תהליך הפריסה המורכב שלהן, לא ניתן להשתמש בהן כנקודות גישה.
יתר מזה, כדי לפרוס תמונה B, יש לדעת תמונה שנמצאת אחריה ברצף (לאו דווקא מיד אחריה), ולכן הפריסה כרוכה
בהשהיה של מספר מסגרות. יש לכך השלכה שעל שימוש ב-MPEG-1 לדחיסה בזמן אמת. שנית, מסגרות B מסבכות את
חומרת הדחיסה והפריסה, בגלל הצורך לשערך מתוך שתי מסגרות הייחוס המתאימות. כמו כן, גדל מאד קצב הקריאה והכתיבה הנדרש מן הזיכרון,
עקב הצורך להשתמש בנתוני מסגרות הייחוס הגורות בו. לבסוף, קצב הסיביות המשודרות אינו אחיד: בזמן שידור מסגרת I
הקצב גבוה פי 10 בערך מאשר בזמן שידור מסגרת B. יש לכך חסרונות מסוימים מבחינת
מערכת התקשורת הדיגיטלית.
הרכב קבוצת התמונה בתקן MPEG-1 הוא גמיש, וניתן להתאימו לשימושים שונים: למשל, לצורך הקלטת וידאו דרושות
נקודות גישה רבות יחסית, ולכן דרוש מספר גדול יחסית של תמונות I ברצף. הרכב מקובל בשימושי
הקלטה הוא ...IBBPBB... . המיעוט היחסי של תמונות B בקבוצה מקטין את יחס הדחיסה, אך יש לזכור שכאשר מדובר
בהקלטה, תהליך הדחיסה / פריסה הוא לרוב אסימטרי, דבר המשפר את יחס הדחיסה. יצוין, כי הרכב קבוצת התמונות מתואר במסגרת רצף הסיביות
המשודר, ולכן המערכת הפורסת "יודעת" את מבנה הרצף שעליה לפרוס.
מאפייני תמונה מומלצים וערכים מעשיים
תקן MPEG-1 מאפשר גמישות מרבית בהגדרת מאפייני התמונה וקצב הסיביות הדחוס. עם זאת ישנן בתקן כמה מגבלות והמלצות,
אשר תוחמות הגדרה חופשית זאת. תחימה כזו נחוצה בעיקר ביישומים שאינם מבוססים על שימוש במחשב. כפי שצוין, ניתן לדחוס ולפרוס תמונה בשתי
דרכים:
- בתוכנה - באמצעות מחשב (מחשב אישי או תחנת עבודה בד"כ). המימוש בתוכנה גמיש מאד, אולם לרוב אינו מאפשר פעולה בזמן אמת,
אלא אם כן מדובר במחשב חזק במיוחד.
- בחומרה - כלומר ע"י שימוש במעגלים משולבים ייעודיים לפריסה (מפענחי MPEG) או דחיסה
(מקודדי MPEG). בדרך זו ניתן לקבל דחיסה או פריסה בזמן אמיתי - לשימושים בידוריים מקובלים, דוגמת טלוויזיה
או וידאו דיסק. הבעיה היא שבמקרה זה המהירות באה על חשבון הגמישות, ומתחייבת הגדרה מראש של מאפייני התמונה.
על מנת לאפשר ליצרני הרכיבים לפתח ולייצר רכיבי דחיסה ופריסה נדרשה הנחיה (מעין תת-תקן) שתגביל את מאפייני התמונה לערכים מעשיים.
הכוונה היתה לתחום את רמת הסיבוכיות החישובית, גודל הזיכרון הנדרש ומהירות הפעולה לרמות שנראו אפשריות בזמנו. הנחיה זו קרויה קבוצת
הפרמטרים המוגבלת (CPS) של MPEG. כל רכיבי הדחיסה והפריסה הקיימים כיום בשוק פועלים
רק בתחומי הנחיה זו. הערכים העיקריים ב-CPS רשומים בטבלה הבאה:
יש לשים לב, כי מספר הפיקסלים המרבי בתמונה נקבע עפ"י מספר גושי החיפוש המרבי במסגרת, 396*16*16 =
101,376.
כלומר הוא אינו שווה ל-576 * 720 (כמשתמע אולי משתי השורות הראשונות בטבלה). בהתאם לכך נקבע מבנה
תמונה תקני, הקרוי SIF. על מנת לאפשר תאימות טלוויזיונית, מאפייני SIF נגזרו מתקן
הטלוויזיה הדיגיטלית CCIR-601. עפ"י תקן זה, בתמונה יש 576 * 704
פיקסלים לאות הבהיקות (עבור
25Hz) או 480 * 704 (עבור 30Hz),
ומחצית מכך (בכל כיוון) עבור אותו הצבעונות. תמונות SIF נקבעה למחצית מערכים אלו, בכל כיוון.
כלומר מאפייני תמונת SUF הם כרשום בטבלה הבאה:
לכן בד"כ, שלב קודם לדחיסת תמונה ב-MPEG הוא דגימתה מחדש על פי פורמט SIF. יש לשים לב,
שבדגימה זו לכשעצמה טמונה מידה משמעותית של דחיסה - כשמדובר בתמונת טלוויזיה רגילה. בפועל, אף שאין הדבר הכרחי, רוב החומר, שנדחס
ב-MPEG ואשר מיועד לפריסה בתוכנה ע"י מחשב, בנוי גם הוא על פי פורמט SIF,
או פורמט קטן ממנו פי 4 (120*160).
ברוב היישומים הבידוריים קצב הסיביות המקובל הוא קצב קבוע, בסביבות 1.5Mb/s. קצב זה נמצא במגבלות
ה-CPS, מאפשר קבלת תמונת טלוויזיה באיכות סבירה (דומה לזו שמתקבלת ממקלטת VHS ביתית)
והוא מתאים לקצבי העבודה של כוננים אופטיים. קצב זה קרוי לעיתים הקצב הנומינלי (או האופטימלי) של MPEG-1. קצב
זה כולל את רכיב השמע הדיגיטלי הדחוס (כ-256Kb/s) ורכיב מידע העזר (כ-100Kb/s).
לכן, קצב סיביות הוידאו הדחוס הוא כ-1.15Mb/s-. אם נתייחס לתמונת מקור טלוויזיונית רגילה, ונוסיף על
כך את "הדחיסה" שנובעת מתת הדגימה לתמונת SIF, נקבל בסה"כ יחס של 100:1 בערך.
כאמור, על אף דחיסה נכבדה זו, איכות התמונה הנפרסת דומה לזו של תמונת VHS - דבר המהווה הישג מרשים.
לגבי דחיסת השמע: מדובר באות דיגיטלי, כזה המופק מתקליטור רגיל. קצב הדגימה של כל ערוץ הוא 44.1byte/s, כשכל מילה מורכבת מ-16 סיביות. לגבי שמע סטריאופוני, האות הדיגיטלי הגולמי (כלומר ללא קידוד
לתיקון שגיאות) הוא בקצב של 1.4Mb/s מובן מכאן הצורך בדחיסה. שיטת הדחיסה שונה לחלוטין מזו של אות הוידאו:
מצד אחד, כמות המידע הגולמי קטנה בהרבה מזו של אות הוידאו. מצד שני, הדחיסה קשה יותר, משום שהאוזן רגישה הרבה יותר מן העין לזיופים.
לכן פותחו במסגרת MPEG כמה שיטות לדחיסת שמע. יחס הדחיסה האופייני הוא 6:1
והיחס המרבי הוא 22:1. השיטות
הללו משמשות כיום גם לדחיסת אותו שמע שאינם במסגרת טלוויזיונית (למשל לקבצי שמע דחוסים המועברים ברשת האינטרנט).
תקן MPEG-2
MPEG-2, אשר פורסם כתקן ב-1994, הנו תקן קידוד בעל רוחב פס גבוה, אשר תומך ברוחב
פס בטווח של בערך 2Mbps עד ל-20Mbps. תקן זה עוצב לראשונה לקידוד של שידורי טלוויזיה
בטווחי מידע מתחת ל-10Mbps, אך הוא הורחב כדי לספק דרישות של רוחב פס בטווח של
.12-20Mbps
MPEG-2 עוצב על מנת להתאים לטכניקות הקידוד של MPEG-1,
אך הוא גם הורחב על מנת לתמוך בוידאו משולב, כמו זה המסופק ע"י מקורות קלט בטלוויזיה. תקן MPEG-2 עוצב כתקן
גמיש אשר תומך בשלבים רבים של שירות, התלויים בצרכי האפליקציה. היתה ציפייה, כי תקן MPEG-3 יפותח עבור
(HDTV (High Definition Television,
אך MPEG-2 עמד כבר בדרישות רוחב הפס עבור HDTV.
תקן הקידוד MPEG-2 בנוי על ומותאם למיותרות הדחיסה הסטטיסטית של MPEG-1.
ההבדל החשוב ביותר בין MPEG-1 לבין MPEG-2 הוא הקידוד הפנים מסגרתי עבור שידור
טלוויזיהMPEG-1 תומך רק בקידוד של מסגרות הדרגתיות, בעוד ש-MPEG-2 מספק גם קידוד של
מסגרות הדרגתיות וגם קידוד פנים מסגרתי. סרטי וידאו, אשר במקור מצויים בפורמט של סרט, הם בעלי פורמט של מסגרת הדרגתית.
שידורי טלוויזיה הם בפורמט פנים מסגרתי. שידור מסגרת נוצר עם שני שדות נפרדים - שדה אחד המצוי למעלה ושני המצוי למטה, כאשר השורה
הראשונה של השדה התחתון מופיעה מיד אחרי השורה הראשונה של השדה העליון. MPEG-2 מפצל מסגרות לשני שדות, כך
ש-30 מסגרות בכל שנייה נהפכות ל-60 שדות בכל שנייה.
תקן MPEG-4
תקן MPEG-4 הושלם באוקטובר 1998 ופורסם במחצית הראשונה של 1999.
MPEG-4 הומצא מתוך צורך שיהיה תקן גמיש התומך ברוחב פס רחב בטווח של 64Kbps,
המתאים לאפליקציות אינטרנט, ועד בערך 4Mbps בשביל צרכי רוחב פס רחב יותר לוידאו. MPEG-4
הופיע גם מתוך רצון, כמו כל התפתחות של קידוד דיגיטלי, להתקדם מעבר להמרה ודחיסה פשוטה, וכמו כן להוות אמצעי דיגיטלי, אשר ניתן בעזרתו
ליצור קובץ דיגיטלי, אשר מכיל משמעות גדולה יותר מהסכום הכולל של כל אחד מחלקיו.
MPEG-4 תומך גם בקידוד וידאו הדרגתי וגם בפנים מסגרתי. התקן מבוסס של אובייקטים, אשר מקודד משטחים של אובייקטים
של וידאו לדמויות של צורה שרירותית. משטחי וידאו רצופים השייכים לאותו אובייקט באותה סצנה מקודדים כאובייקטים של וידאו.
MPEG-4 תומך גם בקידוד מידע טבעי ("אנלוגי") וגם בסינתטי ("הנוצר ע"י מחשב").
דחיסת MPEG-4 מספקת גמישות זמנית, המנצלת זיהוי אובייקטים ומספקת דחיסה גבוהה יותר לאובייקטים שברקע, כגון עצים
ותפאורה, ודחיסה נמוכה יותר עבור אובייקטים שבקדמה, כגון שחקן או דובר - ממש כמו שעין האדם מסננת מידע ע"י צמצום הריכוז על האובייקט
הכי משמעותי בשדה הראייה, כמו למשל השותף האחר בשיחה.