דחיסת תמונה - תקן לוידאו טלפוני

עמוד הבית -> דחיסת תמונה - תקן לוידאו טלפוני - CCITT-H.261

תקן זה מכונה רשמית "המלצה 261.H של CCITT". התקן מיועד להעברת רצף תמונות וידאו בקו טלפון, לשני שימושים עיקריים: טלפון חזותי והתוועדות חזותית. במקרה הראשון הכוונה בשיחה בין שני אנשים בלבד, והקצב הנדרש להעברת מידע נמוך יחסית. במקרה השני משתתפים כמה אנשים בקשר - לעיתים יותר משני מקומות - כמות המידע היא רבה יותר, ונדרש קצב גבוה יותר.
קווי הטלפון המשמשים כיום לתקשורת דיגיטלית (שמע ו/או נתונים הם בעיקר מסוג T1. בקו מסוג זה משודרים בריבוב זמני 24 ערוצים דיגיטליים, כל אחד מהם ברוחב פס של 64Kb/s. בסה"כ רוחב הפס של הערוץ הוא 1.544 Mb/s לערך. באופן עקרוני, ע"י קצב הריבוב בכל רגע נתון, ניתן להקצות לערוץ תקשורת מסוים רוחב פס שבין 64Kb/s ל-1544Kb/s עפ"י הנדרש.
קיימים גם קווים טובים יותר (למשל, קווי T2, שרוחב הפס שלהם הוא 6.312Mb/s), אולם אלה נפוצים הרבה פחות. על רקע דברים אלו, יש לציין, כי מערכת קווי הטלפון נמצאת בתהליך של מעבר לסיבים אופטיים, שבהם רוחב הפס הזמין גדול בהרבה. אולם, זהו תהליך ארוך שיושלם רק בעוד כמה שנים. לכן, יש להתאים את שידורי הוידאו הטלפוני לקווים הקיימים - בעיקר לקווי T1.
כדי לכסות באמצעות תקן יחיד את מגוון השימושים הנדרשים מצד אחד, ואת הקצבים האפשריים להעברת המידע מצד שני, התקן נבנה בצורה הירארכית, כאשר הוא מאפשר תקשורת ב-32 קצבים, P = 1,2,3,.....,32 ,P * 64Kb/s. הקצב הנמוך ביותר, 64Kb/s, מיועד לתקשורת וידאופונית פשוטה (על ערוץ דיגיטלי בודד), והקצב המרבי 2048Kb/s = 32 * 64Kb/s, מאפשר תמונה באיכות גבוהה כנדרש עבור ועידות וידאו, אך בקצב זה דרוש גם קו תקשורת מסוג T2. העברת השמע המתלווה לתמונה אינה מהווה חלק מן התקן. אות זה אינו דחוס בד"כ, והוא מועבר בצורה ובאיכות הרגילה בתקשורת טלפונית דיגיטלית.

מבנה תמונה

יחס הדחיסה הנדרש תיאורטית להעברת תמונת וידאו מקובלת אינו מציאותי עדיין. לכן בשלב הראשון היה צורך להתפשר על איכות התמונה שתועבר בוידאו טלפוני, ונקבע תקן שונה מזה הנהוג בשידורי טלוויזיה - בעל איכות תמונה מוגבלת יותר. מבחינת ההפרדה בתמונה, נקבעו שני תקנים, המכונים CIF ו-QCIF. שני תקנים אלו מפורטים בטבלה הבאה:

התקן מאפשר גם להקטין את קצב המסגרות. התקן קובע השהיה מרבית של ms 150 לצורך דחיסת המסגרת ופריסתה, במטרה לאפשר לצופה תחושה סבירה של תקשורת חיה (מחקרים העלו שהשהיה ארוכה יותר פוגמת מאד בתחושה זו). קצב המסגרות צריך להיות מהיר יותר מ-6.66Hz = 1/150 ms. בפועל הקצב הנמוך ביותר שבו משתמשים הוא 10Hz

תהליך הדחיסה

דחיסת רצף של תמונות שונה מדחיסת תמונה בודדת, משני היבטים עיקריים: מצד אחד, כמות המידע גדולה בהרבה, ונדרשת מהירות גבוהה של דחיסה ופריסה (בהתאם לקצב הופעת התמונות). מצד שני, ניתן לנצל את המיותרות הזמנית ברצף התמונות, וע"י כך להגדיל באופן ניכר את יחס הדחיסה. דחיסת רצף של תמונות בנויה משני רבדים:

דחיסה זמנית, המכונה גם דחיסה בין מסגרתית; בגלל הדמיון הרב בין תמונות עוקבות מעבירים את ההפרש בין תמונות עוקבות במקום את התמונות עצמן. לשם כך משתמשים בדחיסה משערכת (DPCM). באופן גס ניתן לומר, כי ההפרש בין תמונות עוקבות נובע משני גורמים:

תנועה בתמונה (תנועת עצמים בתוך התמונה, או תנועה של כלל התמונה עקב תנועת המצלמה).
שינוי של ממש בתמונה - עקב מיתוג המצלמה, או כניסת עצם חדש לתמונה.

דחיסה מרחבית של התמונה ההפרשית, המכונה גם דחיסה פנים מסגרתית. למטרה זו משתמשים בדחיסת התמרה (DCT), דומה מאד לזו שמבוצעת בתקן .JPEG

להלן מבנה מערכות הדחיסה והפריסה (המקודד והמפענח):

למערכות הדחיסה יש שני אופני פעולה, אשר נקבעים ע"י מצבי המרבבים:

א. אופן הפעולה הבין מסגרתי - זהו אופן הפעולה הרגיל של המערכת, והוא מתקבל, כאשר המרבבים נמצאים במצב 1. במצב זה כל תמונה מחוסרת תחילה מן הערך הפרוס של התמונה הקודמת (התמונה הפרוסה שמורה בזיכרון התמונה, שנמצא בחוג המשוב), כך שבמוצא המחסר מופיעה (כפיקסלים בודדים בזה אחר זה) תמונת ההפרשים.
כדי להקטין ככל האפשר את ההפרשים (וע"י כך לייעל את הדחיסה), המערכת כוללת מנגנון לקיזוז תנועה: שתי התמונות, הנוכחית והקודמת, מחולקות לגושים בגודל 16 * 16. לגבי כל גוש בנפרד מתבצע חישוב התנועה. התנועה מיוצגת ע"י גודל המכונה וקטור תנועה, אשר מחושב בנפרד לכל גוש ומצורף אליו, כשהוא משודר לאחר הדחיסה. חישוב וקטור התנועה מתואר להלן:

לגבי כל גוש במסגרת הנוכחית מבוצע תהליך של חיפוש גוש תואם במסגרת הקודמת. הגוש התואם נמצא, כמובן, סמוך למקום הגוש בתמונה הנוכחית, ואם לא התבצעה כל תנועה באזור הגוש, הרי שני הגושים מצויים באותו מקום בדיוק (כל אחד בתמונתו) . חיפוש הגוש התואם מבוצע ע"י חישוב המתאם בין הגושים, או ע"י חישוב ההפרש בין הגושים והבאתו למינימום.
לאחר חישוב וקטור התנועה היא מקוזזת ע"י הזזה מתאימה של הגוש, ומחשבים את הגוש ההפרשי (כלומר, ההפרש בין הגוש בתמונה הנוכחית לזה התואם לו בתמונה הקודמת). אם ההפרש אינו עולה על סף מסוים, סימן שחל שינוי זניח באותו גוש, ולא משודר לגביו מידע (כלומר הוא "נדחס" לאפס). במקרה כזה, המערכת הפורסת תציג אותו כפי שהיה בתמונה הקודמת. אם ההפרש עולה על הסף, הגוש ההפרשי עובר דחיסה מרחבית (DCT -> Q -> VLC), ולאחר מכן - משודר. לצורך הדחיסה המרחבית הגוש מפורק לתת גושים בגודל 8 * 8. לבסוף, יש לשים לב, שבחוג המשוב התמונה המכומה נפרסת לצורך דחיסת השערוך.

ב. אופן הפעולה הפנים-מסגרתי - אופן זה מתקבל כאשר שני המרבבים נמצאים במצב 0. במצב זה דחיסת השערוך אינה פעילה (וכך גם מנגנון קיזוז התנועה). לכן מתבצעת רק דחיסה מרחבית על התמונה המלאה. האופן הפנים מסגרתי משתמש לשתי מטרות:

בתחילת השידור - כאשר קיימת המסגרת הראשונה בלבד, ולא ניתן עדיין לחשב את ההפרש.
הגדלת החסינות לרעש - שגיאות באות המשודר פוגעות בעיקר בתמונות המשוערכות בגלל הפגיעה ברצף בין לבין התמונות שקדמו להן. תמונת לא משוערכת (כלומר פנים מסגרתיות) חסינות הרבה יותר מפני בעיה זו. לכן, ככל שיש יותר תמונות כאלו ברצף, החסינות לרעש עולה (אך יחס הדחיסה יורד).

במוצא מערכת הדחיסה יש חוצץ, שמננו משודרת בכל פעם מסגרת דחוסה. לחוצץ זה יש שני תפקידים:

א. לבקר את יחס הדחיסה - כך שיישמר קצב קבוע של שידור, כלומר P * 64Kb/s. יחס הדחיסה נקבע ע"י צעד הכימוי בדחיסה המרחבית (כלומר במלבן הכימוי), וגודלו של צעד זה מבוקר ע"י החוצץ. כאשר יחס הדחיסה נמוך מדי, החוצץ מתמלא עוד לפני תום המסגרת. במצב זה מוגדל צעד הכימוי, כך שיחס הדחיסה גדל עד שהמסגרת הדחוסה ממלאה כמעט את החוצץ. כאשר יחס הדחיסה גבוה מדי, והחוצץ מתמלא חלקית בלבד במשך המסגרת, מוקטן צעד הכימוי.

ב. לאפשר תקשורת נתונים סדירה - כך שהקצב, התזמונים והתצורה יהיו בלתי תלויים בתכולת התמונה ובפעולת מערכת הדחיסה עצמה.

לבסוף במוצא החוצץ מצוי מתקן שגיאות. רעשים בערוץ השידור הגורמים לעיתים שגיאות בהעברת התמונה הדיגיטלית. בהיעדר כל מנגנון תיקון שגיאה כזו עלולה לשבש את התמונה המועברת, שמבוססת על המידע הקודם שהועבר. מנגנון תיקון השגיאות (אשר מהווה חלק בלתי נפרד כמעט מכל תקשורת דיגיטלית) מפחית את השיבוש באופן ניכר.

תהליך הפריסה

תהליך הפריסה המתואר באיור לעיל הוא פשוט יותר, ומהווה את היפוכו של תהליך הדחיסה. תחילה נקלטת המסגרת בחוצץ המבוא. לאחר מכן, אם התמונה עברה דחיסה פנים מסגרתית בלבד, הפריסה נעשית כמו ב-JPEG בעזרת תהליכים הפוכים מדחיסה: קידוד הפוך, כימוי הפוך והתמרה הפוכה. במוצא מתקבלת התמונה הפרוסה.
אם התמונה עברה דחיסה בין-מסגרתית, הפריסה צריכה להיעשות בעזרת התמונה הקודמת, שהרי רק ההפרשים ביחס לתמונה הקודמת קודדו. יחד עם זאת, יש להשתמש במידע אשר מצוי בוקטור התנועה, המצביע על מקום הגוש להתייחסות בתמונת הייחוס.
במקרה זה ההפרש ששודר הוא העובר את התהליך הפריסה של קידוד הפוך, כימוי הפוך והתמרה הפוכה, ומתוסף לתת התמונה הקרובה ביותר לתמונת הייחוס הנמצאת בזיכרון התנועה.