עברית | English

מאגר העברית המדוברת בישראל (מעמ"ד)

 

הקדמה

ראשיתו של מאגר העברית המדוברת בישראל (מעמ"ד) במיזם שאפתני שהציב כמטרה לעצמו כינון מאגר הקלטות גדול של העברית המדוברת בישראל, מאגר שישמש בסיס למחקר בתחומים שונים, כגון בלשנות, חינוך, חברה, תרבות, היסטוריה, וכן מחקר ויישומים טכנולוגיים מתוחכמים. מעמ"ד תוכנן מראשיתו כמאגר מידע מוקלט ומתומלל. המודל אשר על פיו תוכנן המאגר ראה לכלול מדגם מייצג של דוברי העברית בישראל אשר בו הקלטות ספונטניות על ידי 950 איש, ובסך הכול – עם תוספות אחדות – 1000 יחידות מוקלטות בנות 5000 מילים כל אחת, דהיינו מאגר בן חמישה מיליון מילה.

הגישה שננקטה על ידינו לכינון מעמ"ד היא גישה תלויית תרבות. מעמ"ד שואף לגשר בין אינספור חלופות השיח הנהוגות בקרב קהילת הדוברים של העברית הישראלית לבין ייצוגן במאגר על ידי אפיון השונוּת במונחים דימוגראפיים ונסיבתיים גם יחד. זהו ניסיון ראשון וייחודי לכונן מאגר מייצג על שני צירי משתנים, דימוגראפיים ותלויי נסיבות, בהתאם לקריטריונים סטטיסטיים ואנליטיים. בחירת המתנדבים להקלטות המאגר הראשי ראוי שתתבצע על ידי דגימה אקראית של אוכלוסיית ישראל, במטרה לשקף את המבנה החברתי של קהילת דוברי העברית בישראל. פילוח המאגר לצרכים אנליטיים טוב שייקבע על פי קריטריונים מוגדרים, אף כי כל הנתונים הסוציולינגויסטיים של מתנדבי מעמ"ד שיוקלטו יעמדו לרשות המשתמשים במאגר. הנחת העבודה של מעמ"ד מתבססת על ארבעה קריטריונים דימוגראפיים שנראים לנו החשובים ביותר ביצירת השונות הלשונית בישראל: (1‏) מקום לידה, ארץ מוצא המשפחה, עדה או דת; (2‏) גיל; (3‏) השכלה; (4) ומין.1 הנחת העבודה של מעמ"ד לניתוח נסיבות שיח מתבססת על חמישה משתנים: יחסים בינאישיים, מבנה השיח ונושא השיח כמשתנים עיקריים, ולצידם מספר המשתתפים בשיח וערוץ התקשורת (שיחה בעל-פה או שיחה טלפונית). עדיין לא נערך מחקר מקיף בחברה הישראלית לבדיקת הנתונים הדימוגראפיים והנתונים בדבר נסיבות השיח בשימוש העברית בה. לפיכך, כדי לעצב דגם ראוי למעמ"ד, המחקר וכינון המאגר צריכים להתבצע בשלבים, אשר במהלכם יש לבדוק את התאמת הנתונים הדימוגראפיים והנתונים הנסיבתיים כפי שהוצעו לעיל.

המודל הזה תואר לראשונה בדפי אינטרנט בעברית ובאנגלית ופורסם יותר מאוחר בכתב כלשונו בשפה האנגלית (Hary & Izre’el 2003). תקציר עברי של המודל התכנוני הראשוני של מעמ”ד פורסם על ידי הרי ויזרעאל תשס"ב(א). שני מאמרים מדעיים על המודל, אשר בהם שוכלל ועודן המודל במידה מסויימת, פורסמו באנגלית (Izre'el, Hary & Rahav 2001) ובעברית (יזרעאל, הרי ורהב תשס"ב(ב)).

צוות התכנון

מעמ"ד תוכנן ולוּוה מראשיתו על ידי צוות מלומדים מישראל ומחוצה לה.

צוות ליבה: שלמה יזרעאל, אוניברסיטת תל-אביב (ראש התוכנית); בנימין הרי, אוניברסיטת אמורי, אטלנטה, ג'ורג'יה, ארה"ב (חוקר ראשי); ג'ון דו בואה, אוניברסיטת סנטה ברברה, קליפורניה, ארה"ב (אנליסט המאגר); מירה אריאל, אוניברסיטת תל-אביב (חקר השיח ופרגמטיקה); גיורא רהב, אוניברסיטת תל-אביב (סוציולוגיה וסטטיסטיקה). אל הצוות הזה הצטרפה בשלב מאוחר יותר אסתר בורוכובסקי בר-אבא, אוניברסיטת תל-אביב (תחביר).

צוות יועצים: אליעזר בן רפאל, אוניברסיטת תל-אביב (סוציולינגויסטיקה – היבטים סוציולוגיים); יעקב בן טולילה, אוניברסיטת בן-גוריון בנגב (סוציולינגויסטיקה – היבטים בלשניים); אוטו יסטרו, אוניברסיטת ארלנגן-נירנברג, גרמניה (תיעתוק, פונולוגיה ודיאלקטולוגיה); שמואל בולוצקי, אוניברסיטת אמהרסט, מסצ'וסטס, ארה"ב (פונולוגיה, מורפולוגיה); ג'פרי כאן, אוניברסיטת קיימברידג', בריטניה (תחביר); אילנה שוהמי, אוניברסיטת תל-אביב (חינוך לשוני).

מעמ"ד כיום

המיזם הגדול הזה עדיין מחכה למימוש. בעזרת המקורות הפיננסיים המוגבלים שעמדו לרשותנו עלה בידינו להעמיד שתי מערכות של הקלטות, האחת בשלב ההכנה הראשוני, השנייה במסגרת מחקר חלוץ. שלב ההכנה הניב 11 הקלטות בנות 6 שעות לפחות (חלקן ארוכות הרבה יותר). על אף שהתכנון הראשוני למחקר החלוץ כלל איסוף הקלטות בנות 3 שעות כל אחת מאת 20 מתנדבים, שלב זה כלל, בסופו של דבר, הקלטות רבות יותר, ובסופו של דבר הניב הקלטות מאת 42 מתנדבים בנות 8 עד 16 שעות כל אחת. בסך הכול יש בידינו כעת הקלטות מאת 53 מתנדבים בנות 8 עד 16 שעות כל אחת, אשר מרובן אפשר לדלות חומר ראוי למחקר העברית המדוברת. מטבע הדברים, איכות ההקלטות אינה אחידה, ולעתים נוכחנו לדעת כי היה פחת גדול בחומרים הראויים לשימוש, הן משום פגמים בביצוע ההקלטות, הן משום הסביבה אשר בה הוקלטו הדברים. ההקלטות, שנעשו בעיקר בין אוגוסט 2000 לבין אוקטובר 2002, הן הקלטות של שיחות הלקוחות מחיי היומיום של מקליטיהן, הכוללות, כמובן, את דיבור המקליטים עצם ואת דיבור בני שיחם. מספר הדוברים, אם כן, גדול הרבה יותר ממספר ההקלטות.

גיוס מתנדבים להקלטות

למחקר החלוץ גויסו מתנדבים על פי קריטריונים דומים לקריטריונים האנליטיים שנבחרו כהנחת העבודה לשימוש במעמ"ד: מוצא, גיל והשכלה. גיוס המתנדבים ואיסוף ההקלטות לבדיקה הטרומית התבצעו על ידי שלושה גופים שונים. כל גוף נועד לגייס שישה עשר מתנדבים, על פי הקריטריונים שבטבלה 1.

גיל השכלה אשכנזים מזרחים ערבים אחרים
צעירים נמוכה/תיכונית
גבוהה
מבוגרים נמוכה/תיכונית
גבוהה
טבלה 1: קריטריונים דימוגראפיים לגיוס מתנדבים

הגיוון הדימוגראפי הנתון ביקש, אם כן, לגייס ארבעה יהודים ממוצא אשכנזי, ארבעה יהודים ממוצא מזרחי, ארבעה ערבים וארבעה אחרים על פי הפירוט כדלקמן: גוף א' יגייס ארבעה חיילים: שניים צעירים, חייל וחיילת בשרות חובה, ושניים מבוגרים, המשרתים בצבא קבע או בכוחות הביטחון בני למעלה מ-50 ובעלי משפחה. גוף ב' יגייס ארבעה חרדים או דתיים מאוד החיים בקהילה חרדית או דתית, עם ייצוג לאשכנזים ולספרדים, לגברים ולנשים. גוף ג' יגייס ארבעה עולים חדשים כשגילם והשכלתם תואמים את המיפרט הכללי, שני גברים ושתי נשים. משום שמטרת הבדיקה הטרומית הייתה לסקור מיגוון רחב ככל האפשר מתוך חלופות השיח בקהילת דוברי העברית בישראל, המידגם הזה נבנה מתוך מתן עדיפות לגיוון דימוגראפי שיהא רחב ככל הניתן במסגרת מצומצמת זו. משום כך הגדרנו צעירים כגילאי 27-20 שאינם בעלי משפחה ומבוגרים כגילאי 50 ומעלה שהם בעלי משפחה. ייצוג על פי מין התקבל על ידי מתן הדעת לייצוג שווה במין בתבנית, אף אם לא בהכרח ביחס ותפוצה שווים למשתנים האחרים. כאמור, בסופו של דבר הניב מחקר חלוץ זה 42 מערכות הקלטות: שניים ממכוני המחקר גייסו 16 מתנדבים כל אחד, מכון אחד גייס 10 מתנדבים.


1 על פי התכנון המקורי של מעמ"ד, המבנה האנליטי כלל רק את שלושת הקריטריונים הראשונים. קריטריון המין לא מצא את מקומו במבנה האנליטי משום שדגימה סטטיסטית ממילא הייתה מאזנת את מספר המתנדבים על פי מין. דרישות החוקרים באיפיון הדוברים היו מתממשות, אם כן, בשליפה מתוך המאגר על פי קריטריונים מוגדרים אלה.