فرهاد قربانزاده - زبانشناس و فرهنگنویس - در گفتوگویی با ایسنا دربارۀ پیشینۀ پیکرههای زبانی اظهار کرد: پیش از اختراع رایانه، زبانشناسان و زبانپژوهان برای پژوهشهای خود «مخزن شاهد» گردآوری میکردند. به این صورت که کتابی را میخواندند و زیر برخی واژهها و عبارتهای موجود در کتاب خط میکشیدند و آن را همراه با جملهای که واژه یا عبارتِ مورد نظر در آن بهکار رفته روی برگههای جداگانهای یادداشت میکردند. سپس این برگهها را براساس آن واژهها یا عبارتها الفبایی میکردند. به مجموع این برگهها «مخزن شاهد» گفته میشود.
او سپس گفت: از میان حدود سیصد واژۀ بهکاررفته در یک صفحه فقط امکان استخراج و برگهنویسیِ ده بیست واژه وجود دارد و اگر نگوییم برگهنویسیِ همۀ واژههای یک کتاب ناممکن است، این کار بسیار دشوار و پرهزینه و وقتگیر است. روشن است که روی برگههای مخزن شاهد جملههای بعدی و قبلی نوشته نمیشود یا فقط یکی دو جملۀ قبلی و بعدی نوشته میشود و خواننده برای دیدن جملههای دیگر، ناگزیر است به متن اصلی مراجعه کند.
قربانزاده همچنین با بیان اینکه در سال ۱۹۶۳ و ۱۹۶۴ و در دانشگاه براون نخستین پیکرۀ رایانهای به نام «پیکرۀ براون» گردآوری شد، اظهار کرد: تفاوت «پیکره» با «مخزن شاهد» در این است که برای گردآوری پیکره همۀ متن حروفنگاری میشود و افراد در انتخاب واژهها سلیقۀ خود را دخالت نمیدهند و آنچه در پیکره وارد میشود زبان واقعی است. پیکرۀ براون نزدیک به یکمیلیون واژه داشت. امروزه پیکرهای با یکمیلیون واژه کوچک شمرده میشود و پیکرههایی که در قرن بیستویکم در زبان انگلیسی گردآوری شدهاند چندین میلیارد واژه دارند. در دهۀ ۱۹۷۰، زبانشناسان و زبانپژوهانِ دیگر نیز دست به گردآوری پیکرۀ رایانهای زدند و این روند تاکنون ادامه داشتهاست.
این زبانشناس و فرهنگنویس سپس گفت: با رواج رایانه، دیگر گردآوری مخزن شاهد توجیهی ندارد، ولی در ایران دیده شدهاست که، بدون توجه به ویژگیها و پیشرفتهای روز در گردآوری پیکره، مخزن شاهد و پیکرۀ رایانهای را در هم آمیختهاند و چیزی گرد آورند که من پیشتر آن را «مخزن شاهد رایانهای» یا «پیکرۀ گسسته» نامیدهام. به این صورت که زیر واژههای دلخواهِ موجود در متن را خط میکشند تا آنها را گزینش کنند و سپس حروفنگار جملهای را که واژۀ مشخصشده در آن است حروفنگاری میکند. مخزن شاهد رایانهای نیز مانند مخزن شاهد کاغذی کاستیها و کمبودها و اشکالات پرشماری دارد. برای نمونه:
۱. برای تولید مخزن شاهد رایانهای یک نفر باید واژههای دلخواه را گزینش کند و یک نفر هم متن را حروفنگاری کند. به هریک از این افراد باید هزینۀ جداگانه پرداخت.
۲. اگر در یک جمله دو یا چند واژه انتخاب شده باشد، حروفنگار یک بار آن را حروفنگاری میکند و برای واژۀ دوم یا چندم آن را کپی میکند، ولی چون اسماً بیش از یک شاهد تولید کردهاست، هزینۀ دو یا چند شاهد را دریافت میکند.
۳. برای تولید پیکره میتوان از متنهای ازپیشحروفچینیشده، مانند متنهایی که در اینترنت در دسترس است، استفاده کرد. گاه نیز میتوان فایل کتاب را از ناشر تهیه کرد. روشن است که استفاده از این متنها چقدر از وقت و هزینه میکاهد. برای تولید مخزن شاهد رایانهای چنین امکانی وجود ندارد.
۴. تولید مخزن شاهد رایانهای بسیار وقتگیر است. چون یک نفر باید واژهها را انتخاب کند و حروفنگار نیز باید آغاز و پایان هر جمله را بیابد. این مسئله در متنهای کهن که گاه هر جمله به اندازۀ یک پاراگرافِ بلند است، ممکن است لغزش حروفنگار را در پی داشته باشد.
۵. چون یافتن دوبارۀ شاهدهای گزینششده در متنِ کتاب دشوار است، در عمل هیچ ویراستاری شاهد حروفنگاریشده را با متن کتاب مقابله و ویرایش نمیکند. ازاینرو، غلطهای پرشماری به شاهدها راه مییابد و پژوهشگر هنگام نقل شاهد در اثر خود، ناگزیر است شاهد را با کتاب اصلی مطابقت دهد. این کار بسیار زمانبر است.
۶. چون کاربرِ مخزن شاهد رایانهای به جملههای قبلی و بعدیِ شاهد دسترسی ندارد، هنگام استفاده از شاهد، در موارد پرشمار ناگزیر است به کتاب اصلی مراجعه کند و اگر کتاب در دسترس نباشد، با دشواریهایی روبهرو خواهد شد.
۷. چون متن کامل کتابها وارد مخزن شاهد رایانهای نشده و گاه یک جمله یا بیت دو یا چند بار وارد شده، امکان گرفتن بسامد دقیق وجود ندارد.
فرهاد قربانزاده با یادآوری اینکه در ایران گردآوری پیکرههای تاریخی کار دشواری نیست، توضیح داد: برخی مؤسسهها و شرکتها متنها را حروفنگاری کردهاند، مانند مؤسسۀ تحقیقات کامپیوتری علوم انسانی (نور) یا شرکت مهرارقام رایانه (تولیدکنندۀ نرمافزار دُرج). برخی وبگاهها، مانند گنجور، نیز پیکرۀ برخطاند. با پرداخت هزینهای اندک بسیاری از متنها را از این نهادها و شرکتها و وبگاهها میتوان تهیه کرد و بهجای بیست سال صرف وقت برای گردآوری پیکره، آن را در چند ماه گردآوری کرد.
او درباره نرمافزارهای پردازش پیکره نیز بیان کرد: این نرمافزارها این امکان را دارند که چند نویسه (کاراکتر) با دو فاصله در دو سوی آنها را یک واژه تشخیص دهند. سپس میتوانند این واژهها را الفبایی کنند یا براساس بسامد یا از انتها (زانسو) بچینند. ازاینرو، گزینش واژه برای درج در مخزن شاهد رایانهای نیز کاری بیهوده و وقتگیر و هزینهبر است. زیرا نرمافزار با زدن یک کلید میتواند این کار را انجام دهد.
این فرهنگنویس ادامه داد: امکان دیگرِ نرمافزارهای پردازش پیکره این است که چون میتوانند واژههای موجود در پیکره را بهصورت بسامدی نیز نمایش دهند، اگر واژهای فقط یکی دو شاهد داشته باشد، یا کهن و کمکاربرد و تخصصی و گویشی است یا غلط تایپی است. درنتیجه، میتوان غلطهای موجود در پیکره را نیز یافت و آنها را اصلاح کرد.
قربانزاده در پایان گفت: کوتاه آنکه گردآوری مخزن شاهد رایانهای بهجای پیکره وقت و هزینۀ بسیار گزافی میطلبد و برای گردآوری آن عمرها و هزینههای بسیاری بیهوده تلف میشود. درحالیکه گردآوری پیکرۀ زبانی هم به هزینه و زمان بسیار کمتری نیاز دارد و هم امکانات بیشتری در اختیار کاربر قرار میدهد.
انتهای پیام