بهشت آیین - یافتن یا نیافتن، مسأله این است. [بررسی موتورهای جستجو در پایگاه های اینترنتی نسخه‌های خطی فارسی -عربی] (بخش سوم)

یافتن یا نیافتن، مسأله این است. [بررسی موتورهای جستجو در پایگاه های اینترنتی نسخه‌های خطی فارسی -عربی] (بخش سوم)

معایب فنی- ساختاری
اولین مشکلی که کاربر در مواجهه با موتورهای جستجوی پایگاه‌های نسخ خطی با آن روبه‌رو می‌شود، این است که او باید داده‌های موردنظر خود را با دقت و به درستی وارد کند. در حقیقت کاربر حق هیچ‌گونه اشتباهی ندارد و خطای او در ورود اطلاعات، لاجرم به خطا در بازیابی منجر می‌شود. به عنوان نمونه اگر کاربر املای دقیق عبارت مورد نظر خود را نداند و یا تصادفاً در نوشتن ترتیب حروف یک عبارت اشتباه کند، در بازیابی اطلاعات موفق نخواهد بود.
راه‌حلی که موتورهای جستجوی عمومی برای رفع این مشکل در نظر گرفته‌اند، پیشنهاد صحیح‌ترین عبارت نزدیک به عبارت ورودی توسط کاربر است. در این موتورها، بانک اطلاعاتی حاوی کلیدواژه‌های پرکاربرد وجود دارد و اطلاعات ورودی کاربر در گام اول، با عناصر موجود در این بانک مقایسه و در صورت فقدان و یا اندک بودن نتایج جستجو، نزدیک‌ترین عبارت شبیه به عبارت ورودی کاربر برای جستجوی مجدد به او پیشنهاد می‌شود. مثلاً اگر کاربری به دنبال یافتن نسخه‌های موجود از شاهنامۀ فردوسی در یک پایگاه باشد و سهواً عبارت «شاهنامه» را به صورت «شانهامه» وارد کند، در صورت وجود بانک کلیدواژه، موتور جستجو می‌تواند در حین جستجو برای «شانهامه»، جستجو با عبارت «شاهنامه» را نیز به او پیشنهاد دهد.
لحاظ نکردن این نکته در الگوریتم جستجو گاهی مشکلاتی جدی در روند بازیابی به‌ وجود می‌آورد و شانس کاربر را برای بازیابی مادۀ مورد نظر خود به شکلی چشمگیر کاهش می‌دهد. یکی از ایرادات معمول ناشی از این نقیصه، وجود شیوه‌های متفاوت املای یک کلمۀ واحد است. به عنوان نمونه کلیدواژۀ «شاهنامه» در اغلب بانک‌های اطلاعاتی انگلیسی زبان به صورت Shahnameh و در پایگاه‌های آلمانی زبان بیشتر به صورت Schahname آوانگاری شده است. روشن است که در نبود سرویس پیشنهاد‌دهندۀ کلیدواژه و تصحیح جستجو، مشکلات عدیده‌ای برای کاربر هنگام استفادۀ توأمان از پایگاه‌های انگلیسی و آلمانی به‌ وجود خواهد آمد.
با توجه به آنچه گفته شد، آزمونی برای سنجش میزان موفقیت کاربر در بازیابی نسخۀ خطی با کلیدواژۀ حاوی غلط املایی طراحی شد که در آن با توجه به فراوانی قابل توجه واژۀ «شرح» در عناوین نسخه‌های خطی اسلامی، این کلیدواژه یک بار به صورت درهم‌ریختۀ «رشح» و یک بار به صورت نادرست «شره» در تمام پایگاه‌های نمونه، جستجو و داده‌های آماری به‌دست‌آمده از آن بررسی شد.

نمودار یک، احتمال موفقیت کاربر با ورود کلیدواژۀ حاوی غلط املایی

نتایج حاصل از این آزمون (نمودار یک) نشان می‌دهد که فرآیند بازیابی، در صورت ورود کلیدواژۀ درهم‌ریخته در موتورهای جستجوی پایگاه‌های بررسی‌شده، فقط در 13 درصد موارد، موفق خواهد بود و اگر کلیدواژۀ وارد‌شده حاوی حروف نادرست باشد، تنها در 9 درصد موارد، بازیابی موفق خواهد بود. در حقیقت در هر دو مورد، احتمال موفقیت در بازیابی نسخۀ خطی مورد نظر کاربر بسیار ناچیز خواهد بود.

معایب ناشی از تطابق نداشتن الگوریتم جستجو با فهرست‌های نسخ خطی اسلامی
موتورهای جستجوی پایگاه‌های اینترنتی نسخ خطی یا از فهرست مجموعه به‌عنوان بانک اطلاعاتی استفاده می‌کنند و یا با بانکی سروکار دارند که از فهرست مجموعه اقتباس شده است. در حقیقت هرچه فهرست شناسه‌ها متنوع‌تر و حاوی اطلاعات بیشتری باشد، کلیدواژه‌های بیشتری در بانک ذخیره و بازیابی به‌کمک موتور جستجو ساده‌تر و آسان‌تر خواهد شد.
با وجود این، در اختیار داشتن فهرستی توصیفی تنها شرط لازم برای بازیابی ساده‌تر نخواهد بود و باید الگوریتم به‌کاررفته در برنامۀ موتور جستجو با برخی از ویژگی‌های بانک اطلاعاتی اقتباس‌شده از روی فهرست توصیفی، مانند زبان، رسم‌الخط و اعداد تخمینی از قبیل تاریخ کتابت، مطابقت داشته باشد. در غیر این صورت، بسیاری از اطلاعات هیچ‌گاه در نتایج جستجو آشکار نخواهند شد.
یکی از مهمترین معایب موتورهای جستجوی فعلی پایگاه‌های نسخ خطی اسلامی، عدم توجه به نکات رسم‌الخطی عربی- فارسی در تنظیم الگوریتم آنهاست. این الگوریتم‌ها عموماً برای رسم‌الخط لاتین و خانوادۀ زبانی آن طراحی شده‌اند و به‌کارگیری آنها برای پایگاه‌های نسخ خطی اسلامی که بخش قابل توجهی از اطلاعات آن با رسم‌الخط عربی- فارسی نوشته می‌شود، مستلزم بازنگری در این الگوریتم‌هاست. تعداد حروف این رسم‌الخط به‌مراتب بیش از حروف لاتین است و به‌سبب متصل‌نویسی، بسیاری از این حروف بر حسب قرار گرفتن در ابتدا، میانه و انتهای واژه، به اشکالی متفاوت ظاهر می‌شوند. افزون بر این، نشانه‌های غیر حرفی از قبیل همزه، مد و تنوین نیز در این رسم‌الخط وجود دارد که نمایندۀ یک آوا و یا یک زنجیرۀ آوایی هستند و عمدتاً در مکان‌هایی خارج از رشتۀ کاراکتر اصلی کلمه نوشته می‌شوند. 1

Abolfazl AleAhmad & Others (2008), Experiments with English-Persian Text Retrieval, Proceeding of the 2nd ACM workshop on Improving Non English Web Searching, p. 77.

این تفاوت‌ها موجب می‌شود تا موتور جستجویی که بر پایۀ رسم‌الخط لاتین ایجاد شده است، قادر به تشخیص و بازیابی برخی از کلیدواژه‌های عربی- فارسی نباشد. به همین جهت آزمونی برای سنجش میزان تطبیق موتورهای جستجوی پایگاهای اینترنتی مورد بررسی، آزمونی طراحی و سه کلیدواژه «القرآن»، «قرآن» و «قران» در تمامی پایگاه‌ها جستجو شد و نتایج حاصل از این آزمون به‌صورت آماری مورد تحلیل و بررسی قرار گرفت (نمودار دو).

نمودار دو - احتمال موفقیت کاربر با ورود کلیدواژۀ حاوی ویژگی‌های رسم‌الخط عربی- فارسی

نتایج حاصل از این آزمون نشان می‌دهد که در 78 درصد از پایگاه‌های اینترنتی نمونۀ بررسی شده، الگوریتم جستجو با رسم‌الخط عربی- فارسی تطبیق داده نشده است و این در حالی است که محتوای چند شناسۀ اصلی فهرست‌های نسخ خطی از قبیل عنوان اثر، نام مؤلف، نام کاتب و محل کتابت واژه هایی عربی- فارسی خواهند بود که بسیاری از آنها حاوی نکات رسم‌الخطی پیچیده‌ای هستند.
مشکلات ناشی از ویژگی‌های رسم‌الخطی زمانی دو چندان می‌شود که عناوین و اسامی عربی- فارسی به رسم‌الخط زبان دیگری نویسه‌گردانی شده باشند. به عبارت دیگر، وجود روش‌ها و استانداردهای متفاوت نویسه‌گردانی موجب می‌شود که تفاوت‌های نگارشی موجود در نام‌ها و عناوین عربی- فارسی چندین برابر شود و شانس موفقیت کاربر در بازیابی به‌شکلی چشمگیر کاهش یابد. مثلاً در نمونۀ بررسی شده، از میان 23 پایگاه موجود، تمامی عناوین و اسامی عربی- فارسی موجود در 9 پایگاه با رسم‌الخط لاتین نویسه‌گردانی شده‌اند و کاربر چاره‌ای ندارد جز آنکه کلیدواژۀ مورد نظر خود را با این رسم‌الخط بازنویسی و در بانک جستجو کند. این مسئله می‌تواند کاربر را از جستجو به‌وسیلۀ کلیدواژه منصرف کند و به استفاده از سایر الگوهای بازیابی ازجمله استفاده از ترتیب الفبایی و درختوارۀ موضوعی سوق دهد که مطمئناً فرایندی وقت‌گیر و فاقد دقت لازم خواهد بود.

نتیجه‌گیری
با توجه به آنچه گفته شد، عدم مطابقت الگوریتم‌های جستجو با ملزومات اولیۀ بازیابی نسخ خطی اسلامی و بی‌توجهی به ویژگی‌های حوزۀ جغرافیایی و فرهنگی این دسته از مواد آرشیوی را می‌توان یکی از اصلی‌ترین ایرادات وارد بر خدمات جستجو در پایگاه‌های نسخ خطی دانست. به‌طوری‌که نتایج حاصل از آزمون‌های انجام‌شده نشان می‌دهد شانس موفقیت کاربر در بازیابی نسخه‌های خطی موردنظرش بسیار ناچیز و در غالب موارد کمتر از 0.2 است.
به‌عبارت بهتر، موتورهای جستجوی موجود در پایگاه‌های نسخ خطی اسلامی غالباً بر مبنای جستجو در متون نوشته شده با رسم‌الخط لاتین تنظیم شده‌اند و متصل‌نویسی و برخی تفاوت‌های نگارشی موجب می‌شود تا توانایی لازم را برای جستجوی موثر کلیدواژه‌های عربی- فارسی نداشته باشند. در نتیجه باید الگوریتم‌های جستجوی موجود را با کلیدواژه‌های موجود تطبیق داد و یا برای این پایگاه‌ها، الگوریتم‌هایی جدید طراحی کرد تا شانس کاربر را در بازیابی نسخه‌های خطی اسلامی افزایش دهد. این مهم مستلزم اشتراک مساعی کتابداران، فهرستنگاران مجموعه‌های نسخ خطی اسلامی و تکنیسین‌های فناوری اطلاعات خواهد بود.

Abolfazl AleAhmad & Others (2008), Experiments with English-Persian Text Retrieval, Proceeding of the 2nd ACM workshop on Improving Non English Web Searching, p. 77.

دوشنبه ۲۱ شهريور ۱۴۰۱ ساعت ۱۱:۵۹