معایب فنی- ساختاری
اولین مشکلی که کاربر در مواجهه با موتورهای جستجوی پایگاههای نسخ خطی با آن روبهرو میشود، این است که او باید دادههای موردنظر خود را با دقت و به درستی وارد کند. در حقیقت کاربر حق هیچگونه اشتباهی ندارد و خطای او در ورود اطلاعات، لاجرم به خطا در بازیابی منجر میشود. به عنوان نمونه اگر کاربر املای دقیق عبارت مورد نظر خود را نداند و یا تصادفاً در نوشتن ترتیب حروف یک عبارت اشتباه کند، در بازیابی اطلاعات موفق نخواهد بود.
راهحلی که موتورهای جستجوی عمومی برای رفع این مشکل در نظر گرفتهاند، پیشنهاد صحیحترین عبارت نزدیک به عبارت ورودی توسط کاربر است. در این موتورها، بانک اطلاعاتی حاوی کلیدواژههای پرکاربرد وجود دارد و اطلاعات ورودی کاربر در گام اول، با عناصر موجود در این بانک مقایسه و در صورت فقدان و یا اندک بودن نتایج جستجو، نزدیکترین عبارت شبیه به عبارت ورودی کاربر برای جستجوی مجدد به او پیشنهاد میشود. مثلاً اگر کاربری به دنبال یافتن نسخههای موجود از شاهنامۀ فردوسی در یک پایگاه باشد و سهواً عبارت «شاهنامه» را به صورت «شانهامه» وارد کند، در صورت وجود بانک کلیدواژه، موتور جستجو میتواند در حین جستجو برای «شانهامه»، جستجو با عبارت «شاهنامه» را نیز به او پیشنهاد دهد.
لحاظ نکردن این نکته در الگوریتم جستجو گاهی مشکلاتی جدی در روند بازیابی به وجود میآورد و شانس کاربر را برای بازیابی مادۀ مورد نظر خود به شکلی چشمگیر کاهش میدهد. یکی از ایرادات معمول ناشی از این نقیصه، وجود شیوههای متفاوت املای یک کلمۀ واحد است. به عنوان نمونه کلیدواژۀ «شاهنامه» در اغلب بانکهای اطلاعاتی انگلیسی زبان به صورت Shahnameh و در پایگاههای آلمانی زبان بیشتر به صورت Schahname آوانگاری شده است. روشن است که در نبود سرویس پیشنهاددهندۀ کلیدواژه و تصحیح جستجو، مشکلات عدیدهای برای کاربر هنگام استفادۀ توأمان از پایگاههای انگلیسی و آلمانی به وجود خواهد آمد.
با توجه به آنچه گفته شد، آزمونی برای سنجش میزان موفقیت کاربر در بازیابی نسخۀ خطی با کلیدواژۀ حاوی غلط املایی طراحی شد که در آن با توجه به فراوانی قابل توجه واژۀ «شرح» در عناوین نسخههای خطی اسلامی، این کلیدواژه یک بار به صورت درهمریختۀ «رشح» و یک بار به صورت نادرست «شره» در تمام پایگاههای نمونه، جستجو و دادههای آماری بهدستآمده از آن بررسی شد.
نتایج حاصل از این آزمون (نمودار یک) نشان میدهد که فرآیند بازیابی، در صورت ورود کلیدواژۀ درهمریخته در موتورهای جستجوی پایگاههای بررسیشده، فقط در 13 درصد موارد، موفق خواهد بود و اگر کلیدواژۀ واردشده حاوی حروف نادرست باشد، تنها در 9 درصد موارد، بازیابی موفق خواهد بود. در حقیقت در هر دو مورد، احتمال موفقیت در بازیابی نسخۀ خطی مورد نظر کاربر بسیار ناچیز خواهد بود.
معایب ناشی از تطابق نداشتن الگوریتم جستجو با فهرستهای نسخ خطی اسلامی
موتورهای جستجوی پایگاههای اینترنتی نسخ خطی یا از فهرست مجموعه بهعنوان بانک اطلاعاتی استفاده میکنند و یا با بانکی سروکار دارند که از فهرست مجموعه اقتباس شده است. در حقیقت هرچه فهرست شناسهها متنوعتر و حاوی اطلاعات بیشتری باشد، کلیدواژههای بیشتری در بانک ذخیره و بازیابی بهکمک موتور جستجو سادهتر و آسانتر خواهد شد.
با وجود این، در اختیار داشتن فهرستی توصیفی تنها شرط لازم برای بازیابی سادهتر نخواهد بود و باید الگوریتم بهکاررفته در برنامۀ موتور جستجو با برخی از ویژگیهای بانک اطلاعاتی اقتباسشده از روی فهرست توصیفی، مانند زبان، رسمالخط و اعداد تخمینی از قبیل تاریخ کتابت، مطابقت داشته باشد. در غیر این صورت، بسیاری از اطلاعات هیچگاه در نتایج جستجو آشکار نخواهند شد.
یکی از مهمترین معایب موتورهای جستجوی فعلی پایگاههای نسخ خطی اسلامی، عدم توجه به نکات رسمالخطی عربی- فارسی در تنظیم الگوریتم آنهاست. این الگوریتمها عموماً برای رسمالخط لاتین و خانوادۀ زبانی آن طراحی شدهاند و بهکارگیری آنها برای پایگاههای نسخ خطی اسلامی که بخش قابل توجهی از اطلاعات آن با رسمالخط عربی- فارسی نوشته میشود، مستلزم بازنگری در این الگوریتمهاست. تعداد حروف این رسمالخط بهمراتب بیش از حروف لاتین است و بهسبب متصلنویسی، بسیاری از این حروف بر حسب قرار گرفتن در ابتدا، میانه و انتهای واژه، به اشکالی متفاوت ظاهر میشوند. افزون بر این، نشانههای غیر حرفی از قبیل همزه، مد و تنوین نیز در این رسمالخط وجود دارد که نمایندۀ یک آوا و یا یک زنجیرۀ آوایی هستند و عمدتاً در مکانهایی خارج از رشتۀ کاراکتر اصلی کلمه نوشته میشوند. 1
این تفاوتها موجب میشود تا موتور جستجویی که بر پایۀ رسمالخط لاتین ایجاد شده است، قادر به تشخیص و بازیابی برخی از کلیدواژههای عربی- فارسی نباشد. به همین جهت آزمونی برای سنجش میزان تطبیق موتورهای جستجوی پایگاهای اینترنتی مورد بررسی، آزمونی طراحی و سه کلیدواژه «القرآن»، «قرآن» و «قران» در تمامی پایگاهها جستجو شد و نتایج حاصل از این آزمون بهصورت آماری مورد تحلیل و بررسی قرار گرفت (نمودار دو).
نتایج حاصل از این آزمون نشان میدهد که در 78 درصد از پایگاههای اینترنتی نمونۀ بررسی شده، الگوریتم جستجو با رسمالخط عربی- فارسی تطبیق داده نشده است و این در حالی است که محتوای چند شناسۀ اصلی فهرستهای نسخ خطی از قبیل عنوان اثر، نام مؤلف، نام کاتب و محل کتابت واژه هایی عربی- فارسی خواهند بود که بسیاری از آنها حاوی نکات رسمالخطی پیچیدهای هستند.
مشکلات ناشی از ویژگیهای رسمالخطی زمانی دو چندان میشود که عناوین و اسامی عربی- فارسی به رسمالخط زبان دیگری نویسهگردانی شده باشند. به عبارت دیگر، وجود روشها و استانداردهای متفاوت نویسهگردانی موجب میشود که تفاوتهای نگارشی موجود در نامها و عناوین عربی- فارسی چندین برابر شود و شانس موفقیت کاربر در بازیابی بهشکلی چشمگیر کاهش یابد. مثلاً در نمونۀ بررسی شده، از میان 23 پایگاه موجود، تمامی عناوین و اسامی عربی- فارسی موجود در 9 پایگاه با رسمالخط لاتین نویسهگردانی شدهاند و کاربر چارهای ندارد جز آنکه کلیدواژۀ مورد نظر خود را با این رسمالخط بازنویسی و در بانک جستجو کند. این مسئله میتواند کاربر را از جستجو بهوسیلۀ کلیدواژه منصرف کند و به استفاده از سایر الگوهای بازیابی ازجمله استفاده از ترتیب الفبایی و درختوارۀ موضوعی سوق دهد که مطمئناً فرایندی وقتگیر و فاقد دقت لازم خواهد بود.
نتیجهگیری
با توجه به آنچه گفته شد، عدم مطابقت الگوریتمهای جستجو با ملزومات اولیۀ بازیابی نسخ خطی اسلامی و بیتوجهی به ویژگیهای حوزۀ جغرافیایی و فرهنگی این دسته از مواد آرشیوی را میتوان یکی از اصلیترین ایرادات وارد بر خدمات جستجو در پایگاههای نسخ خطی دانست. بهطوریکه نتایج حاصل از آزمونهای انجامشده نشان میدهد شانس موفقیت کاربر در بازیابی نسخههای خطی موردنظرش بسیار ناچیز و در غالب موارد کمتر از 0.2 است.
بهعبارت بهتر، موتورهای جستجوی موجود در پایگاههای نسخ خطی اسلامی غالباً بر مبنای جستجو در متون نوشته شده با رسمالخط لاتین تنظیم شدهاند و متصلنویسی و برخی تفاوتهای نگارشی موجب میشود تا توانایی لازم را برای جستجوی موثر کلیدواژههای عربی- فارسی نداشته باشند. در نتیجه باید الگوریتمهای جستجوی موجود را با کلیدواژههای موجود تطبیق داد و یا برای این پایگاهها، الگوریتمهایی جدید طراحی کرد تا شانس کاربر را در بازیابی نسخههای خطی اسلامی افزایش دهد. این مهم مستلزم اشتراک مساعی کتابداران، فهرستنگاران مجموعههای نسخ خطی اسلامی و تکنیسینهای فناوری اطلاعات خواهد بود.
اولین مشکلی که کاربر در مواجهه با موتورهای جستجوی پایگاههای نسخ خطی با آن روبهرو میشود، این است که او باید دادههای موردنظر خود را با دقت و به درستی وارد کند. در حقیقت کاربر حق هیچگونه اشتباهی ندارد و خطای او در ورود اطلاعات، لاجرم به خطا در بازیابی منجر میشود. به عنوان نمونه اگر کاربر املای دقیق عبارت مورد نظر خود را نداند و یا تصادفاً در نوشتن ترتیب حروف یک عبارت اشتباه کند، در بازیابی اطلاعات موفق نخواهد بود.
راهحلی که موتورهای جستجوی عمومی برای رفع این مشکل در نظر گرفتهاند، پیشنهاد صحیحترین عبارت نزدیک به عبارت ورودی توسط کاربر است. در این موتورها، بانک اطلاعاتی حاوی کلیدواژههای پرکاربرد وجود دارد و اطلاعات ورودی کاربر در گام اول، با عناصر موجود در این بانک مقایسه و در صورت فقدان و یا اندک بودن نتایج جستجو، نزدیکترین عبارت شبیه به عبارت ورودی کاربر برای جستجوی مجدد به او پیشنهاد میشود. مثلاً اگر کاربری به دنبال یافتن نسخههای موجود از شاهنامۀ فردوسی در یک پایگاه باشد و سهواً عبارت «شاهنامه» را به صورت «شانهامه» وارد کند، در صورت وجود بانک کلیدواژه، موتور جستجو میتواند در حین جستجو برای «شانهامه»، جستجو با عبارت «شاهنامه» را نیز به او پیشنهاد دهد.
لحاظ نکردن این نکته در الگوریتم جستجو گاهی مشکلاتی جدی در روند بازیابی به وجود میآورد و شانس کاربر را برای بازیابی مادۀ مورد نظر خود به شکلی چشمگیر کاهش میدهد. یکی از ایرادات معمول ناشی از این نقیصه، وجود شیوههای متفاوت املای یک کلمۀ واحد است. به عنوان نمونه کلیدواژۀ «شاهنامه» در اغلب بانکهای اطلاعاتی انگلیسی زبان به صورت Shahnameh و در پایگاههای آلمانی زبان بیشتر به صورت Schahname آوانگاری شده است. روشن است که در نبود سرویس پیشنهاددهندۀ کلیدواژه و تصحیح جستجو، مشکلات عدیدهای برای کاربر هنگام استفادۀ توأمان از پایگاههای انگلیسی و آلمانی به وجود خواهد آمد.
با توجه به آنچه گفته شد، آزمونی برای سنجش میزان موفقیت کاربر در بازیابی نسخۀ خطی با کلیدواژۀ حاوی غلط املایی طراحی شد که در آن با توجه به فراوانی قابل توجه واژۀ «شرح» در عناوین نسخههای خطی اسلامی، این کلیدواژه یک بار به صورت درهمریختۀ «رشح» و یک بار به صورت نادرست «شره» در تمام پایگاههای نمونه، جستجو و دادههای آماری بهدستآمده از آن بررسی شد.
نتایج حاصل از این آزمون (نمودار یک) نشان میدهد که فرآیند بازیابی، در صورت ورود کلیدواژۀ درهمریخته در موتورهای جستجوی پایگاههای بررسیشده، فقط در 13 درصد موارد، موفق خواهد بود و اگر کلیدواژۀ واردشده حاوی حروف نادرست باشد، تنها در 9 درصد موارد، بازیابی موفق خواهد بود. در حقیقت در هر دو مورد، احتمال موفقیت در بازیابی نسخۀ خطی مورد نظر کاربر بسیار ناچیز خواهد بود.
معایب ناشی از تطابق نداشتن الگوریتم جستجو با فهرستهای نسخ خطی اسلامی
موتورهای جستجوی پایگاههای اینترنتی نسخ خطی یا از فهرست مجموعه بهعنوان بانک اطلاعاتی استفاده میکنند و یا با بانکی سروکار دارند که از فهرست مجموعه اقتباس شده است. در حقیقت هرچه فهرست شناسهها متنوعتر و حاوی اطلاعات بیشتری باشد، کلیدواژههای بیشتری در بانک ذخیره و بازیابی بهکمک موتور جستجو سادهتر و آسانتر خواهد شد.
با وجود این، در اختیار داشتن فهرستی توصیفی تنها شرط لازم برای بازیابی سادهتر نخواهد بود و باید الگوریتم بهکاررفته در برنامۀ موتور جستجو با برخی از ویژگیهای بانک اطلاعاتی اقتباسشده از روی فهرست توصیفی، مانند زبان، رسمالخط و اعداد تخمینی از قبیل تاریخ کتابت، مطابقت داشته باشد. در غیر این صورت، بسیاری از اطلاعات هیچگاه در نتایج جستجو آشکار نخواهند شد.
یکی از مهمترین معایب موتورهای جستجوی فعلی پایگاههای نسخ خطی اسلامی، عدم توجه به نکات رسمالخطی عربی- فارسی در تنظیم الگوریتم آنهاست. این الگوریتمها عموماً برای رسمالخط لاتین و خانوادۀ زبانی آن طراحی شدهاند و بهکارگیری آنها برای پایگاههای نسخ خطی اسلامی که بخش قابل توجهی از اطلاعات آن با رسمالخط عربی- فارسی نوشته میشود، مستلزم بازنگری در این الگوریتمهاست. تعداد حروف این رسمالخط بهمراتب بیش از حروف لاتین است و بهسبب متصلنویسی، بسیاری از این حروف بر حسب قرار گرفتن در ابتدا، میانه و انتهای واژه، به اشکالی متفاوت ظاهر میشوند. افزون بر این، نشانههای غیر حرفی از قبیل همزه، مد و تنوین نیز در این رسمالخط وجود دارد که نمایندۀ یک آوا و یا یک زنجیرۀ آوایی هستند و عمدتاً در مکانهایی خارج از رشتۀ کاراکتر اصلی کلمه نوشته میشوند. 1
Abolfazl AleAhmad & Others (2008), Experiments with English-Persian Text Retrieval, Proceeding of the 2nd ACM workshop on Improving Non English Web Searching, p. 77.
این تفاوتها موجب میشود تا موتور جستجویی که بر پایۀ رسمالخط لاتین ایجاد شده است، قادر به تشخیص و بازیابی برخی از کلیدواژههای عربی- فارسی نباشد. به همین جهت آزمونی برای سنجش میزان تطبیق موتورهای جستجوی پایگاهای اینترنتی مورد بررسی، آزمونی طراحی و سه کلیدواژه «القرآن»، «قرآن» و «قران» در تمامی پایگاهها جستجو شد و نتایج حاصل از این آزمون بهصورت آماری مورد تحلیل و بررسی قرار گرفت (نمودار دو).
نتایج حاصل از این آزمون نشان میدهد که در 78 درصد از پایگاههای اینترنتی نمونۀ بررسی شده، الگوریتم جستجو با رسمالخط عربی- فارسی تطبیق داده نشده است و این در حالی است که محتوای چند شناسۀ اصلی فهرستهای نسخ خطی از قبیل عنوان اثر، نام مؤلف، نام کاتب و محل کتابت واژه هایی عربی- فارسی خواهند بود که بسیاری از آنها حاوی نکات رسمالخطی پیچیدهای هستند.
مشکلات ناشی از ویژگیهای رسمالخطی زمانی دو چندان میشود که عناوین و اسامی عربی- فارسی به رسمالخط زبان دیگری نویسهگردانی شده باشند. به عبارت دیگر، وجود روشها و استانداردهای متفاوت نویسهگردانی موجب میشود که تفاوتهای نگارشی موجود در نامها و عناوین عربی- فارسی چندین برابر شود و شانس موفقیت کاربر در بازیابی بهشکلی چشمگیر کاهش یابد. مثلاً در نمونۀ بررسی شده، از میان 23 پایگاه موجود، تمامی عناوین و اسامی عربی- فارسی موجود در 9 پایگاه با رسمالخط لاتین نویسهگردانی شدهاند و کاربر چارهای ندارد جز آنکه کلیدواژۀ مورد نظر خود را با این رسمالخط بازنویسی و در بانک جستجو کند. این مسئله میتواند کاربر را از جستجو بهوسیلۀ کلیدواژه منصرف کند و به استفاده از سایر الگوهای بازیابی ازجمله استفاده از ترتیب الفبایی و درختوارۀ موضوعی سوق دهد که مطمئناً فرایندی وقتگیر و فاقد دقت لازم خواهد بود.
نتیجهگیری
با توجه به آنچه گفته شد، عدم مطابقت الگوریتمهای جستجو با ملزومات اولیۀ بازیابی نسخ خطی اسلامی و بیتوجهی به ویژگیهای حوزۀ جغرافیایی و فرهنگی این دسته از مواد آرشیوی را میتوان یکی از اصلیترین ایرادات وارد بر خدمات جستجو در پایگاههای نسخ خطی دانست. بهطوریکه نتایج حاصل از آزمونهای انجامشده نشان میدهد شانس موفقیت کاربر در بازیابی نسخههای خطی موردنظرش بسیار ناچیز و در غالب موارد کمتر از 0.2 است.
بهعبارت بهتر، موتورهای جستجوی موجود در پایگاههای نسخ خطی اسلامی غالباً بر مبنای جستجو در متون نوشته شده با رسمالخط لاتین تنظیم شدهاند و متصلنویسی و برخی تفاوتهای نگارشی موجب میشود تا توانایی لازم را برای جستجوی موثر کلیدواژههای عربی- فارسی نداشته باشند. در نتیجه باید الگوریتمهای جستجوی موجود را با کلیدواژههای موجود تطبیق داد و یا برای این پایگاهها، الگوریتمهایی جدید طراحی کرد تا شانس کاربر را در بازیابی نسخههای خطی اسلامی افزایش دهد. این مهم مستلزم اشتراک مساعی کتابداران، فهرستنگاران مجموعههای نسخ خطی اسلامی و تکنیسینهای فناوری اطلاعات خواهد بود.
- Abolfazl AleAhmad & Others (2008), Experiments with English-Persian Text Retrieval, Proceeding of the 2nd ACM workshop on Improving Non English Web Searching, p. 77.
دوشنبه ۲۱ شهريور ۱۴۰۱ ساعت ۱۱:۵۹
نمایش ایمیل به مخاطبین
نمایش نظر در سایت
۲) از انتشار نظراتی که فاقد محتوا بوده و صرفا انعکاس واکنشهای احساسی باشد جلوگیری خواهد شد .
۳) لطفا جهت بوجود نیامدن مسائل حقوقی از نوشتن نام مسئولین و شخصیت ها تحت هر شرایطی خودداری نمائید .
۴) لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگلیش) خودداری نمایید .