ثبت زبان های محلی هند توسط هوش مصنوعی
به گزارش کارگروه فناوری اطلاعات سایبربان،برای چند هفته متوالی، روستاییان ایالت کارناتاکا در جنوب غربی هند به عنوان بخشی از پروژه ساخت اولین چت بات مبتنی بر هوش مصنوعی این کشور ، ده ها جمله را به زبان مادری خود در یک اپلیکیشن ضبط کردند.
بیش از ۴۰ میلیون گویش بومی و۱۲۱ زبان محلی در هند وجود دارد.
اما تعداد کمی از این زبان ها تحت پوشش پردازش زبان طبیعی (NLP)قرار دارند، شاخه ای از هوش مصنوعی که کامپیوترها را قادر به درک متن و کلمات گفتاری می کند.
بنابراین صدها میلیون هندی از اطلاعات مفید و بسیاری از فرصت های اقتصادی محروم می شوند.
کالیکا بالی، محقق مایکروسافت ریسرچ هند گفت:
برای اینکه ابزارهای هوش مصنوعی به همه خدمت بدهند، باید به افرادی که انگلیسی ، فرانسوی یا اسپانیایی صحبت نمی کنند نیز کمک کرد.اما اگر مجبور شویم به اندازه یک مدل زبانی بزرگ مانند GPT داده جمع آوری کنیم، ۱۰ سال میبایست منتظر شویم. بنابراین کاری که ما می توانیم انجام دهیم، ایجاد لایه هایی روی مدل های هوش مصنوعی مولد مانند چت جی پی تی (ChatGPT) یا ال لاما (Llama) است.
دولت هند که قصد دارد خدمات بیشتری را به صورت دیجیتالی ارائه دهد، همچنین در حال ساخت مجموعه داده های زبانی از طریق بی هاشینی(Bhashini) است، یک سیستم ترجمه زبان مبتنی بر هوش مصنوعی که مجموعه داده های زبانی را به زبان های محلی برای ایجاد ابزارهای هوش مصنوعی ایجاد می کند. ده ها هزار هندی به پروژه بی هاشینی کمک کرده اند.
پوشپاک باتاچاریا، رئیس آزمایشگاه فناوری زبان هند در بمبئی گفت:
دولت هند به شدت در حال تلاش برای ایجاد مجموعه داده ها برای آموزش مدل های زبانی بزرگ به زبان های هندی است و این مدل ها در حال حاضر در ابزارهای ترجمه برای آموزش، گردشگری و در دادگاه ها مورد استفاده قرار می گیرند.
از بیش از ۷۰۰۰ زبان زنده دنیا، کمتر از ۱۰۰ زبان در NLP های اصلی ثبت شده اند که انگلیسی پیشرفته ترین آنها است.