ホーム jpn シンガポールがより包括的なAIを創造する方法

シンガポールがより包括的なAIを創造する方法

19
0


林偉泉/ゲッティ

の採用により 生成型人工知能(AI) 成長するにつれて、他の業界も悩まされてきた問題、つまり包括性とグローバルな代表性の欠如に直面しているようです。

インドネシア、タイ、フィリピンを含む11の市場を含む東南アジアの人口は合計約6億9,210万人です。住民はフィリピン語、ベトナム語、ラオス語を含む12以上の主要言語を話します。シンガポールだけでも4つの言語が話されています。 公用語: 中国語、英語、タミル語、マレー語。

現在、世界中で使用されている主要な大規模言語モデル (LLM) のほとんどは非アジアに焦点を当てており、膨大な数の人口と言語が十分に代表されていません。シンガポールなどの国は、特に東南アジアのこのギャップを埋め、この地域の多様な文脈、言語、文化をよりよく理解する LLM を導入することを目指しています。

この国は、この地域の他の国々と同様に、基盤モデルを構築する必要性を強調している。 データの偏りを軽減する 西洋諸国発祥の現在の法学修士課程において。

AIシンガポール(AISG)のAI製品担当シニアディレクター、レスリー・テオ氏によると、東南アジアには、地域の多様性を反映した強力なモデルが必要だという。AISGは、その解決策は次のような形になると考えている。 東南アジアの言語をひとつのネットワークに (SEA-LION) は、現在市場に出回っている他の LLM と比べて、より小型で、より柔軟で、より高速であると謳われているオープンソースの LLM です。

また: コネクテッド企業はAIを活用した経済に向けて準備を整えている

AISGが開発を主導し管理しているSEA-LIONは現在、 2つの基本モデル: 30 億パラメータのモデルと 70 億パラメータのモデル。

東南アジアの言語と文化に合わせて事前トレーニングおよび調整されたこれらの機械学習システムは、AISG がトークン化プロセス中にテキストを分解して作成された単語の断片と定義する 9,810 億の言語トークンでトレーニングされました。これらの断片には、6,230 億の英語トークン、1,280 億の東南アジアトークン、910 億の中国語トークンが含まれます。

人気のあるLLMの既存のトークナイザーは英語中心であることが多く、トレーニングデータに東南アジアのデータがほとんど反映されていない場合、モデルは文脈を理解できないとテオ氏は述べた。

同氏は、SEA-LION のデータの 13% が東南アジアに焦点を置いていると指摘した。対照的に、Meta の Llama 2 には 0.5% しか含まれていない。

テオ氏は、SEA-LION用の新しい70億パラメータモデルは2024年半ばにリリースされる予定であり、現在のバージョンとは異なるモデルで実行されると付け加えた。今年後半には130億および300億パラメータモデルの計画も進行中である。

彼は、より良い接続を実現できるより大きなモデル、またはゼロショットプロンプト機能と地域のニュアンスに関するより強力な文脈的理解を備えたモデルによって、LLM のパフォーマンスを向上させることが目標であると説明しました。

テオ氏は、 堅牢なベンチマーク AIモデルの有効性を評価するために現在利用可能なものはないが、シンガポールは 見ている 対処するために、AISGはアジアに焦点を当てたLLMに偏りがあるかどうかを識別するための指標を開発することを目指していると付け加えた。

新しいベンチマークが登場し、テクノロジーが進化し続けるにつれて、より優れたパフォーマンスを実現するために、SEA-LION の新しいバージョンがリリースされる予定です。

また: シンガポールは量子コンピューティングとデータセンターでAIを推進

組織にとっての関連性の向上

市場調査会社フォレスターの副社長兼主席アナリスト、チャーリー・ダイ氏は、SEA-LIONによる地域LLM開発の推進役として、シンガポールはより包括的で文化に配慮したAIエコシステムの構築に重要な役割を果たしていると述べた。

同氏は、SEA-LIONの特定の課題への対応能力をさらに強化し、その利点についての認識を高めるために、同国が他の地域諸国、研究機関、開発者コミュニティ、業界パートナーと協力するよう求めた。

フォレスター社の主席アナリスト、ビスワジート・マハパトラ氏によると、インドも独自の要件をより適切にサポートするために独自の基盤モデルの構築を検討しているという。

「インドのような多様性に富んだ国では、他国で作られたモデルでは、その多様な国民の多様なニーズを満たすことはできないだろう」とマハパトラ氏は指摘した。

同氏は、国家レベルで基礎AIモデルを構築することで、インド政府はさまざまなパラメータに基づいた福祉制度、強化された作物管理、国内の遠隔地への医療サービスなど、国民に対してより大規模なサービスを提供できるようになるだろうと付け加えた。

さらに、これらのモデルはデータ主権を確保し、公共部門の効率を改善し、国家の能力を高め、医療、防衛、航空宇宙などのさまざまな部門にわたって経済成長と能力を促進します。インドの組織はすでに概念実証に取り組んでおり、バンガロールのスタートアップはインド宇宙研究機関やヒンドゥスタン航空機と連携してAIを活用したソリューションを構築していると指摘しました。

アジアの基礎モデルは、言語や文化に関連するタスクでより優れたパフォーマンスを発揮し、これらの地域市場のコンテキストに特化している可能性があると彼は説明した。これらのモデルは中国語、日本語、韓国語、ヒンディー語など、幅広い言語を処理できることを考えると、アジアの基礎モデルを活用することは、多言語環境で活動する組織にとって有利になる可能性があると彼は付け加えた。

ダイ氏は、この地域のほとんどの組織がハイブリッドアプローチを採用し、アジア太平洋と米国の両方の基盤モデルを活用して AI プラットフォームを強化すると予想しています。

さらに、一般的な慣行として、企業はデータプライバシーに関する現地の規制に従っており、地域向けに特別にトレーニングされたタッピングモデルは、現地のプライバシー法に準拠したデータですでに微調整されている可能性があるため、これを裏付けていると指摘しました。

最近の 報告 ダイ氏が主執筆者であるアジアに重点を置いた基盤モデルについて、フォレスターは、同様の採用パターンでモデルを構築した北米の同業他社とは異なるアプローチを採用した競争力のある製品が提供されており、この分野は「急成長中」であると説明しました。

「アジア太平洋地域では、各国の顧客要件、言語、規制遵守のニーズが多様化しています」と報告書は述べています。「 Baidu のアーニー 3.0 そして アリババのトンイー・チェンウェン 多言語データで訓練されており、アジア言語のニュアンスを理解するのが得意です。」

その報告書では、 中国 現在、200を超える基礎モデルを生産し、中国をリードしています。中国政府が技術の自立とデータ主権を重視していることが、成長の原動力となっています。

しかし、インドネシア語向けのWiz.aiや、インドの地域言語と方言向けのSarvam AIのOpenHathiなど、他のモデルもこの地域で急速に登場している。Forresterによると、日本で基礎モデルをリリースしているのは、LINE、NEC、ベンチャー支援のスタートアップ企業Sakana AIなどだ。

「ほとんどの企業にとって、外部プロバイダーから基盤モデルを取得することは標準となるだろう」とダイ氏はレポートに記している。「これらのモデルは、より大きなAIフレームワークの重要な要素として機能するが、すべての基盤モデルが同じではないことを認識することが重要である。 [caliber]。

また: Google、マレーシアのデータセンターとクラウド構築に20億ドルの投資を計画

「アジア太平洋地域の企業にとって、特定のビジネスニーズに合わせたモデルの適応と地域内での現地での利用可能性は特に重要です」と彼は続けた。

ダイ氏はまた、地域の企業のデータ管理とモデルの微調整を促進するには、地元のビジネス知識に合わせた専門サービスが必要であると指摘した。同氏は、そのため、地元の基盤モデルを中心としたエコシステムは、地元市場でよりよいサポートを受けるだろうと付け加えた。

フォレスター社のシニアアナリスト、ローワン・カラン氏は次のように付け加えた。「基盤モデルの管理は複雑であり、基盤モデル自体が万能薬というわけではありません。データ管理、モデルトレーニング、微調整、サービス提供、アプリケーション開発、ガバナンス、セキュリティ、プライバシー、倫理、説明可能性、規制遵守など、包括的な機能が必要です。そして、小規模モデルは今後も存在し続けるでしょう。」

また、同氏は組織に対し、「基盤モデルの評価には総合的な視点」を持ち、世代 AI の導入には「進歩的なアプローチ」を維持するようアドバイスした。基盤モデルを評価する際、カラン氏は企業が 3 つの主要カテゴリを評価することを推奨した。適応性と展開の柔軟性、ローカルでの可用性などのビジネス、検索拡張生成 (RAG) や API サポートなどのエコシステムである。

人間が関与するAIの維持

主要な法学修士課程を修了する必要があるかどうか尋ねられたとき、 統合された アジアに焦点を当てたモデルで、特に企業がジェネレーションAIを活用することが増えているため、 作業プロセスのサポート 採用のように–テオは強調した 責任あるAIの重要性 採用とガバナンス。

「どんなアプリケーションであれ、どのように使用し、どのような結果になったとしても、AIではなく人間が責任を負う必要がある」と彼は語った。「結果に対して責任を負うのは人間であり、 明確に表現できる必要がある あなたが何をしているのか [keep AI] 安全。”

彼は、LLMがあらゆるものの一部となるにつれて、これでは不十分かもしれないと懸念を表明した。 履歴書の評価 信用スコアを計算する。

「これらのモデルが深いレベルでどのように機能するかを私たちが知らないのは不安です」と彼は言いました。「私たちはまだLLM開発の初期段階にあるので、 説明可能性 問題です。」

彼は、 フレームワーク 責任ある AI を実現するには、コンプライアンスのためだけでなく、顧客やビジネス パートナーが組織が使用する AI モデルを信頼できるようにする必要があります。

また: ジェネレーティブAIは節約するよりも多くの作業を生み出す可能性がある

シンガポール首相ローレンス・ウォン 了解しました 間に AIソウルサミット 先月、AIが暴走する可能性を防ぐためにリスクを管理する必要があると発表しました。特に、AIを組み込んだ軍事兵器システムや完全に自律的なAIモデルに関してはそうです。

「AIが暴走したり、国家間の対立が予期せぬ結果につながるシナリオが想定される」と述べ、各国にAIの責任と安全対策を評価するよう求めた。 追加した 「AIの安全性、包括性、イノベーションは連携して進歩する必要がある」

各国がAI開発への共通の関心を抱き集まる中、ウォン氏は、AIがイノベーションと国際協力を促進する可能性を妨げない規制の必要性を強調した。同氏は、シンガポール、韓国、英国、米国を含む世界中のAI安全研究所が共通の懸念に対処するために協力すべきであると指摘し、研究資源のプールを提唱した。





もっとニュース

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください