Od EPFL nowy model multimodalny dla bardziej elastycznej sztucznej inteligencji

Może uczyć się na podstawie tekstu, obrazów, wideo i dźwięku, a dzięki modułowości generuje dowolną liczbę lub kombinację prognoz

Uczenie maszynowe: nowy model multimodalny dla bardziej elastycznej sztucznej inteligencji od EPFL
Od EPFL nowy model multimodalny dla bardziej elastycznej sztucznej inteligencji (Zdjęcie: Brian Penny/Pixabay)

Niezależnie od tego, czy mówimy o OpenAI, czy ChatGPT, zdecydowana większość chatbotów generatywna sztuczna inteligencja opierają się na tzw Duży model językowy (LLM), modele głęboka nauka na dużą skalę przeszkoleni w zakresie udzielania odpowiedzi na zadawane im pytania poprzez uczenie się informacji z dużej ilości tekstu.

Ostatnia granicageneratywna sztuczna inteligencja są modele multimodalne, które łączą zrozumienie języka oraz obrazy, wideo i dźwięk, aby zapewnić jeszcze bardziej zaawansowane doświadczenia i usługi.

Ich utworzenie stwarza jednak kilka wyzwań, szczególnie jeśli zamierzeniem jest budowanie modeli multimodalnych na małą skalę: częstych obecność brakujących danych z powodu niedostępności informacji, prawie zawsze z powodu częściowej dostępności zasobów.

Krótko mówiąc, istnieje ryzyko, że model będzie uczył się na podstawie braków, a obliczenia i przewidywania zostaną zniekształcone. I tu EPFL rozpoczął swój nowy projekt.

Z Politechniki w Lozannie i Zurychu koalicja na rzecz zielonej energii
W 3D technologiczna rękawica, która sprawi, że wirtualna rzeczywistość stanie się namacalna

Nauczanie maszynowe
Kampus Politechniki Federalnej w Lozannie (Fot. Facebook/EFPL)

MultiModN, modułowy model multimodalny narodzony w Lozannie

Naukowcy z Federalna Politechnika w Lozannie (EPFL), faktycznie rozwinęła się jedna z najlepszych uczelni na świecie pod względem inżynieryjnym i informatycznym MultiModN, unikalny modułowy model multimodalny zaprezentowany niedawno na NeurIPS2023.

Naukowcy z laboratoriów Machine Learning for Education (ML4ED) oraz Machine Learning and Optimization (MLO) w Szkole Informatyki i Komunikacji EPFL postanowili opracować i przetestować dokładne przeciwieństwo dużej, ale myślącej na mniejszą skalę.

Prowadzone przez nauczyciela Mary-Anne Hartley, dyrektor Laboratorium Globalnych Inteligentnych Technologii Medycznych zorganizowanego wspólnie w MLO i Yale School of Medicine oraz profesor Tanja Käser, dyrektor ML4ED, zespół stworzył model multimodalny, który może uczyć się na podstawie tekstu, obrazów, filmów i dźwięków, ale który w przeciwieństwie do istniejących składa się z zmienna liczba mniejszych modułów, autonomiczne i zależne od danych wejściowych.

Te ostatnie można wybrać na podstawie dostępnych informacji, a następnie ułożyć w ciąg dowolnej liczby, kombinacji lub rodzaju danych wejściowych. Może zatem generować dowolną liczbę lub kombinację prognoz.

"Oceniliśmy MultiModN w dziesięć prawdziwych działań, w tym wsparcie diagnostyki medycznej, przewidywania wyników w nauce i prognozowania pogody”, wyjaśnił Vinitra Swamy, doktorant w ML4ED i MLO oraz pierwszy współautor projektu.

„Dzięki tym eksperymentom wierzymy, że MultiModN jest pierwszym wewnętrznie interpretowalnym i odpornym na brakujące dane podejściem do modelowania multimodalnego".

„Przepis” EPFL na potężniejsze komputery kwantowe
Od sztucznej inteligencji decydujący impuls dla kryptowalut?

Nauczanie maszynowe
Szkoła Informatyki i Komunikacji EPFL (fot. Facebook/EPFL IC)

Pierwszy przypadek użycia: decyzje kliniczne dla personelu medycznego

Pierwszym przypadkiem użycia MultiModN będzie system wsparcia dla decyzje kliniczne dla personelu medycznego w placówkach o ograniczonych zasobach.

W sektorze opieki zdrowotnej często brakuje danych klinicznych, być może ze względu na ograniczone zasoby (pacjent nie może sobie pozwolić na wykonanie konkretnego badania) lub odwrotnie, z powodu nadmiaru zasobów i informacji. MultiModN jest w stanie uczyć się na podstawie tych rzeczywistych danych, nie absorbując ich tak zwanych błędów systematycznych i dostosowywać przewidywania do dowolnej kombinacji lub liczby danych wejściowych.

"Brakujące dane są cechą charakterystyczną w kontekstach o ograniczonych zasobach, a gdy modele uczą się tych brakujących wzorców, mogą kodować błędy w swoich przewidywaniach” podkreślił, Mary-Anne Hartley.

„Potrzeba elastyczności w obliczu nieprzewidywalnie dostępnych zasobów zainspirowała MultiModN".

Najważniejszym wydarzeniem będzie wpływ sztucznej inteligencji i uczenia maszynowego na usługi
Oto wszystkie powody rosnącego wpływu sztucznej inteligencji na sztukę cyfrową

Nauczanie maszynowe
Laboratorium analityczne (Fot. Michał Jarmoluk/Pixabay)

Z laboratorium do prawdziwego życia: trwają badania nad zapaleniem płuc i gruźlicą

Publikacja to jednak dopiero pierwszy krok w stronę wdrożenia i testów w terenie. Profesor Hartley współpracował z kolegami ze Szpitala Uniwersyteckiego w Lozannie (CHUV) i Inselspital, Szpitala Uniwersyteckiego w Bernie, aby przeprowadzić studia kliniczne koncentruje się na diagnozowaniu zapalenia płuc i gruźlicy w warunkach ograniczonych zasobów i jest w trakcie rekrutacji tysięcy pacjentów Sud Africa, Tanzania, Namibia e Benin.

Grupy badawcze podjęły szeroką inicjatywę szkoleniową, dydaktyczną ponad 100 lekarzy systematyczne gromadzenie danych multimodalnych, w tym obrazów ultradźwiękowych i filmów, aby można było przeszkolić MultiModN pod kątem wrażliwości na rzeczywiste dane z regionów o niskich zasobach.

„Zbieramy dokładnie taki rodzaj złożonych danych multimodalnych, do obsługi którego zaprojektowano MultiModN”– powiedział lekarz Noemie Boillat-Blanco, specjalista chorób zakaźnych w CHUV.

„Jesteśmy podekscytowani możliwością zobaczenia modelu, który potrafi docenić złożoność brakujących zasobów w naszych kontekstach i systematyczny brak rutynowych ocen klinicznych”– dodał lekarz Krystyna Keitel Inselspital, szpitala uniwersyteckiego w stolicy Szwajcarii.

Bezpieczeństwo sztucznej inteligencji? Oświadczenie z Bletchley Park jest kluczowe
Oś Axela Springera-OpenAI na rzecz sztucznej inteligencji w służbie dziennikarstwa

Innowacja EPFL ma na celu usprawnienie podejmowania decyzji klinicznych poprzez zapewnienie dostępu do specjalistycznej wiedzy medycznej (Zdjęcie: Irwan/Unsplash)

Uczenie maszynowe w służbie dobra publicznego

Rozwój i szkolenie MultiModN stanowi kontynuację wysiłków EPFL mających na celu dostosowanie narzędzi uczenia maszynowego do rzeczywistości i dla dobra publicznego i następuje wkrótce po uruchomieniu Meditron, model sztucznej inteligencji zaprojektowany specjalnie dla sektora medycznego.

Meditron również należy do kategorii Large Language Models (LLM), jednak w odróżnieniu od modeli ogólnych, które służą szerokiemu zakresowi zadań, koncentruje się na pole medycznei jest bardziej kompaktowy pod względem wielkości, a jednocześnie równie skuteczny.

Celem Meditron jest demokratyzować dostęp do informacji medycznej wysokiej jakości, co pomaga w podejmowaniu decyzji klinicznych.

Badacze z EPFL opracowali dwie wersje zawierające odpowiednio 7 miliardów i 70 miliardów parametrów, a modele zostały przeszkolone w oparciu o wybrane, wysokiej jakości źródła danych medycznych, w tym recenzowaną literaturę naukową i różne wytyczne kliniczne, zapewniając szeroką i dokładną bazę wiedzy.

Zarówno Meditron, zaprezentowany w listopadzie 2023 r., jak i MultiModN wpisują się zatem w misję nowego Centrum AI EPFL, która koncentruje się na tym, jak odpowiedzialna i skuteczna sztuczna inteligencja może promować innowacje technologiczne z korzyścią dla wszystkich sektorów społeczeństwa.

Rewolucyjne czujniki, które mogą zaoszczędzić miliony baterii
AI: wojna, która wkrótce wybuchnie, nie będzie taka, jak się spodziewamy…

Uczenie maszynowe: nowy model multimodalny dla bardziej elastycznej sztucznej inteligencji od EPFL
Zewnętrzna część kampusu EPFL z logo Politechniki Federalnej w Lozannie (Zdjęcie: Facebook/EFPL IC)