EKSPERYMENT
Ponieważ OpenAI udostępniła wersję testową swojego generatora treści GPT-2 postanowiliśmy przetestować jego możliwości sprawdzając, jak poradziłby sobie z uzupełnieniem treści newsa.
Tekst oryginalny z portalu Bloomberg na temat sankcji USA wobec Huaiwei:
"European semiconductor makers said they would still keep on supplying to Huawei Technologies Co., after the effects of the U.S. ban continued to ripple across global markets. The Trump administration on Friday blacklisted Huawei -- which it accuses of aiding Beijing in espionage -- and threatened to cut it off from the U.S. software and semiconductors it needs to make its products."
Ciąg dalszy tekstu wygenerowany przez GPT-2
"The government said Huawei had provided access to government intelligence agencies to boost its capacity to hack into US industrial networks, in breach of a 1994 cyber-security law aimed at preventing the country's military from penetrating the US mainland. Huawei had asked for immunity and the Obama administration granted it. The Commerce Department accused Huawei of providing Chinese hackers with access to its vast network of servers, computers, networking gear, servers, data centers and data-centers in exchange for millions at the company. The Commerce Department has also charged that the company provided software to its Chinese subsidiaries, including selling chipsets that China uses to build industrial control systems."
Jak widać - GPT-2 nie bardzo poradził sobie ze zreferowaniem sprawy i ginie na faktach: wprowadził niepasujące do kontekstu zdanie o ułaskawieniu firmy przez prezydenta Obamę. Czytelnik, który choć trochę orinetuje się w realiach dzisiejszej polityki łatwo zauważy tę nieścisłość. Dużo trudniejsza do wykrycia jest druga wpadka. Generator niejasno powołał się na prawo z 1994 roku, ale nie bardzo potrafił wymyślić dla niego jakiś podmiot. Jednak aby zdemaskować tę drugą nieścisłość, musimy pofatygować się do wyszukiwarki internetowej, żeby to sprawdzić - a to (jak sami się o tym przekonaliśmy) - wcale nie jest takie łatwe. Zatem w generowaniu kontentu, który nie opiera się na faktach, tylko na emocjach i opiniach, generatory mogłyby być jak najbardziej użyteczne.
Zobaczmy inny przykład - wpis na blogu firmy Netguru - porady dla tych, którzy chcą zbudować swoją spójną obecność online. Tekst jest dużo bardziej ogólnikowy i nie zawiera danych ani odwołań do łatwych do sprawdzenia, powszechnie dostępnych informacji. Wyraża tylko pewien pogląd:
Nowadays, with the domination of online communication, mastering digital content became an indispensable element of successful businesses.Building a cohesive, cross-channel online presence that would be a direct extension of the brand identity and narrative in order to deliver a unified user experience could be a tricky endeavour.
Zobaczmy co na to GPT-2 - jak zidentyfikuje temat i jak go uzupełni.
"With any kind of content design, there needs to be a plan and a timeframe. The plan and timeline that will result in a successful outcome are the ones that best serve users.
As a general rule, design elements should fit together to build a cohesive, unified product. Therefore, if you have to create one brand identity for multiple websites, you don't need to create an entire new website that will also function as the identity for different products and applications.
The strategy to follow when it comes to creating your own online marketing marketing plans is to keep them in mind. By adding content that will serve well to each of your marketing plans, you will have a smooth way to structure your design and help in achieving high conversion rates.."
Jak widać GPT-2 w udostępnionej, znacznie osłabionej wersji ma wciąż trudności ze stworzeniem w pełni wiarygodnego newsa. Na szczęście plastyczność naszego mózgu pozwala się dopatrzyć sensu nawet tam, gdzie go nie ma, więc na czytelniku, który nie miałby pojęcia, że jest to tekst generowany maszynowo ta wypowiedź mogłaby sprawić wrażenie nieco mętnej, ale jednak przekazującej jakiś sens. Podejrzewamy jednak, że po zastosowaniu dodatkowych elementów, które w wersji demo zostały zablokowane, sam tekst stałby się nieco bardziej spójny i pod pewnymi warunkami zostałby zaakceptowany przez czytelników, może nawet wzbudziłby dyskusję.
Dziś generatory nie obsługują języka polskiego, ale to tylko kwestia czasu. Technologia analizy tekstu rozwija się bardzo szybko. Nowe metody analizy pozwalają już dość precyzyjnie określać po cechach wypowiedzi prawdopodobieństwo zapadnięcia danej osoby na depresję. Są silne przesłanki pozwalające na podstawie wypowiedzi określać pewne cechy osobowości piszącego. Nie jest to zresztą nic niezwykłego - przecież my sami czytając jakieś teksty wyrabiamy sobie opinię o piszącym.
Perspektywy rozwoju takich systemów są bardzo duże: rekrutacja, systemy mierzące (nie)zadowolenie klientów i pracowników, ocena postaw i preferencji pracowników, systemy zarządzania wiedzą.
Czy LinkedIn zaleją boty? Kto wie?;-)